Распознавание гласных речи по данным электроэнцефалографии крыс с использованием нейронной сети долговременной памяти. Часть 1.

Dec 27, 2023

Абстрактный

За прошедшие годы были проведены значительные исследования по изучению механизмов восприятия и распознавания речи.

Между восприятием речи и памятью существует неразрывная связь. Восприятие речи — это важная для нас способность осознавать звуковые сигналы, а память — это важный способ хранения и извлечения информации. Когда мы лучше воспринимаем речь, мы также лучше запоминаем информацию, которую слышим.

Исследования показывают, что связь между восприятием речи и памятью двусторонняя. С одной стороны, плохое восприятие речи может привести к ухудшению памяти. Это происходит потому, что, когда мы не можем четко слышать речь, мы не можем точно запомнить услышанную информацию. С другой стороны, четкое восприятие речи может улучшить нашу память. Когда мы можем правильно воспринимать и понимать речь, нам также легче запоминать то, что мы слышим.

Поэтому нам следует сосредоточиться на развитии навыков восприятия речи, чтобы улучшить нашу память. Этого можно достичь, тренируя навыки слушания и понимания речи. Мы можем улучшить восприятие речи и память с помощью таких занятий, как прослушивание записей, просмотр фильмов и посещение языковых курсов.

Короче говоря, существует тесная связь между восприятием речи и памятью, и нам следует сосредоточиться на развитии навыков восприятия речи, чтобы улучшить нашу память. Благодаря активным тренировкам и практике мы можем постоянно улучшать уровень восприятия речи, лучше понимать и запоминать то, что слышим. Видно, что нам необходимо улучшить память, а Cistanche Deserticola может значительно улучшить память, поскольку Cistanche Deserticola также может регулировать баланс нейротрансмиттеров, например, повышая уровень ацетилхолина и факторов роста. Эти вещества очень важны для памяти и обучения. Кроме того, мясо также может улучшить кровоток и способствовать доставке кислорода, что может гарантировать, что мозг получает достаточное количество питательных веществ и энергии, тем самым повышая жизнеспособность и выносливость мозга.

increase brain power

Нажмите «Знать», чтобы улучшить кратковременную память.

Электроэнцефалография (ЭЭГ) — мощный инструмент для определения активности мозга; поэтому он широко использовался для определения нейронной основы распознавания речи.

В частности, для классификации распознавания речи в центре внимания находятся подходы, основанные на глубоком обучении, поскольку они могут автоматически изучать и извлекать репрезентативные функции посредством сквозного обучения.

Это исследование было направлено на идентификацию конкретных компонентов, которые потенциально связаны с представлением фонем в мозге крысы, и на распознавание активности мозга для каждого стимула гласных на основе одного испытания с использованием двунаправленной сети кратковременной памяти (BiLSTM) и классических методов машинного обучения.

Использовали девятнадцать самцов крыс Sprague-Dawley, которым была проведена операция по имплантации микроэлектродов для регистрации сигналов ЭЭГ из двусторонних передних слуховых полей. Были выбраны пять различных стимулов гласной речи: /a/, /e/, /i/, /o/ и /u/, которые имеют сильно различающиеся формантные частоты. ЭЭГ, записанная под случайно заданными гласными стимулами, была минимально предварительно обработана и нормализована с помощью преобразования z-показателя, который использовался в качестве входных данных для классификации распознавания речи.

Сеть BiLSTM показала лучшую производительность среди классификаторов, достигнув общей точности, показателя f{{0}} и значений κ Коэна 75,18%, 0,75 и 0,68 соответственно. используя метод 10-кратной перекрестной проверки.

Эти результаты показывают, что слои LSTM могут эффективно моделировать последовательные данные, такие как ЭЭГ; следовательно, информативные функции могут быть получены с помощью BiLSTM, обученного с помощью сквозного обучения, без каких-либо дополнительных методов извлечения функций, созданных вручную.

Введение

Речь передает в мозг огромное количество информации, и одной из типичных особенностей мозга является распознавание и классификация звуков поведения животных.

Учитывая ее важность, попытки исследовать механизмы распознавания звуков речи предпринимаются уже более 100 лет. Одно из первых нейролингвистических исследований распознавания речи было проведено в 1870-х годах немецким нейропсихиатром, который обнаружил решающую роль верхней височной извилины в восприятии речи и пришел к выводу, что нарушения распознавания речи были связаны с повреждением левой верхней височной извилины. 1].

В настоящее время известно, что распознавание речи осуществляется преимущественно за счет дорсолатеральных височных долей, включая верхнюю височную извилину, которая содержит первичную слуховую кору (А1) и переднее слуховое поле (ААФ) [2].

increase memory

Хотя способы кодирования и интерпретации фонем в мозге остаются спорными, широко признано, что распознавание звука является категоричным. То есть различение лучше для стимулов, принадлежащих к разным фонетическим категориям, чем для стимулов, принадлежащих к одной и той же категории, даже если акустические различия эквивалентны [3, 4].

Не только люди, но и системы восприятия животных сортируют непрерывно меняющиеся звуковые стимулы в набор дискретных категорий [5].

С развитием нейрофизиологических исследований электроэнцефалография (ЭЭГ) стала широко использоваться в исследованиях, связанных с нейробиологией и нейронной инженерией [6].

Высокое временное разрешение и чувствительность к различным функциональным состояниям мозга делают ЭЭГ мощным инструментом для исследования активности мозга в реальном времени, и растет интерес к выяснению нейронной основы категориального восприятия. Традиционно в исследованиях на людях сигналы ЭЭГ регистрируются неинвазивно с кожи головы. На уровне восприятия звука или речи для изучения нейронных коррелятов категориального восприятия широко используется компонент слухового вызванного потенциала (СВП), который вызывается необычными звуками (НМН) [7, 8]. Наатанен и др. нашли доказательства языково-зависимого представления гласных в человеческом мозге [9].

Другое исследование изучило категориальное восприятие лексических тонов и обнаружило, что контраст между категориями вызывает большее MMN, чем различие внутри категории [10]. В экспериментах на животных более точные сигналы ЭЭГ были получены с помощью инвазивных процедур.

Например, нейронные корреляты категориального восприятия и нейронные репрезентации различных звуков были изучены с использованием внеклеточной регистрации потенциала действия.

Нейроны, проецирующие полосатое тело певчих птиц, демонстрируют категориальные слуховые реакции и высокочувствительны к изменениям длительности нот [11]. Кроме того, Килгард и др.изучали различные нейронные представления согласных и гласных звуков, используя интрапаренхиматозную запись в мозгу крыс. Записывая много- и одноединичные ответы нижних холмиков и А1, они предположили, что спайк кодирует гласные звуки, а время спайка кодирует согласные звуки [12, 13].

Эффекты обучения распознаванию звука на крысиной модели аутизма также были исследованы на основе предыдущих результатов, связывающих нейронные реакции на звуковые стимулы со способностью восприятия звука [14].

Более того, недавнее исследование показало, что электрокортикография, записанная с помощью многоканальной матрицы, коррелирует с пассивным воздействием определенного звука даже в слуховой коре анестезированных крыс [15].

Подходы машинного обучения использовались для практического использования ЭЭГ в самых разных исследованиях. Использование методов машинного обучения позволяет исследовать богатую информацию, которую трудно получить из сигналов ЭЭГ [6].

Таким образом, классификация на основе ЭЭГ может быть выполнена в следующих областях с помощью традиционных алгоритмов машинного обучения (например, машина опорных векторов (SVM), k-ближайших соседей (KNN) и наивный Байес (NB)): воображение движений, распознавание эмоций, выявление психических заболеваний, выявление событийно-зависимого потенциала (ERP) и т. д. [16, 17].

improve your memory

Кроме того, в последние годы благодаря развитию графических процессоров и доступности больших наборов данных стало возможным проводить классификацию на основе ЭЭГ с использованием различных сетей глубокого обучения [6, 18, 19]. По сравнению с традиционными методами машинного обучения Сети глубокого обучения могут автоматически обнаруживать и извлекать соответствующие представления из входных данных [20, 21].

Следовательно, даже при недостаточных предварительных экспертных знаниях многообещающие результаты могут быть получены с помощью алгоритмов глубокого обучения, которые не требуют дополнительного ручного процесса извлечения признаков [22, 23].

Например, в области речи, изображений и видео результаты были значительно улучшены за счет применения алгоритмов глубокого обучения [24–26]. Однако неясно, всегда ли такие превосходные результаты сопровождают область классификации на основе ЭЭГ при использовании подходов глубокого обучения вместо традиционных методов машинного обучения [27].

Рой и др. показали, что в большинстве исследований (исключая четыре из 102 исследований) подход глубокого обучения привел к более высокой производительности, чем традиционный подход машинного обучения, а наибольшее улучшение точности составило 35,3% [18, 28].

Кроме того, среди различных областей классификационных исследований на основе ЭЭГ активно проводятся исследования классификации ERP с применением как традиционных методов машинного обучения, так и методов глубокого обучения.

В одном из ранних исследований традиционный метод большого усреднения использовался для улучшения низкого отношения сигнал/шум (SNR), одного из ограничений сигналов ЭЭГ, и для получения сигналов ERP.

В этих исследованиях несколько компонентов ERP рассматривались как наборы признаков для классификации [29, 30]. В исследованиях на животных такие характеристики ERP, как пиковая амплитуда и задержка, также использовались для распознавания сигналов ERP [31, 32].

Однако классификации на основе ЭЭГ с одним испытанием также уделяется большое внимание, поскольку известно, что данные ЭЭГ на уровне одиночного испытания содержат более функциональную и богатую информацию, чем сигналы ССП, полученные с помощью традиционного метода большого усреднения [33, 34].

Поэтому в последующих исследованиях функции, извлеченные с помощью различных алгоритмов, таких как вейвлет-алгоритмы [35], модели гауссовой смеси [36] и пространственная фильтрация [37] для классификации с использованием традиционных методов машинного обучения [38, 39]. Однако извлечение оптимального Создание вручную функций из однократной ЭЭГ требует много времени и труда, поскольку необходимо выполнить дополнительные этапы обработки. В этом контексте методы глубокого обучения могут облегчить эту проблему, обеспечивая сквозное обучение.

Наиболее распространенной архитектурой глубокого обучения является сверточная нейронная сеть (CNN), за которой следует рекуррентная нейронная сеть (RNN). CNN — это особый тип архитектуры глубокого обучения, широко используемый для классификации на основе ЭЭГ с одним испытанием [6]. Входные данные CNN получаются из необработанных или предварительно обработанных данных ЭЭГ, в основном в следующей форме: количество каналов × количество временных точек в одном испытании.

Более того, были продемонстрированы значительные результаты классификации, и известно, что она работает лучше всего при использовании изображений спектрограмм в качестве входных данных [40–44]. В отличие от CNN, RNN является весьма предпочтительной архитектурой, особенно при обработке последовательных данных (как в приложениях обработки естественного языка), поскольку рекуррентное соединение архитектуры обучения RNN позволяет рекурсивно использовать предыдущую информацию сети в качестве текущих входных данных [45]. ].

Долговременная краткосрочная память (LSTM) — это своего рода архитектура RNN, предложенная Хохрайтером и Шмидхубером для преодоления проблем взрыва и исчезновения градиента RNN [46]. Двунаправленный LSTM (BiLSTM) — это дальнейшее развитие LSTM, которое объединяет прямые и обратные скрытые уровни для доступа как к предыдущей, так и к последующей информации.

Хотя модель BiLSTM намного сложнее и может потребовать дополнительных вычислительных мощностей, ожидается, что она решит задачи последовательного моделирования и классификации лучше, чем LSTM [47].

Ранее мы пытались классифицировать сигналы ЭЭГ в ходе единичного исследования для трех гласных звуков: /a/, /o/ и /u/, используя методы машинного обучения человеческого мозга.

После применения соответствующих алгоритмов обработки сигналов, включая многомерное эмпирическое модовое разложение (MEMD), ответы ЭЭГ были эффективно классифицированы в соответствии с каждым гласным звуком с использованием классификатора линейного дискриминантного анализа (LDA). На основе частотно-временного представления (TFR) сигналов ЭЭГ также было установлено, что компоненты альфа-диапазона являются наиболее связанными нейронными реакциями восприятия гласных звуков [48].
Однако из-за низкого отношения сигнал/шум сигналов ЭЭГ человека необходимо дополнительно оценить представление фонем в мозге с помощью более инвазивной техники записи, позволяющей получать более надежные сигналы ЭЭГ.

Кроме того, необходимо провести дальнейшие исследования эффективности классификации каждого алгоритма машинного обучения при классификации ответов ЭЭГ на разные фонемы.

Основная цель этого исследования состояла в том, чтобы определить конкретные компоненты ЭЭГ, которые могут быть связаны с речевым представлением в мозгу крысы, чтобы дополнительно прояснить реакцию мозга на распознавание звуков речи.

Для получения более точных сигналов ЭЭГ эпидуральные сигналы ЭЭГ в ответ на слуховые стимулы записывались в ААФ, которая, как известно, играет важную роль в слуховом восприятии и категоризации [2]. Кроме того, в этом исследовании пытались различить различные реакции мозга на каждый звук речи в рамках одного испытания с использованием сетей LSTM и других традиционных методов машинного обучения.

Было высказано предположение, что сеть BiLSTM подойдет для классификации ответов ЭЭГ на стимулы гласных и превзойдет другие классические классификаторы, поскольку сеть может эффективно моделировать долгосрочные зависимости последовательных данных, таких как ЭЭГ. Насколько известно автору, сети LSTM не применялись для классификации ответов ЭЭГ на слуховые стимулы, и это первое исследование, в котором используется алгоритм глубокого обучения для анализа эпидуральных сигналов ЭЭГ от ААФ.

improving brain function

Более того, с помощью алгоритма глубокого обучения ответы ЭЭГ были классифицированы как слуховые стимулы с использованием сквозного обучения с минимально предварительно обработанными сигналами ЭЭГ без каких-либо дополнительных методов выделения признаков.


For more information:1950477648nn@gmail.com


Вам также может понравиться