Speech perception in various acoustic environments: Comparison of different sound coding strategies

Oleg V. Kolokolov; Колоколов Олег Владиславович; Aleksandr O. Kuznetsov; Кузнецов Александр Олегович; Anton S. Machalov; Мачалов Антон Сергеевич; Tatyana Yu. Vladimirova; Владимирова Татьяна Юльевна; Ivan V. Koshel; Кошель Иван Владимирович

doi:10.35693/2500-1388-2021-6-4-14-18

Сравнение разборчивости речи в различных акустических условиях при использовании стратегий кодирования разных поколений

Авторы: Колоколов О.В.¹, Кузнецов А.О.²^,3, Мачалов А.С.²^,3, Владимирова Т.Ю.⁴, Кошель И.В.⁵
Учреждения:
1. Астраханский филиал ФГБУ «Национальный медицинский исследовательский центр оториноларингологии Федерального медико-биологического агентства»
2. ФГБУ «Национальный медицинский исследовательский центр оториноларингологии Федерального медико-биологического агентства»
3. ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н.И. Пирогова» Минздрава России
4. ФГБОУ ВО «Самарский государственный медицинский университет» Минздрава России
5. ФГБОУ ВО «Ставропольский государственный медицинский университет» Минздрава России
Выпуск: Том 6, № 4 (2021)
Страницы: 14-18
Раздел: Болезни уха, горла и носа
Статья опубликована: 15.12.2021
URL: https://innoscience.ru/2500-1388/article/view/83088
DOI: https://doi.org/10.35693/2500-1388-2021-6-4-14-18
ID: 83088

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Цель – сравнить разборчивость речи в условиях тишины и шума при использовании базовой стратегии кодирования звука (CIS) и современной стратегии (ACE) в течение 24 месяцев.

Материалы и методы. В исследовании приняли участие 30 пациентов, проходивших реабилитацию на базе ФГБУНМИЦО ФМБА России с 2018 по 2021 гг. В группу вошли взрослые пациенты в возрасте от 18 до 45 лет на момент имплантации, которые свободно говорили по-русски и потеряли слух только после формирования речи. После подключения речевого процессора и его программирования пациентам выполнялась речевая аудиометрия в свободном звуковом поле с использованием слоговых и речевых таблиц в условиях тишины и шума, полученные результаты вносились в специально созданные электронные таблицы в программе Microsoft Excel и подвергались статистическому анализу.

Результаты. Разборчивость слогов у пациентов со стратегиями CIS и ACE в течение 24 месяцев принимала сопоставимые значения и росла с накоплением опыта (от 52±7 в начале исследования до 72±7,25% в конце), наибольший прирост разборчивости отмечался в первые 3 месяца после подключения речевого процессора (с 52±7 до 66±7,87%). При использовании таблицы Гринберга в тишине в группе с CIS-стратегией и ACE-стратегией наблюдаются сопоставимые результаты с небольшим преимуществом ACE-стратегии до 6 месяца исследования. Далее наблюдается значимо более высокий прирост разборчивости речи в группе с ACE-стратегией в сравнении с группой с CIS: при тестировании спустя 12 месяцев с CIS разборчивость достигла 67±8,62%, с ACE – 71±7,54%, спустя 24 месяца с CIS – 68±9,12%, с ACE – 72±8,62%. В условиях шума наблюдалось увеличение разницы между группами начиная с 6 месяцев (41±5,33% с CIS против 43,3±7,55% c ACE) с наибольшей разницей спустя 24 месяца (51±5,5% против 57±8,25%).

Заключение. Использование современной стратегии кодирования с более высокой разрешающей способностью в сравнении с базовой стратегией позволяет улучшить разборчивость речи при использовании сложного речевого материала с наибольшим эффектом в условиях шума.

Ключевые слова

кохлеарная имплантация, тугоухость, стратегия кодирования звукового сигнала

Полный текст

КИ – кохлеарная имплантация; РП – речевой процессор.

ВВЕДЕНИЕ

Стратегии кодирования системы кохлеарной имплантации позволяют передать пользователю наиболее важную информацию в виде электрического стимула исходного акустического сигнала для улучшения восприятия речи в связи с глубокой потерей слуха [1, 2]. В процессе кодирования акустического сигнала для передачи главных характеристик звука обычно используется извлечение огибающей (данные изменения амплитуды сигнала), которая поддерживает восприятие речи [3]. Стратегия кодирования с непрерывной перемежающейся выборкой (CIS), которая используется в современном программном обеспечении для клинического программирования CI, использует неодновременные перемежающиеся двухфазные импульсы для представления информации огибающей (изменение амплитуды звукового сигнала при постоянной частоте) на отдельные электроды [4]. Стратегия кодирования CIS в значительной степени заменила стратегии кодирования, основанные на извлечении признаков, которые явно представляют основную частоту (F0) и формантные частоты, благодаря превосходному восприятию речи как в тишине, так и в шуме [5]. Данная стратегия позволила решить проблему взаимодействия каналов с использованием несинхронных импульсов с чередованием и увеличить скорость стимуляции на канал, что оказало значительное влияние на распознавание речи в сравнении с более ранними стратегиями [6].

Последующим развитием стратегии CIS у компании Cochlear стали стратегия Spectral Peak (SPEAK – спектральный максимум, 1994) и ACE (Advanced Combination Encoder, 2002). Увеличение каналов, стимулированных в тонотопическом порядке от высоких частот к низким за цикл до 10 в SPEAK стратегии, дало преимущество в разборчивости речи большинству пациентов за счет более гибкого изменения максимумов и стимуляции соответствующих электродов [7]. В свою очередь, ACE сочетает в себе еще большее количество обработанных полос с более высокой скоростью стимуляции за счет наличия 22 электродов по сравнению с предыдущей CIS и SPEAK. 22 полосы дают лучшее разрешение по частоте. В стратегии ACE канал генерируется одним имплантированным электродом, а исходный спектр воспроизводится 8–10 фиксированными каналами [8].

Несмотря на преимущество новых стратегий, по техническим характеристикам во многих исследованиях четких различий выявить не удалось и результаты для восприятия речи были получены смешанные [9]. В этих исследованиях сравнивалась производительность со стратегией кодирования CIS и ACE при использовании прошлых моделей имплантов компании Cochlear CI24R/RE (Straight и Contour Advance), а в последние годы широкое распространение получила новая модель CI512 с новой электродной решеткой [10]. Некоторые исследователи сообщили об улучшении восприятия речи, которое измерялось количеством правильно названных слогов, слов или предложений в шуме, когда испытуемые слушали их с использованием стратегии кодирования ACE, в то время как другие сообщили об отсутствии существенной разницы в характеристиках восприятия речи [9].

Ограничения предыдущих исследований включают различия в опыте прослушивания и различия в настройках между стратегиями кодирования, а также в сроках наблюдения (от нескольких недель до 6 месяцев).

ЦЕЛЬ

Сравнить характеристики восприятия речи со стратегиями кодирования CIS и ACE в течение 24 месяцев.

МАТЕРИАЛ И МЕТОДЫ ИССЛЕДОВАНИЯ

В исследовании приняли участие 30 пациентов (18 человек женского пола и 12 человек мужского), выбранных случайным образом из всех пациентов, проходивших реабилитацию на базе ФГБУ НМИЦО ФМБА России в период с 2018 по 2021 гг. Возраст пациентов на момент кохлеарной имплантации – от 18 до 45 лет (средний возраст 35,16±6,70 года).

Для имплантации были использованы многоканальные кохлеарные импланты (Cochlear Nucleus Freedom, model CI24RE и CI512) и использован речевой процессор Nucleus 5 CP810 или Nucleus 6 CP910. Коррекция программы стимуляции (MAP) проводилась с использованием программы Cochlear Custom Sound 5.2 (Cochlear Ltd., Australia). Аудиологи центра, ответственные за программирование тематических карт, знали о стратегии кодирования, используемой каждым испытуемым. Напротив, как пациент, так и специалисты (сурдопедагоги), выполняющие послеоперационную оценку восприятия речи, были не осведомлены о стратегии кодирования отдельного субъекта, чтобы контролировать возможные предубеждения.

Критерии включения в исследование: свободное владение русским языком на бытовом уровне, потеря слуха после формирования речи, односторонняя имплантация КИ, систематическое использование речевого процессора от 8 часов в день, регулярное посещение сурдолога для проведения настроечных сессий согласно плану исследования.

Критерии исключения: потеря слуха после перенесенного гнойного менингита, формирование потери слуха до развития речи, наличие затруднений в общении у пациентов со специалистами в виду незнания русского языка или выраженного нарушения памяти, наличие психических заболеваний, двусторонняя имплантация КИ, наличие неисправностей в работе системы кохлеарной имплантации (речевого процессора или кохлеарного импланта в виде неисправных электродов), непосещение аудиолога согласно плану, использование речевого процессора менее 8 часов в сутки, состояние пациента.

Испытуемые проходили тестирование через 1, 3, 6, 12 и 24 месяца после первоначальной активации, при каждом визите проходили тестирование разборчивости речи с последующим программированием речевого процессора. Измерения восприятия речи включали слоги (согласный + гласный), слоговые таблицы Н.Б. Покровского (20 штук на тест) в тишине, слова из таблицы Гринберга (20 слов) в тишине и шуме(+10 дБ SNR).

Для проведения тестирования была использована комната, в которой через колонки (2 шт.) с использованием клинического аудиометра Interacoustics AC40 и подключенного к нему ноутбука воспроизводились записи речевых таблиц, начитанных диктором. Колонки были расположены по направлению к испытуемому под углом 45° на расстоянии 1 метра.

При первоначальной активации внешнего речевого процессора (РП) пациенты были случайным образом выбраны для подключения стратегии кодирования CIS и ACE. Использовалась исключительно назначенная стратегия кодирования в течение первых 24 месяцев после активации РП. Аудиологи, ответственные за программирование, проводили рутинные процедуры картирования для оптимизации качества звука, включая поведенческое измерение порогового уровня (T-) и уровня комфорта (C-), балансировку громкости и отключение электродов, когда это необходимо.

Случайно выбранные пациенты (30 человек) были разделены на 2 группы. Первая группа (15 человек) стала пользователем стратегии CIS, вторая группа (15 человек) использовала стратегию ACE. Поскольку пациенты каждой группы соответствовали критериям отбора, группы были сопоставимы и однородны.

Пациенты не знали, ни к какой группе они относятся, ни какой стратегией кодирования звука пользуются. Все пациенты наблюдались в течение длительного времени (24 месяца) с достижением контрольных точек исследования, поэтому данное исследование можно отнести к слепому рандомизированному перспективному.

Средний возраст для первой группы (CIS) составил 34,8±6,08 года, для второй (ACE) – 35,53±5,10 года, статистически значимых различий в возрасте между группами не было. В первой группе было 8 мужчин и 7 женщин, во второй группе – 4 мужчины и 11 женщин.

Полученные результаты речевой аудиометрии в свободном звуковом поле вносились в электронные таблицы в программе Microsoft Excel и подвергались статистическому анализу методом сравнения средних значений для каждого результата между группами и вычислением среднего квадратического отклонения для оценки степени варьирования полученных данных.

РЕЗУЛЬТАТЫ

За выбранный интервал наблюдения (1, 3, 6, 12 и 24 месяца) для разборчивости речи по слоговым таблицам получен следующий результат (таблица 1).

Таблица 1. Разборчивость речи с использованием слоговых таблиц в тишине

Мы наблюдали рост разборчивости речи в двух группах с течением времени и накоплением опыта использования системы КИ с наибольшим ростом в первые 3 месяца (с 52±7 до 66±7,87%). Разборчивость слогов между группами пациентов со стратегиями CIS и ACE на всем диапазоне исследования принимала сопоставимые значения (от 52±7 в начале исследования до 72±7,25% в конце).

Сравнивая результаты разборчивости речи в тишине с использованием речевой таблицы Гринберга (таблица 2) в группе с CIS-стратегией и ACE-стратегией, мы также наблюдали сопоставимые результаты с небольшим преимуществом ACE-стратегии до 6 месяца исследования. Однако после этого срока интенсивность прироста разборчивости речи стала значимо выше в группе с ACE-стратегией в сравнении с группой с CIS. Так, при тестировании спустя 12 месяцев с CIS разборчивость достигла 67±8,62%, с ACE – 71±7,54%, спустя 24 месяца с CIS – 68±9,12%, с ACE – 72±8,62%. Для выявления достоверности различий средних значений разборчивости речи мы использовали критерий Стьюдента (t-критерий). В данном случае критерий принял значение меньше 0,05 (p<0.05), что подтвердило наличие значимых различий между выборками.

Таблица 2. Разборчивость речи в тишине при использовании речевой таблицы Гринберга

При сравнении результатов разборчивости речи в условиях шума (таблица 3) мы наблюдали увеличение разницы между группами начиная с 6 месяцев (41±5,33% с CIS против 43.3±7,55% c ACE) с наибольшей разницей спустя 24 месяца (51±5,5% против 57±8,25%). Достоверность наличия значимых различий также подтверждена значением критерия Стьюдента менее 0,05 (p<0.05).

Таблица 3. Разборчивость речи в шуме при использовании речевой таблицы Гринберга

ОБСУЖДЕНИЕ

Выявленное преимущество использования стратегии ACE над CIS становится значимым только при наличии опыта использования системы КИ от 6 месяцев и наиболее выраженным – к 24 месяцам. Оценка различий в более короткие сроки, на наш взгляд, затруднено ввиду необходимости привыкания к изменению звучания слогов и слов, а также необходимости накопления опыта использования. Сравнения, ранее проводимые другими авторами, были ограничены значительно более коротким временным промежутком (от двух недель до нескольких месяцев) [11, 12], вследствие чего было затруднительно обнаружить значимые различия и определить предпочтения пациентов [13, 12].

Переход от стратегии CIS к ACE отражается в изменениях скорости стимуляции на канал, количестве используемых каналов для воспроизведения необходимого спектра звука, ширины импульса и силе стимуляции [8]. Более высокие результаты пациентов со стратегией ACE в нашем исследовании при использовании сложного речевого материала как в тишине, так и в условиях шума можно объяснить большей скоростью стимуляции данной стратегии. Это позволяет получать больше информации о полученном звуковом сигнале и делать более точные выводы в сложных условиях, а также накапливать необходимый опыт использования алгоритма обработки и передачи звука системы КИ.

ВЫВОДЫ

Использование современной стратегии кодирования с более высокой разрешающей способностью (ACE) в сравнении с базовой стратегией (CIS) позволяет улучшить разборчивость речи при использовании сложного речевого материала с наибольшим эффектом в условиях шума. Знание особенностей стратегий кодирования звука позволяет аудиологу провести программирование системы кохлеарной имлантации с достижением наилучших результатов в реабилитации.

Конфликт интересов: все авторы заявляют об отсутствии конфликта интересов, требующего раскрытия в данной статье.

Об авторах

Олег Владиславович Колоколов

Астраханский филиал ФГБУ «Национальный медицинский исследовательский центр оториноларингологии Федерального медико-биологического агентства»

Автор, ответственный за переписку.
Email: surdologiya_scco@mail.ru
ORCID iD: 0000-0002-7155-9544

соискатель на звание канд. мед. наук, заведующий поликлиническим отделением

Россия, Астрахань

Александр Олегович Кузнецов

ФГБУ «Национальный медицинский исследовательский центр оториноларингологии Федерального медико-биологического агентства»; ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н.И. Пирогова» Минздрава России

Email: aokuznet@mail.ru
ORCID iD: 0000-0001-6499-7506

д-р мед. наук, главный врач; доцент кафедры оториноларингологии

Россия, Москва

Антон Сергеевич Мачалов

Email: anton-machalov@mail.ru
ORCID iD: 0000-0002-5706-7893

канд. мед. наук, начальник научно-клинического отдела аудиологии, слухопротезирования и слухоречевой реабилитации; врач сурдолог-оториноларинголог; доцент кафедры оториноларингологии факультета дополнительного профессионального образования

Россия, Москва

Татьяна Юльевна Владимирова

ФГБОУ ВО «Самарский государственный медицинский университет» Минздрава России

Email: vladimirovalor@yandex.ru
ORCID iD: 0000-0003-1221-5589

канд. мед. наук, доцент, заведующая кафедрой и клиникой оториноларингологии им. академика И.Б. Солдатова

Россия, Самара

Иван Владимирович Кошель

ФГБОУ ВО «Ставропольский государственный медицинский университет» Минздрава России

Email: Koshel1979@mail.ru
ORCID iD: 0000-0002-9337-8592

д-р мед. наук, профессор, и.о. заведующего кафедры оториноларингологии, пластической хирургии с курсом ДПО

Россия, Ставрополь

Список литературы

Loizou PhC. Speech processing in vocoder-centric cochlear implants. Cochlear and Brainstem Implants. Advances in Otorhinolaryngology. 2006;64:109-143. doi: 10.1159/000094648
Lebedeva NA, Diab HMA, Machalov AS, et al. Cochlear implantation in Yakutia. Yakutsk Medical Journal. 2021;3(75):37-39. (In Russ.). [Лебедева Н.А., Диаб Х.М.А., Мачалов А.С. и др. Кохлеарная имплантация в Якутии. Якутский медицинский журнал. 2021;3(75):37-39. doi: 10.25789/YMJ.2021.75.09
Kolokolov OV, Kuznetsov AO, Machalov AS, Grigoreva AA. Comparison of sound perception using CIS and ACE sound coding strategies in cochlear implants. Science and Innovations in Medicine. 2021;6(3):8-12. (In Russ.). [Колоколов О.В., Кузнецов А.О., Мачалов А.С., Григорьева А.А. Сравнение звуковосприятия при использовании стратегий кодирования звукового сигнала CIS и ACE системой кохлеарной имплантации. Наука и инновации в медицине. 2021;6(3):8-12]. doi: 10.35693/2500-1388-20201-6-3-8-12
Wilson BS, Finley CC, Lawson DT, et al. Better speech recognition with cochlear implants. Nature. 1991;352:236-238. PMID: 1857418 doi: 10.1038/352236a0
Kolokolov OV, Kuznetsov AO, Machalov AS, Grigoreva AA. The history of the modernization of sound strategies of the system cochlear implantation. Health and Education millennium. 2018;20(12):82-86. (In Russ.). [Колоколов О.В., Кузнецов А.О., Мачалов А.С., Григорьева А.А. К вопросу истории модернизации стратегий кодирования звукового сигнала системами кохлеарной имплантации. Здоровье и образование в XXI веке. 2018;20(12):82-86]. doi: 10.26787/nydha-2226-7425-2018-20-12-82-86
Kim HN, Shim YJ, Chung MH, Lee YH. Benefit of ACE compared to CIS and SPEAK coding strategies. Adv Otorhinolaryngol. 2000;57:408-11. doi: 10.1159/000059211
Skinner MW, Holden LK, Whitford LA, et al. Speech recognition with the nucleus 24 SPEAK, ACE, and CIS speech coding strategies in newly implanted adults. Ear Hear. 2002;23(3):207-23. doi: 10.1097/00003446-200206000-00005
Vondrasek M, Sovka P, Tichy T. ACE Strategy with Virtual Channels. Radioengineering. 2008;17(4):55-61.
Battmer RD, Dillier N, Lai WK, et al. Speech perception performance as a function of stimulus pulse rate and processing strategy preference for the Cochlear™ Nucleus® CI24RE device: Relation to perceptual threshold and loudness comfort profiles. International Journal of Audiology. 2010;49(9):657-666. doi: 10.3109/14992021003801471
Daikhes NA, Balakina AV, Machalov AS, et al. Sequential bilateral cochlear implantation in children: selection criteria for second ear surgery. Science and Innovations in Medicine. 2021;6(2):13-19. (In Russ.). [Дайхес Н.А., Балакина А.В., Мачалов А.С. и др. Последовательная билатеральная кохлеарная имплантация у детей: критерии отбора пациентов для операции на втором ухе. Наука и инновации в медицине. 2021;6(2):13-19]. doi: 10/35693|2500-1388-2021-6-2-13-19
Psarros CE, Plant KL, Lee K, et al. Conversion from the SPEAK to the ACE strategy in children using the nucleus 24 cochlear implant system: speech perception and speech production outcomes. Ear Hear. 2002;23(1):18S-27S. doi: 10.1097/00003446-200202001-00003
Donaldson GS, Dawson PK, Borden LZ. Within-subjects comparison of the HiRes and Fidelity120 speech processing strategies: Speech perception and its relation to place-pitch sensitivity. Ear Hear. 2011;32(2):238-50. doi: 10.1097/AUD.0b013e3181fb8390
Bazon AC, Mantello EB, Gonçales AS, et al. Auditory Speech Perception Tests in Relation to the Coding Strategy in Cochlear Implant. Int Arch Otorhinolaryngol. 2016;20(3):254-260. doi: 10.1055/s-0035-1559595

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Таблица 1. Разборчивость речи с использованием слоговых таблиц в тишине

Скачать (63KB)

Метаданные

3. Таблица 2. Разборчивость речи в тишине при использовании речевой таблицы Гринберга

Скачать (50KB)

Метаданные

4. Таблица 3. Разборчивость речи в шуме при использовании речевой таблицы Гринберга

Скачать (58KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация