Speech perception in various acoustic environments: Comparison of different sound coding strategies

Oleg V. Kolokolov; Колоколов Олег Владиславович; Aleksandr O. Kuznetsov; Кузнецов Александр Олегович; Anton S. Machalov; Мачалов Антон Сергеевич; Tatyana Yu. Vladimirova; Владимирова Татьяна Юльевна; Ivan V. Koshel; Кошель Иван Владимирович

doi:10.35693/2500-1388-2021-6-4-14-18

Speech perception in various acoustic environments: Comparison of different sound coding strategies

Authors: Kolokolov O.V.¹, Kuznetsov A.O.²^,3, Machalov A.S.²^,3, Vladimirova T.Y.⁴, Koshel I.V.⁵
Affiliations:
1. The National Medical Research Center for Otorhinolaryngology of the Federal Medico-Biological Agency
2. The National Medical Research Center for Otorhinolaryngology of the Federal Medico-Biological Agency
3. Pirogov Russian National Research Medical University
4. Samara State Medical University
5. Stavropol State Medical University
Issue: Vol 6, No 4 (2021)
Pages: 14-18
Section: ENT Disorders
Published: 15.12.2021
URL: https://innoscience.ru/2500-1388/article/view/83088
DOI: https://doi.org/10.35693/2500-1388-2021-6-4-14-18
ID: 83088

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

Objectives – to compare speech perception in a quiet and noisy environment using a basic audio coding strategy (CIS) and a modern strategy (ACE) over a period of 24 months.

Material and methods. The study involved 30 patients who received hearing rehabilitation in the National Medical Research Center for Otorhinolaryngology of the Federal Medico-Biological Agency in the period of 2018 – 2021. The inclusion criteria were: implantation in the adult age (from 18 to 45 years), speaking fluent Russian, hearing loss after speech skills formation. After initialization and programming of the speech processor, the patients underwent speech audiometry in a free sound field using syllabic and speech tables in silence and noise. The results were collected in the special MS Excel templates and subjected to statistical analysis.

Results. The intelligibility of syllables in patients with CIS and ACE strategies took comparable values and grew with experience within 24 months (from 52 ± 7.00% at the beginning of the study to 72 ± 7.25% at the end), the greatest increase in intelligibility was noted in the first 3 months after connecting the speech processor (from 52 ± 7.00% to 66 ± 7.87%). Using the Greenberg speech table in silence, the groups with the CIS strategy and the ACE strategy obtained similar results with a slight advantage of the ACE strategy up to 6 months of the study. Later, a significantly higher increase in speech perception was observed in the group with the ACE strategy compared to the group with CIS. After 12 months, the perception tests showed 67 ± 8.62% in patients with CIS strategy and 71 ± 7.54% in patients with ACE, after 24 months the results were 68 ± 9.12%, and 72 ± 8.62% respectively. Under noise conditions, we observed an increase of the difference between groups starting from 6 months (41 ± 5.33% in patients with CIS versus 43.3 ± 7.55% with ACE), the largest difference was registered after 24 months (51 ± 5.50% versus 57 ± 8.25% respectively).

Conclusion. When compared to the basic strategy, a modern sound coding strategy with a higher resolution can improve speech perception especially with complex speech patterns and in a noisy environment.

Keywords

cochlear implantation, hearing loss, sound coding strategy

Full Text

КИ – кохлеарная имплантация; РП – речевой процессор.

ВВЕДЕНИЕ

Стратегии кодирования системы кохлеарной имплантации позволяют передать пользователю наиболее важную информацию в виде электрического стимула исходного акустического сигнала для улучшения восприятия речи в связи с глубокой потерей слуха [1, 2]. В процессе кодирования акустического сигнала для передачи главных характеристик звука обычно используется извлечение огибающей (данные изменения амплитуды сигнала), которая поддерживает восприятие речи [3]. Стратегия кодирования с непрерывной перемежающейся выборкой (CIS), которая используется в современном программном обеспечении для клинического программирования CI, использует неодновременные перемежающиеся двухфазные импульсы для представления информации огибающей (изменение амплитуды звукового сигнала при постоянной частоте) на отдельные электроды [4]. Стратегия кодирования CIS в значительной степени заменила стратегии кодирования, основанные на извлечении признаков, которые явно представляют основную частоту (F0) и формантные частоты, благодаря превосходному восприятию речи как в тишине, так и в шуме [5]. Данная стратегия позволила решить проблему взаимодействия каналов с использованием несинхронных импульсов с чередованием и увеличить скорость стимуляции на канал, что оказало значительное влияние на распознавание речи в сравнении с более ранними стратегиями [6].

Последующим развитием стратегии CIS у компании Cochlear стали стратегия Spectral Peak (SPEAK – спектральный максимум, 1994) и ACE (Advanced Combination Encoder, 2002). Увеличение каналов, стимулированных в тонотопическом порядке от высоких частот к низким за цикл до 10 в SPEAK стратегии, дало преимущество в разборчивости речи большинству пациентов за счет более гибкого изменения максимумов и стимуляции соответствующих электродов [7]. В свою очередь, ACE сочетает в себе еще большее количество обработанных полос с более высокой скоростью стимуляции за счет наличия 22 электродов по сравнению с предыдущей CIS и SPEAK. 22 полосы дают лучшее разрешение по частоте. В стратегии ACE канал генерируется одним имплантированным электродом, а исходный спектр воспроизводится 8–10 фиксированными каналами [8].

Несмотря на преимущество новых стратегий, по техническим характеристикам во многих исследованиях четких различий выявить не удалось и результаты для восприятия речи были получены смешанные [9]. В этих исследованиях сравнивалась производительность со стратегией кодирования CIS и ACE при использовании прошлых моделей имплантов компании Cochlear CI24R/RE (Straight и Contour Advance), а в последние годы широкое распространение получила новая модель CI512 с новой электродной решеткой [10]. Некоторые исследователи сообщили об улучшении восприятия речи, которое измерялось количеством правильно названных слогов, слов или предложений в шуме, когда испытуемые слушали их с использованием стратегии кодирования ACE, в то время как другие сообщили об отсутствии существенной разницы в характеристиках восприятия речи [9].

Ограничения предыдущих исследований включают различия в опыте прослушивания и различия в настройках между стратегиями кодирования, а также в сроках наблюдения (от нескольких недель до 6 месяцев).

ЦЕЛЬ

Сравнить характеристики восприятия речи со стратегиями кодирования CIS и ACE в течение 24 месяцев.

МАТЕРИАЛ И МЕТОДЫ ИССЛЕДОВАНИЯ

В исследовании приняли участие 30 пациентов (18 человек женского пола и 12 человек мужского), выбранных случайным образом из всех пациентов, проходивших реабилитацию на базе ФГБУ НМИЦО ФМБА России в период с 2018 по 2021 гг. Возраст пациентов на момент кохлеарной имплантации – от 18 до 45 лет (средний возраст 35,16±6,70 года).

Для имплантации были использованы многоканальные кохлеарные импланты (Cochlear Nucleus Freedom, model CI24RE и CI512) и использован речевой процессор Nucleus 5 CP810 или Nucleus 6 CP910. Коррекция программы стимуляции (MAP) проводилась с использованием программы Cochlear Custom Sound 5.2 (Cochlear Ltd., Australia). Аудиологи центра, ответственные за программирование тематических карт, знали о стратегии кодирования, используемой каждым испытуемым. Напротив, как пациент, так и специалисты (сурдопедагоги), выполняющие послеоперационную оценку восприятия речи, были не осведомлены о стратегии кодирования отдельного субъекта, чтобы контролировать возможные предубеждения.

Критерии включения в исследование: свободное владение русским языком на бытовом уровне, потеря слуха после формирования речи, односторонняя имплантация КИ, систематическое использование речевого процессора от 8 часов в день, регулярное посещение сурдолога для проведения настроечных сессий согласно плану исследования.

Критерии исключения: потеря слуха после перенесенного гнойного менингита, формирование потери слуха до развития речи, наличие затруднений в общении у пациентов со специалистами в виду незнания русского языка или выраженного нарушения памяти, наличие психических заболеваний, двусторонняя имплантация КИ, наличие неисправностей в работе системы кохлеарной имплантации (речевого процессора или кохлеарного импланта в виде неисправных электродов), непосещение аудиолога согласно плану, использование речевого процессора менее 8 часов в сутки, состояние пациента.

Испытуемые проходили тестирование через 1, 3, 6, 12 и 24 месяца после первоначальной активации, при каждом визите проходили тестирование разборчивости речи с последующим программированием речевого процессора. Измерения восприятия речи включали слоги (согласный + гласный), слоговые таблицы Н.Б. Покровского (20 штук на тест) в тишине, слова из таблицы Гринберга (20 слов) в тишине и шуме(+10 дБ SNR).

Для проведения тестирования была использована комната, в которой через колонки (2 шт.) с использованием клинического аудиометра Interacoustics AC40 и подключенного к нему ноутбука воспроизводились записи речевых таблиц, начитанных диктором. Колонки были расположены по направлению к испытуемому под углом 45° на расстоянии 1 метра.

При первоначальной активации внешнего речевого процессора (РП) пациенты были случайным образом выбраны для подключения стратегии кодирования CIS и ACE. Использовалась исключительно назначенная стратегия кодирования в течение первых 24 месяцев после активации РП. Аудиологи, ответственные за программирование, проводили рутинные процедуры картирования для оптимизации качества звука, включая поведенческое измерение порогового уровня (T-) и уровня комфорта (C-), балансировку громкости и отключение электродов, когда это необходимо.

Случайно выбранные пациенты (30 человек) были разделены на 2 группы. Первая группа (15 человек) стала пользователем стратегии CIS, вторая группа (15 человек) использовала стратегию ACE. Поскольку пациенты каждой группы соответствовали критериям отбора, группы были сопоставимы и однородны.

Пациенты не знали, ни к какой группе они относятся, ни какой стратегией кодирования звука пользуются. Все пациенты наблюдались в течение длительного времени (24 месяца) с достижением контрольных точек исследования, поэтому данное исследование можно отнести к слепому рандомизированному перспективному.

Средний возраст для первой группы (CIS) составил 34,8±6,08 года, для второй (ACE) – 35,53±5,10 года, статистически значимых различий в возрасте между группами не было. В первой группе было 8 мужчин и 7 женщин, во второй группе – 4 мужчины и 11 женщин.

Полученные результаты речевой аудиометрии в свободном звуковом поле вносились в электронные таблицы в программе Microsoft Excel и подвергались статистическому анализу методом сравнения средних значений для каждого результата между группами и вычислением среднего квадратического отклонения для оценки степени варьирования полученных данных.

РЕЗУЛЬТАТЫ

За выбранный интервал наблюдения (1, 3, 6, 12 и 24 месяца) для разборчивости речи по слоговым таблицам получен следующий результат (таблица 1).

Таблица 1. Разборчивость речи с использованием слоговых таблиц в тишине

Мы наблюдали рост разборчивости речи в двух группах с течением времени и накоплением опыта использования системы КИ с наибольшим ростом в первые 3 месяца (с 52±7 до 66±7,87%). Разборчивость слогов между группами пациентов со стратегиями CIS и ACE на всем диапазоне исследования принимала сопоставимые значения (от 52±7 в начале исследования до 72±7,25% в конце).

Сравнивая результаты разборчивости речи в тишине с использованием речевой таблицы Гринберга (таблица 2) в группе с CIS-стратегией и ACE-стратегией, мы также наблюдали сопоставимые результаты с небольшим преимуществом ACE-стратегии до 6 месяца исследования. Однако после этого срока интенсивность прироста разборчивости речи стала значимо выше в группе с ACE-стратегией в сравнении с группой с CIS. Так, при тестировании спустя 12 месяцев с CIS разборчивость достигла 67±8,62%, с ACE – 71±7,54%, спустя 24 месяца с CIS – 68±9,12%, с ACE – 72±8,62%. Для выявления достоверности различий средних значений разборчивости речи мы использовали критерий Стьюдента (t-критерий). В данном случае критерий принял значение меньше 0,05 (p<0.05), что подтвердило наличие значимых различий между выборками.

Таблица 2. Разборчивость речи в тишине при использовании речевой таблицы Гринберга

При сравнении результатов разборчивости речи в условиях шума (таблица 3) мы наблюдали увеличение разницы между группами начиная с 6 месяцев (41±5,33% с CIS против 43.3±7,55% c ACE) с наибольшей разницей спустя 24 месяца (51±5,5% против 57±8,25%). Достоверность наличия значимых различий также подтверждена значением критерия Стьюдента менее 0,05 (p<0.05).

Таблица 3. Разборчивость речи в шуме при использовании речевой таблицы Гринберга

ОБСУЖДЕНИЕ

Выявленное преимущество использования стратегии ACE над CIS становится значимым только при наличии опыта использования системы КИ от 6 месяцев и наиболее выраженным – к 24 месяцам. Оценка различий в более короткие сроки, на наш взгляд, затруднено ввиду необходимости привыкания к изменению звучания слогов и слов, а также необходимости накопления опыта использования. Сравнения, ранее проводимые другими авторами, были ограничены значительно более коротким временным промежутком (от двух недель до нескольких месяцев) [11, 12], вследствие чего было затруднительно обнаружить значимые различия и определить предпочтения пациентов [13, 12].

Переход от стратегии CIS к ACE отражается в изменениях скорости стимуляции на канал, количестве используемых каналов для воспроизведения необходимого спектра звука, ширины импульса и силе стимуляции [8]. Более высокие результаты пациентов со стратегией ACE в нашем исследовании при использовании сложного речевого материала как в тишине, так и в условиях шума можно объяснить большей скоростью стимуляции данной стратегии. Это позволяет получать больше информации о полученном звуковом сигнале и делать более точные выводы в сложных условиях, а также накапливать необходимый опыт использования алгоритма обработки и передачи звука системы КИ.

ВЫВОДЫ

Использование современной стратегии кодирования с более высокой разрешающей способностью (ACE) в сравнении с базовой стратегией (CIS) позволяет улучшить разборчивость речи при использовании сложного речевого материала с наибольшим эффектом в условиях шума. Знание особенностей стратегий кодирования звука позволяет аудиологу провести программирование системы кохлеарной имлантации с достижением наилучших результатов в реабилитации.

Конфликт интересов: все авторы заявляют об отсутствии конфликта интересов, требующего раскрытия в данной статье.

About the authors

Oleg V. Kolokolov

The National Medical Research Center for Otorhinolaryngology of the Federal
Medico-Biological Agency

Author for correspondence.
Email: surdologiya_scco@mail.ru
ORCID iD: 0000-0002-7155-9544

external PhD student, Head of the polyclinic department

Russian Federation, Astrakhan

Aleksandr O. Kuznetsov

The National Medical Research Center for Otorhinolaryngology of the Federal Medico-Biological Agency; Pirogov Russian National Research Medical University

Email: aokuznet@mail.ru
ORCID iD: 0000-0001-6499-7506

PhD, Chief Physician; Associate professor, Department of Otorhinolaryngology

Russian Federation, Moscow

Anton S. Machalov

The National Medical Research Center for Otorhinolaryngology of the Federal Medico-Biological Agency; Pirogov Russian National Research Medical University

Email: anton-machalov@mail.ru
ORCID iD: 0000-0002-5706-7893

PhD, Head of Scientific-clinical department of audiology, hearing aid and audio-verbal rehabilitation; physician-audiologist-otolaryngologist; Associate professor of the Department of Otorhinolaryngology, Faculty of Continuing professional education

Russian Federation, Moscow

Tatyana Yu. Vladimirova

Samara State Medical University

Email: vladimirovalor@yandex.ru
ORCID iD: 0000-0003-1221-5589

PhD, Associate рrofessor, Head of the Otorhinolaryngology Department and Clinic named after academician I.B. Soldatov

Russian Federation, Samara

Ivan V. Koshel

Stavropol State Medical University

Email: Koshel1979@mail.ru
ORCID iD: 0000-0002-9337-8592

PhD, Professor, Acting Head of the Department of Otorhinolaryngology, Plastic Surgery with the course of Continuing professional education

Russian Federation, Stavropol

References

Loizou PhC. Speech processing in vocoder-centric cochlear implants. Cochlear and Brainstem Implants. Advances in Otorhinolaryngology. 2006;64:109-143. doi: 10.1159/000094648
Lebedeva NA, Diab HMA, Machalov AS, et al. Cochlear implantation in Yakutia. Yakutsk Medical Journal. 2021;3(75):37-39. (In Russ.). [Лебедева Н.А., Диаб Х.М.А., Мачалов А.С. и др. Кохлеарная имплантация в Якутии. Якутский медицинский журнал. 2021;3(75):37-39. doi: 10.25789/YMJ.2021.75.09
Kolokolov OV, Kuznetsov AO, Machalov AS, Grigoreva AA. Comparison of sound perception using CIS and ACE sound coding strategies in cochlear implants. Science and Innovations in Medicine. 2021;6(3):8-12. (In Russ.). [Колоколов О.В., Кузнецов А.О., Мачалов А.С., Григорьева А.А. Сравнение звуковосприятия при использовании стратегий кодирования звукового сигнала CIS и ACE системой кохлеарной имплантации. Наука и инновации в медицине. 2021;6(3):8-12]. doi: 10.35693/2500-1388-20201-6-3-8-12
Wilson BS, Finley CC, Lawson DT, et al. Better speech recognition with cochlear implants. Nature. 1991;352:236-238. PMID: 1857418 doi: 10.1038/352236a0
Kolokolov OV, Kuznetsov AO, Machalov AS, Grigoreva AA. The history of the modernization of sound strategies of the system cochlear implantation. Health and Education millennium. 2018;20(12):82-86. (In Russ.). [Колоколов О.В., Кузнецов А.О., Мачалов А.С., Григорьева А.А. К вопросу истории модернизации стратегий кодирования звукового сигнала системами кохлеарной имплантации. Здоровье и образование в XXI веке. 2018;20(12):82-86]. doi: 10.26787/nydha-2226-7425-2018-20-12-82-86
Kim HN, Shim YJ, Chung MH, Lee YH. Benefit of ACE compared to CIS and SPEAK coding strategies. Adv Otorhinolaryngol. 2000;57:408-11. doi: 10.1159/000059211
Skinner MW, Holden LK, Whitford LA, et al. Speech recognition with the nucleus 24 SPEAK, ACE, and CIS speech coding strategies in newly implanted adults. Ear Hear. 2002;23(3):207-23. doi: 10.1097/00003446-200206000-00005
Vondrasek M, Sovka P, Tichy T. ACE Strategy with Virtual Channels. Radioengineering. 2008;17(4):55-61.
Battmer RD, Dillier N, Lai WK, et al. Speech perception performance as a function of stimulus pulse rate and processing strategy preference for the Cochlear™ Nucleus® CI24RE device: Relation to perceptual threshold and loudness comfort profiles. International Journal of Audiology. 2010;49(9):657-666. doi: 10.3109/14992021003801471
Daikhes NA, Balakina AV, Machalov AS, et al. Sequential bilateral cochlear implantation in children: selection criteria for second ear surgery. Science and Innovations in Medicine. 2021;6(2):13-19. (In Russ.). [Дайхес Н.А., Балакина А.В., Мачалов А.С. и др. Последовательная билатеральная кохлеарная имплантация у детей: критерии отбора пациентов для операции на втором ухе. Наука и инновации в медицине. 2021;6(2):13-19]. doi: 10/35693|2500-1388-2021-6-2-13-19
Psarros CE, Plant KL, Lee K, et al. Conversion from the SPEAK to the ACE strategy in children using the nucleus 24 cochlear implant system: speech perception and speech production outcomes. Ear Hear. 2002;23(1):18S-27S. doi: 10.1097/00003446-200202001-00003
Donaldson GS, Dawson PK, Borden LZ. Within-subjects comparison of the HiRes and Fidelity120 speech processing strategies: Speech perception and its relation to place-pitch sensitivity. Ear Hear. 2011;32(2):238-50. doi: 10.1097/AUD.0b013e3181fb8390
Bazon AC, Mantello EB, Gonçales AS, et al. Auditory Speech Perception Tests in Relation to the Coding Strategy in Cochlear Implant. Int Arch Otorhinolaryngol. 2016;20(3):254-260. doi: 10.1055/s-0035-1559595