Єрмоленко Тетяна Володимирівна. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання : Дис... канд. наук: 05.13.23 - 2008.
Анотація до роботи:
Єрмоленко Т. В. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання. – Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за фахом 05.13.23 – системи та засоби штучного інтелекту. – Донецький інститут проблем штучного інтелекту, Донецьк, 2008.
Дисертаційна робота присвячена рішенню завдань попередньої обробки, сегментації мовного голосового сигналу, класифікації звуків мовлення та розпізнаванню фонем за допомогою методів вейвлет-аналізу. У роботі запропоновано методики попередньої обробки сигналу на основі вейвлет-аналізу, що передбачають критерій вибору найбільш інформативного базису; розроблено методики зниження рівня шумів, визначення границь слів і сегментації мовного голосового сигналу на основі енергетичних характеристик вейвлет-спектра, що враховують широку класифікацію звуків мовлення; виділено період основного тону і сформовано набори ознак, що дозволяють здійснити класифікацію фонем. На базі запропонованих методик розроблено алгоритми, що реалізують функції обробки, сегментації мовного голосового сигналу й класифікації звуків мовлення, проведено чисельне дослідження ефективності роботи цих алгоритмів На їх основі створено інформаційну технологію, що здійснює попередню обробку, сегментацію мовного голосового сигналу, класифікацію звуків мовлення і розпізнавання фонем.
У дисертаційній роботі представлено вирішення актуальної наукової задач попередньої обробки МГС, сегментації і пофонемного розпізнавання на основі вейвлет-аналізу. Аналіз отриманих результатів дозволяє зробити наступні висновки.
Проведений аналіз існуючих методів параметризації й розпізнавання МГС показав необхідність застосування методів обробки сигналу, що забезпечують рухливе частотно-часове вікно, об'єднання акустико-фонетичного й нейромережного підходів до розпізнавання МГС, а також дозволив сформулювати постановку задачі дослідження.
Враховуючі обраний коефіцієнт масштабування, були обчислені необхідні для аналізу МГС мінімальні й максимальні рівні розкладання за досліджуваними вейвлет-базисами, центральні частоти й смуги пропускання відповідних вейвлет-фільтрів та їх АЧХ. Подібні характеристики банків фільтрів відповідають поведінці щільності енергетичного спектра МГС й дозволяють сформувати набори ознак для опису динаміки сигналу з урахуванням абсолютного порога чутності.
Для параметризації звуків мовлення експериментально був обраний оптимальний вейвлет-базис за критерієм мінімуму ентропії коефіцієнтів вейвлет-спектра FWT й CWT.
Удосконалено методики зниження рівня шуму і знаходження границь слів в голосовому сигналі за рахунок виконання класифікації його фреймів, що дозволяє враховувати акустичні особливості ШФК звуків мовлення. Це виключає можливість прийняття короткочасного високоамплітудного шуму за мовлення, низькоамплітудного МГС за шум і підвищує ефективність подальшого розпізнавання.
Одержали подальший розвиток методики узагальненої і детальної сегментації МГС, що використовують FWT. Вони дозволяють виділяти міжфонемні переходи незалежно від голосових даних диктора та інтенсивності МГС в результаті аналізу динаміки енергетичних характеристик його вейвлет-спектра.
Розроблено методику визначення періоду основного тону за вейвлет-спектром. Сформовано набори ознак, що дозволяють зробити класифікацію фонем. При цьому для виділення акустичних характеристик звуків мовлення використовувалися методи, що базуються на психофізичних особливостях сприйняття мовлення, та методи, засновані на акустичній теорії мовотворення. Для класифікації сегментів запропонована методика, що поєднує в собі акустико-фонетичний і нейромережний підходи до розпізнавання МГС. Це дозволило прискорити процедуру навчання нейромережі та підвищити ефективність розпізнавання.
На базі запропонованих методик розроблено алгоритми попередньої обробки, сегментації голосового сигналу і класифікації звуків мовлення та виконано порівняльний аналіз ефективності їх роботи. Отримані результати функціонування алгоритмів зниження рівня шуму порівнювалися з результатами очищення сигналу за допомогою відомих програмних пакетів роботи зі звуком. Кращими є методики, запропоновані в дисертаційній роботі та засновані на вейвлет-перетворенні. Чисельне дослідження функціонування алгоритмів класифікації фонем полягало в порівняльному аналізі ефективності запропонованих у роботі наборів ознак і виборі архітектури нейромережі. Найкращими для розпізнавання в межах розглянутих ШФК є ознаки, засновані на мірі контрастності Морле. Помилки розпізнавання не перевищують 5 %.
На базі розроблених алгоритмів створено нову ІТ, що здійснює обробку МГС і класифікацію звуків мовлення. Її функціональна структура сформована у вигляді 4 блоків, які можуть функціонувати в режимі навчання або робочому режимі: зниження рівня шуму; визначен-ня границь слова й сегментації МГС; узагальненої класифікації; розпізнавання фонем. Для функціонування цих блоків у робочому режимі розроблено структуру бази даних фонем і шуму, що складається з 4 розділів, які заповнюються даними в результаті роботи відповідних блоків у режимі навчання.
Запропоновані методики та алгоритми можуть бути використані при розробці систем комп’ютерного розпізнавання мовних образів. Практична значимість підтверджена актами впровадження.
Публікації автора:
Ермоленко Т. В. Применение вейвлет-преобразования для обработки и распознавания речевых сигналов // Искусственный интеллект. – 2002. – №4. – С. 200-208.
Yermolenko T. V. Segmentation of a speech signal with application of fast wavelet-transformation // International Journal on Information Theories and Applications. – 2003. – Vol. 10, №3. – P. 306-310.
Ермоленко Т. В. Фонетический анализ речевого сигнала на основе вейвлет-разложения // Искусственный интеллект. – 2003. – №3. – C. 409-416.
Ермоленко Т. В. Использование непрерывного вейвлет-преобразования при распознавании вокализованных участков речевого сигнала // Искусственный интеллект. – 2004. – №4. – С. 499-503.
Ермоленко Т. В. Разработка системы распознавания изолированных слов русского языка на основе вейвлет-анализа // Искусственный интеллект. – 2005. – №4. – С. 595-601.
Ермоленко Т. В. Методика формирования эталонов фонем, базирующаяся на вейвлет-преобразовании Морле // Таврический вестник информатики и математики. – 2006. – №1. – С. 127-132.
Ермоленко Т. В. Исследование признаков, используемых для пофонемного распознавания, с помощью нейросети // Искусственный интеллект. – 2007. – №4. – С. 357-363.
Ермоленко Т. В. Фонетический анализ речевого сигнала на основе вейвлет-разложения // Материалы международной научно-технической конференции «Интеллектуальные и многопроцессорные системы» – 2003. Т.1. Таганрог: ТРТУ. – 2003. – С.191-192
Ермоленко Т. В. Фонетический анализ и сегментация речевого сигнала на основе вейвлет-разложения // Материалы международной научно-технической конференции «Информационные технологии в социологии, экономике, образовании и бизнесе» Изд-во Запорожского государственного университета. – 2003. – С. 48-49.
Ермоленко Т. В. Методика формирования эталонов фонем, базирующихся на вейвлет-преобразовании Морле // Тезисы докладов Международной научной конференции «Интеллектуализация обработки информации». – Сімферополь. – 2006. – С.82-83
Ермоленко Т. В. Сравнительный анализ наборов признаков, используемых для пофонемного распознавания речи // Материалы Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы – 2007». – Донецк: ИПИИ «Наука і освіта» –2007.– С. 110-114.