Библиотека диссертаций Украины Полная информационная поддержка
по диссертациям Украины
  Подробная информация Каталог диссертаций Авторам Отзывы
Служба поддержки




Я ищу:
Головна / Технічні науки / Обчислювальні машини, системи та мережі


82. Гладунов Сергій Анатолійович. Апаратно-програмні засоби роздільної локалізації фонем в системах мовної взаємодії людини з ЕОМ: дис... канд. техн. наук: 05.13.13 / Донецький національний технічний ун-т. - Донецьк, 2005.



Анотація до роботи:

Гладунов Сергій Анатольевіч. Апаратно-програмні засоби роздільної локалізації фонем в системах мовної взаємодії людини з ЕОМ.

Дисертація на здобуття вченого ступеня кандидата технічних наук за спеціальністю 05.13.13 – обчислювальні машини, системи та мережі. – Донецький національний технічний університет. Донецьк, 2005.

Розглянуто питання, пов’язані із підвищенням ефективності засобів мовного введення інформації в ЕОМ за рахунок структурної декомпозиції модуля розпізнавання фонем. Розроблено метод інтегральної оцінки приналежності спектральних складових словам, заснований на декомпозиції спектрального образу, що дозволив скоротити час навчання і знизити помилку розпізнавання на 30-40%. З метою підвищення гнучкості настройки системи розпізнавання мовних команд запропоновано метод фонетичного аналізу мовного сигналу, заснований на апроксимації фонем. Розглянуто нейромережеву реалізацію апроксиматорів фонем і запропоновано алгоритм розподілу мовного слова на інформативні і неінформативні ділянки.

З метою підвищення швидкості розпізнавання запропонований алгоритм апаратного прискорення нейромережевих обчислень. Показано, що використовування типових ПЛІС дозволяє організувати розпізнавання в реальному масштабі часу. На основі запропонованого методу апроксимації фонем розроблений мовний інтерпретатор команд управління програмною системою нейромережевого аналізу даних зі словником у 60 команд і точністю розпізнавання приблизно 90%.

В дисертації приведено нове рішення наукової задачі структурної декомпозиції засобів локалізації фонем в системах мовної взаємодії людини з ЕОМ. Головні наукові і практичні результати роботи полягають в наступному:

1. Запропонований метод інтегральної оцінки приналежності спектральних складових словам, заснований на декомпозиції спектрального образу і порівнянні результатів розпізнавання окремих спектральних складових. Метод дозволяє знизити помилку розпізнавання порівняно з обробкою неподільного образу на 30-40%.

2. Запропонований метод розпізнавання мови, заснований на нейромережевій апроксимації фонем. Метод є позиційно-незалежним і дозволяє організувати незалежне розпізнавання фонетичних одиниць.

3. Досліджена залежність якості розпізнавання фонем методом нейромережевої апроксимації сигналу від параметрів оцифровки сигналу, розмірностей нейромереж, способів нормалізації і попередньої обробки сигналу. Отримані субоптимальні значення параметрів. Проведено порівняння нейромережевої апроксимації з апроксимацією на основі МГУА. Показано, що якість розпізнавання окремих фонем при використовуванні нейромереж вища на 40-50%.

4. Розроблено обчислювальну структуру модуля розпізнавання фонем і схему його включення в систему розпізнавання мови. Запропонована структура має високу ступінь модульності і дозволяє проводити гнучку настройку системи на довільний фонетичний склад словника.

5. Розроблено алгоритм розподілу слова на інформативні і неінформативні ділянки за енергією сигналу, а також запропонована сегментація словника за кількістю інформативних ділянок в словах. Сегментація дозволяє знизити об'єм обчислень при розпізнаванні в 1,5-2 рази.

6. Запропонована паралельна апаратна реалізація нейромережевих апроксиматорів фонем на ПЛІС, що дозволяє організувати розпізнавання в реальному масштабі часу.

7. На основі методу нейромережевої апроксимації фонем реалізована програмна система аналізу даних з елементами мовного управління. Набір мовних команд управління системою складає 60 словарних одиниць, а точність розпізнавання – близько 90%.

Публікації автора:

  1. О.И. Федяев, С.А. Гладунов. Распознавание речевых слов с помощью искусственных нейросетей // Науч. тр. Донецкого гос. тех. университета. Серия: Информатика, кибернетика и вычислительная техника, вып. 6, 1999 – С. 145-150.

  2. Федяев О.И., Гладунов С.А., Прокофьев А.В. Прогнозирование временных рядов на основе нейросетевых и нечетких моделей // Науч. тр. Донецкого гос. тех. университета. Серия: Проблемы моделирования и автоматизации проектирования динамических систем, вып. 10, 1999. – С. 38-43.

  3. Федяев О.И., Гладунов С.А. Исследование эффективности нечеткого группового метода обработки данных в задачах прогнозирования // Науч. тр. Донецкого гос. тех. университета. Серия: Информатика, кибернетика и вычислительная техника, вып. 15, 2000. – С. 187-191.

  4. Федяев О.И., Гладунов С.А. Речевая компонента в интерфейсах информационных систем // Науч. тр. Донецкого гос. тех. университета. Серия: Проблемы моделирования и автоматизации проектирования динамических систем, вып. 29, 2001. – С. 100-105.

  5. Федяев О.И., Гладунов С.А. Многоуровневая нейросетевая структура распознавания речевых слов по низкочастотным гармоникам. – Науч. тр. Донецкого гос. тех. университета. Серия: Информатика, кибернетика и вычислительная техника, вып. 39, 2002. – С. 30-35.

  6. Гладунов С.А., Федяев О.И. Нейросетевой метод фонетической сегментации речевого сигнала. – Науч. тр. Донецкого гос. тех. университета. Серия: Проблемы моделирования и автоматизации проектирования динамических систем, вып. 52, 2002. – С. 125-130.

  7. Федяев О.И., Гладунов С.А. Оценка параметров метода нейросетевой аппроксимации фонем. – Науч. тр. Донецкого гос. тех. университета. Серия: Информатика, кибернетика и вычислительная техника, вып. 70, 2003. – С. 220-227.

  8. С. А. Гладунов, О.И. Федяев. Речевое управление программными системами с помощью нейросетей // КИИ-2000. Труды конференции. – М.: Издательство физико-математической литературы, 2000. – Том 2, С. 464-471.

  9. Федяев О.И., Гладунов С.А. Нейросетевой интерпретатор речевых команд для управления программными системами // Труды 7-й всероссийской конференции «Нейрокомпьютеры и их применение». – М.: ИПУ РАН, 2001. – С. 283-288.

  10. Fedyaev O.I., Gladunov S.A. Usage of a vocal component in interfaces of programmed systems // Interactive Systems: The Problems of Human-Computer Interaction. Proceedings of the International Conference. – Ulyanovsk: UlSTU, 2001. – Р. 26-28.

  11. Федяев О.И., Гладунов С.А. Иерархическая нейросетевая структура распознавания слов на основе низкочастотных гармоник // Сборник научных трудов «Научная сессия МИФИ – 2002». В 14 томах.– М.: МИФИ, 2002. – Т.3. Интеллектуальные системы и технологии. С. 115-116.

  12. Федяев О.И., Гладунов С.А. Распознавание речевых слов по низкочастотным гармоникам с помощью нейросетей // Труды 8-й всероссийской конференции «Нейрокомпьютеры и их применение». – М.: Век книги, 2002. – С. 156-161.

  13. Федяев О.И., Гладунов С.А. Фонетический анализ речи на основе нейросетевой аппроксимации сигнала // Труды 8-й всероссийской конференции «Нейрокомпьютеры и их применение». – М.: Век книги, 2002. – С. 150-155.

  14. Федяев О.И., Гладунов С.А. Распознавание слитной речи методом нейросетевой аппроксимации сигнала // Известия ТРТУ-ДонНТУ. Материалы 3-го Международного научно-практического семинара «Практика и перспективы развития институционного партнерства». В 2-х кн. – Таганрог: Издательство ТРТУ, 2002. – Кн. 1. С. 140-145.

  15. Федяев О.И., Гладунов С.А. Распознавание речи на основе нейросетевой аппроксимации фонем // КИИ-2002. Труды конференции. В 2 томах. – Коломна: Коломенская типография, 2002. – Т.2, С. 187-192.

  16. Oleg I. Fedyaev., Sergey A. Gladunov. Organizing a speech input of information based on neural phonemes approximation // Interactive Systems: Problems of Human-Computer Interaction. Proceedings of the International Conference, 23-27 September 2003 – Ulyanovsk: UlSTU, 2003. – Р. 198-203.