Ковтун В'ячеслав Васильович. Інформаційно-вимірювальна система для автоматичного розпізнавання голосу : дис... канд. техн. наук: 05.11.16 / Вінницький національний технічний ун-т. - Вінниця, 2006.
Анотація до роботи:
Ковтун В.В. Інформаційно-вимірювальна система для автоматичного розпізнавання голосу. – Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.11.16 – інформаційно-вимірювальні системи. – Вінницький національний технічний університет, Вінниця, 2006.
Дисертацію присвячено розв’язанню задачі підвищення ефективності інформаційно-вимірювальних систем для розпізнавання голосу.
Поставленої мети вдалося досягти за рахунок удосконалення математичної моделі слухової системи людини, що дозволило сформулювати новий спосіб представлення індивідуальних ознак для розпізнавання голосу та зменшити імовірності виникнення похибок першого та другого роду при його розпізнаванні за цими ознаками. Розроблено метод ущільнення мовних сигналів з адаптивним періодом дискретизації. Запропоновано метод підвищення інформативності частоти основного тону для розпізнавання голосу, в якому, на відміну від існуючих, за ознаку для розпізнавання використано значення коефіцієнтів вейвлет-перетворення на відрізках мовного сигналу, де спостерігаються екстремуми кореляційних функцій частоти основного тону. Розроблено універсальний метод оцінювання ефективності ІВС для розпізнавання голосу на основі інтегрального функціонально-статистичного критерію.
На основі запропонованих моделей та методів сформовано алгоритмічні та програмні засоби, які використано в розробленій ІВС для розпізнавання голосу.
У дисертаційній роботі вирішено актуальну наукову задачу підвищення ефективності ІВС для розпізнавання голосу, що забезпечується аналізом впливу апаратної частини, адекватністю математичних моделей процесу сприйняття мовного сигналу людиною, ефективністю методів виділення з мовного сигналу ознак, за якими можна розпізнати голос, та методами класифікації голосів за цими ознаками.
Основні наукові та практичні результати дисертаційної роботи такі.
Вперше запропоновано універсальний метод оцінювання ефективності ІВС для розпізнавання голосу на основі інтегрального функціонально-статистичного критерію, який на відміну від існуючих, використовує для порівняльної оцінки потенційну ІВС для розпізнавання голосу, що дозволяє проводити оцінювання ефективності ІВС для розпізнавання голосу та оптимізувати її структуру на етапі проектування і заощадити кошти тощо.
Модифіковано математичну модель слухової системи людини, яка на відміну від існуючих, описує механізм оброблення слуховою системою індивідуальних ознак мовних сигналів, що дозволяє підвищити інформативність спектральних ознак та основного тону для розпізнавання голосу.
Вперше розроблено метод, алгоритм та пристрій ущільнення мовного сигналу, які на відміну від існуючих, використовують адаптивний період дискретизації, залежний від лінійності мовного сигналу, що дозволяє ущільнити wav-файл із заданою похибкою відтворення та збереженням його індивідуальних особливостей в 3-5 разів і зробити це на 45% швидше ніж алгоритм лінійного прогнозу.
Вперше запропоновано інформативну ознаку для розпізнавання голосів, яка на відміну від існуючих, використовує значення коефіцієнтів вейвлет-перетворення мовного сигналу на відрізках, де спостерігаються екстремуми кореляційних функцій частоти основного тону, що дозволяє комплексно враховувати вплив геометрії артикуляторного тракту та голосового джерела на індивідуальність голосу та досягти достовірності розпізнавання голосів 98% (імовірність виникнення похибок першого роду – 1,1%, імовірність виникнення похибок другого роду – 1,9%).
Проведено тестування створеної ІВС за англомовною базою YOHO, сформованою фірмою ITT на замовлення держдепартаменту США. Система показала достовірність розпізнавання 98% (імовірність виникнення похибки першого роду – 0,36%, імовірність виникнення похибки другого роду – 1,62%).
Публікації автора:
Патент 55863A UA, МКІ G10L15 15/00 Пристрій для виділення ознак мовних сигналів. Биков М.М., Грищук Т.В., Ковтун В.В., №2002075729; Заявл. 11.07.2002; Опубл. 15.04.2003. – 4 с.
Патент 71189A UA, МКІ G10L19 19/04 Пристрій для стиснення мовних сигналів. Биков М.М., Ковтун В.В., Раїмі А., №2003119840; Заявл. 03.11.2003; Опубл. 15.11.2004. – 4 с.
Биков М.М., Ковтун В.В., Раїмі А. Метод стиснення мовних сигналів в системах ідентифікації диктора // Вісник Вінницького політехнічного інституту. – 2003. – №6. – С. 255-261.
Биков М.М., Ковтун В.В. Аналіз ефективності ідентифікації диктора за частотою основного тону // Вісник Хмельницького національного університету. – 2004. – №4. – Ч.1. – Т.2. – С. 117-122.
Ковтун В.В. Розробка критерію оцінки ефективності систем ідентифікації диктора // Вісник Хмельницького національного університету. – 2005. – №4. – Ч.1. – Т.2(68). – С. 117-122.
Биков М.М., Кузьмін І.В., Грищук Т.В., Ковтун В.В. Ідентифікація передаточних характеристик акустичного каналу в системах розпізнавання мови // Наукові праці Донецького національного технічного університету. Серія: „Обчислювальна техніка та автоматизація”. – 2002. – Вип. №47. – С. 270-277.
Биков М.М., Ковтун В.В. Підвищення ефективності розпізнавання диктора за рахунок сумісного використання частоти основного тону та вейвлет-перетворення // Наукові праці Донецького національного технічного університету. Серія: „Обчислювальна техніка та автоматизація”. – 2005. – Вип. №90. – С. 162-170.
Биков М.М., Ковтун В.В. Вибір ефективних ознак для ідентифікації диктора в мережі Інтернет // Збірка матеріалів третьої Міжнародної конференції ІОН-2002. – Том 2. – Вінниця: УНІВЕРСУМ-Вінниця. – 2002. – С. 333-337.
Биков М.М, Ковтун В.В. Вибір інформативних ознак в задачі ідентифікації диктора // Збірка матеріалів Міжнародної конференції з індуктивного моделювання “МКІМ–2002”.– Tом 1.– Львів: НУЛП.– 2002.– С. 280–286.
Ковтун В.В. Алгоритми розпізнавання диктора з голосу на нейронних мережах // Сборник научных трудов по материалам 6-го Международного молодежного форума «Радиоэлектроника и молодежь в ХХІ веке». – Ч.2. – Харьков: ХНУРЭ. – 2002. – С. 392-393.