739. Сажок Микола Миколайович. Автоматизовані засоби формування баз даних і знань для озвучення українських текстів: дис... канд. техн. наук: 05.13.06 / НАН України; Міжнародний науково-навчальний центр інформаційних технологій та систем. - К., 2004.
Анотація до роботи:
Сажок М.М. Автоматизовані засоби формування баз даних і знань для озвучення українських текстів. – Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – автоматизовані системи управління та прогресивні інформаційні технології. – Міжнародний науково-навчальний центр інформаційних технологій та систем, Київ, 2004.
Дисертація присвячена розробленню та реалізації інформаційної технології автоматичного озвучення довільних текстів українською мовою. Обґрунтовано структуру моделі синтезу мовлення за текстом в амплітудно-часовому просторі на основі фонемно-трифонної моделі. Проведене дослідження складових фонетико-акустичної бази даних і знань – усномовного файлу диктора та фонетичної бази знань дало змогу обґрунтувати їх структуру, використання та сформулювати принципи їх наповнення. Автоматизовано процедуру розбиття усного сигналу на одноквазіперіодичні ділянки та квазіперіодичні і неперіодичні сегменти. Сформовано експериментальну базу даних і знань озвучення текстів та розроблено програмну модель синтезатора мовленнєвого сигналу за текстом на основі природного мовленнєвого сигналу. Дослідження розбірливості та натуральності синтезованого мовленнєвого сигналу підтверджують практичну цінність отриманого результату.
В рамках дисертаційної роботи розроблено автоматизовані засоби формування акустико-фонетичної бази даних і знань та на її основі створено інформаційну технологію озвучення довільних українських текстів. Основні наукові та практичні результати дисертаційної роботи:
Розроблено структуру моделі синтезу мовлення за текстом у амплітудно-часовому просторі на основі фонемно-трифонної моделі з використанням природного мовленнєвого сигналу, що дає змогу озвучити довільний україномовний орфографічний текст. Досліджені фонетичні й акустичні аспекти синтезу мовленнєвого сигналу за текстом дали змогу врахувати явище взаємовпливу звуків у потоці мовлення або коартикуляцію і забезпечити можливість темпоральних і інтонаційних змін у контексті особливостей української мови. Перетворення акустичних прототипів фонем-трифонів виключно в часовому просторі дає змогу значною мірою уникати спотворень природного сигналу, що забезпечує натуральність звучання та зменшує обчислення в процесі синтезу мовлення.
Обґрунтовано структуру бази даних і знань для озвучення українських текстів. Виділено дві основні складові бази даних і знань: фонетична база знань і усномовний паспорт диктора (ІУП).
Фонетична база знань описує усну мову з використанням фонетичних знань і понять, забезпечуючи функціонування лінгвістичного блоку синтезатора. ІУП містить акустичні прототипи фонем-трифонів і описує все фонетико-акустичне розмаїття та особливості вимови особи.
Автоматизовано найбільш трудомістку процедуру при формуванні ІУПу – розбиття мовленнєвого сигналу на одноквазіперіодичні сегменти та квазіперіодичні й неперіодичні ділянки. Модель квазіперіодичності та неперіодичності побудовано в амплітудно-часовій області, що дозволяє знайти точні початки та закінчення квазіперіодів.
Постановка задачі розбиття мовленнєвого сигналу на сегменти, що відповідають одному квазіперіоду (одноквазіперіодичні сегменти), і її вирішення проведені в рамках генеративної моделі. Алгоритм розв’язку задачі є еквівалентом перебору всіх можливих початків і закінчень квазіперіодів зі знаходженням найкращого варіанту розбиття згідно з уведеною елементарною мірою квазіперіодичності.
Критерії віднесення тієї чи іншої ділянки мовленнєвого сигналу до класу квазіперіодичних, напівшумних чи шумних сформульовані на основі проведеної одноквазіперіодичної сегментації.
Розроблено програмний комплекс автоматизованих засобів формування бази даних і знань озвучення текстів. З використанням цього програмного комплексу експерт має змогу формувати базові фонетичні знання про природні мови, проводити запис навчальної вибірки згідно орфографічного або фонемного тексту, сегментувати навчальну вибірку на фонеми-трифони та проводити автоматичне сегментування на одноквазіперіодичні сегменти (мікрофонеми).
З використанням самостійно розробленого програмного забезпечення стало можливим формувати ІУП із залученням експертів, які мають лише незначний досвід роботи з мовленнєвим сигналом.
Опрацьовано теоретично та експериментально модель синтезу мовлення за текстом в амплітудно-часовому просторі з використанням математичної моделі лінійного прогнозування відліків мовленнєвого сигналу на основі фонемно-трифонної моделі. Вимоги до використання оперативної пам’яті та до швидкодії процесора в процесі синтезу досить помірні.
Таким чином, розроблено автоматизовані засоби формування баз даних і знань для озвучення текстів згідно обґрунтованих структури синтезу мовлення та структури бази даних і знань. При формуванні усномовного файлу диктора автоматично виконується найбільш трудомістка процедура. Експериментально підтверджено придатність сформованої бази даних. Визначено подальші шляхи вдосконалення технології озвучення українських текстів, сформульовано деякі нові актуальні задачі, що стосуються синтезу мовлення.
Публікації автора:
Сажок М.М. Автоматизовані засоби дослідження синтезу українського мовлення на основі фонемно-трифонної моделі// Автоматизовані системи управління та прогресивні інформаційні технології. Випуск І, Київ, 2003, с. 101–113.
Сажок М.М. Усномовний паспорт диктора для мовленнєвих діалогових систем// Автоматизовані системи управління та прогресивні інформаційні технології. Випуск ІІ, Київ, 2004, с. 101–111.
Mykola Sazhok. Speech Modelling Virtual Laboratory// у книзі Speech Processing, Recognition and Artificial Networks, видавництво Springer, 1998, с. 229–232.
Микола Сажок. Генерування правил розставляння наголосів у багатомовному аспекті// Праці 5-ї Всеукраїнської міжнародної конференції “Оброблення сигналів і зображень та розпізнавання образів” – УкрОбраз’2000, Київ, 2000, с. 111–112.
Т.В. Людовик, Н.Н. Сажок. Использование речевых баз данных большого объема при синтезе речи в системах искусственного интеллекта// Проблемы управления и информатики. Київ, 6’2003, с.82-87.
Taras K. Vintsiuk, Mykola M. Sazhok. Speech Analysis and Recognition Synchronised by One-Quasiperiodical Segmentation// у книзі Lecture Notes in Computer Science, випуск 1692, видавництво Springer, 1999, с. 175-180.
Taras K. Vintsiuk, Mykola M. Sazhok. Speaker Voice Passport for a Spoken Dialogue System// Праці 3-ї міжнародної конференції “Speech and Computer” – SPECOM’98, С.-Петербург, Росія, 1998, с. 175–178.
Taras K. Vintsiuk, Tetiana V. Liudovyk, Mykola M. Sazhok. Phonetic Knowledge Base for Ukrainian// Праці 3-ї міжнародної конференції “Speech and Computer” – SPECOM’98, С.-Петербург, Росія, 1998, с. 179–182.
Тарас Вінцюк, Тетяна Людовик, Микола Сажок, Руслан Селюх. Автоматичний озвучувач українських текстів на основі фонемно-трифонної моделі з використанням природного мовного сигналу// Праці 6-ї Всеукраїнської міжнародної конференції “Оброблення сигналів і зображень та розпізнавання образів” – УкрОбраз’2002, Київ, 2002, с. 79–84.