Библиотека диссертаций Украины Полная информационная поддержка
по диссертациям Украины
  Подробная информация Каталог диссертаций Авторам Отзывы
Служба поддержки




Я ищу:
Головна / Технічні науки / Системи та засоби штучного інтелекту


Місуно Іван Семенович. Розробка і дослідження векторних представлень інформації для задач пошуку і класифікації : Дис... канд. наук: 05.13.23 - 2006.



Анотація до роботи:

Місуно І.С. Розробка і дослідження векторних представлень інформації для задач пошуку і класифікації. – Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.23 – Системи та засоби штучного інтелекту. – Інститут проблем математичних машин і систем НАН України, Київ, 2006.

Дисертація присвячена розвитку і підвищенню ефективності методів векторного представлення й обробки візуальної і текстової інформації в задачах пошуку і класифікації. Розроблено методи добору бінарних ознак, що засновані на використанні критеріїв інформативності і надмірності. Методи забезпечують у задачах класифікації зниження обчислювальних витрат при збереженні якості. Розроблено методи підвищення якості класифікації даних, що мають векторне представлення, шляхом вдосконалення правила навчання персептрона, цілеспрямованого розширення навчальної вибірки, об'єднання множинних результатів класифікації і застосування добору найбільш надійних результатів, а також відмови від класифікації. Розроблено методи формування розподілених представлень текстової інформації з урахуванням її семантичної близькості, що відрізняються застосуванням контекстних векторів з дискретними елементами і використанням текстів навчальної бази як контекстів. Ефективність всіх розроблених методів експериментально підтверджено дослідженнями на реальних даних. Розроблено засоби підтримки створення і реалізації інтелектуальних інформаційних технологій класифікації і пошуку, що використовують оригінальні методи формування й оперування векторними представленнями інформації. Розроблено програмний нейрокомп'ютер SNC, який є інструментальнім засобом для розробки, дослідження і практичного застосування методів інтелектуальної обробки даних.

Сукупність отриманих у дисертації результатів забезпечує вирішення актуальної наукової задачі розвитку й підвищення ефективності методів векторного представлення й обробки інформації для задач пошуку і класифікації. Розроблені і досліджені методи представлення й оперування розрідженими векторними представленнями, відбору інформативних ознак, урахування семантичної близькості текстової інформації, класифікації і пошуку. Підвищена ефективність розв’язання задач пошуку і класифікації текстової і візуальної інформації, що показано експериментальними дослідженнями на реальних даних. Методи реалізовано у програмних засобах, які можуть бути використані як компоненти інтелектуальних інформаційних технологій.

За результатами проведеного дослідження зроблено такі висновки:

1. Розроблені методи добору бінарних інформативних ознак дозволяють зменшувати розмірність векторних представлень під час класифікації векторних даних. Методи, реалізовані програмними засобами Feature Toolbox, забезпечують зниження обчислювальних витрат при збереженні якості в задачах класифікації, що підтверджено на реальних даних. Так, для зображень бази MNІST при скороченні числа ознак у 10-50 разів отримана точність класифікації більше 97% і збільшена швидкість класифікації більше ніж у 10 разів; для текстів бази Reuter-21578 при скороченні розмірності текстових векторів у 20-100 разів отримано результат 0,903–0,937, близький до кращих світових (0,92).

2. Розроблено методи, що забезпечують підвищення якості класифікації даних, які мають векторне представлення, шляхом удосконалення навчання, об'єднання множинних результатів класифікації, застосування добору найбільш надійних результатів і відмови від класифікації. Методи реалізовано програмними засобами Classifier Toolbox та в нейрокомп’ютері SNC і експериментально досліджені. На базі MNIST об'єднання множинних результатів класифікації і застосування відбору найбільш надійних результатів дало зменшення помилки класифікації з 0,72% до 0,60%, а застосування відмови від класифікації дозволило додатково знизити рівень помилок.

3. Розроблено методи формування розподілених представлень текстової інформації з урахуванням її семантичної близькості, що відрізняються застосуванням контекстних векторів з дискретними елементами. Методи реалізовано програмними засобами Semantіc Toolbox і використано у макеті програмної системи контекстного пошуку текстів TextSearch, реалізованої в веб-серверній архітектурі. Показано поліпшення результатів пошуку на стандартних базах текстів Medlars, Cranfіeld, Tіme до 20% за 11-точковою усередненою характеристикою порівняно з VSM-пошуком. При класифікації бази Reuter-21578 за допомогою Semantic Toolbox та Classifier Toolbox отримано результати до 0,918, що відповідає рівневі кращих результатів традиційних методів.

4. Розроблені методи формування й оперування векторними представленнями дозволяють пропорційно квадрату розрідженості векторів зменшувати витрати часу на виділення ознак, обчислення інформативності ознак, класифікації і пошуку інформації, завдяки використанню уніфікованого представлення інформації у форматі розріджених векторів і обробки тільки значимих елементів. Методи реалізовано в об’єктно-орієнтованій бібліотеці класів С++ CommonLіb, використання якої дозволяє підвищити обчислювальну ефективність інформаційних технологій обробки текстів і зображень.

5. Створений програмний нейрокомп’ютер SNC є ефективним інструментальним засобом розробки нейромережевих інтелектуальних ІТ. Ефективність забезпечується архітектурою SNC, яка підтримує візуальне конфігурування проектованих алгоритмів у вигляді блок-схем, дозволяє створювати гнучко конфігуровані проекти для дослідницьких і прикладних цілей, розширювати клас вирішуваних задач шляхом включення нових функціональних модулів.

6. Розроблено нові програмні засоби для створення і реалізації інтелектуальних ІТ класифікації та пошуку, що використовують оригінальні методи формування й оперування векторними представленнями інформації (CommonLіb, Feature Toolbox, Classifier Toolbox, Semantіc Toolbox), та макети, що демонструють їх ефективність (TextSearch, TextClassifier).

7. Результати проведених досліджень показали перспективність застосування розроблених методів формування й обробки векторних представлень, а також розроблених програмних засобів для створення нових інтелектуальних інформаційних технологій, що включають задачі пошуку і класифікації візуальної і текстової інформації. Практична значимість розробок підтверджується актами впровадження.

Публікації автора:

1. Гриценко В.И., Мисуно И.С., Рачковский Д.А., Ревунова Е.Г., Слипченко С.В., Соколов А.М. Концепция и архитектура программного нейрокомпьютера SNC // Управляющие системы и машины. - 2004. - № 3. - С. 3-14.

2. Мисуно И.С., Рачковский Д.А., Ревунова Е.Г., Слипченко С.В., Соколов А.М., Тетерюк А.Е. Модульный программный нейрокомпьютер SNC: реализация и применение // Управляющие системы и машины. - 2005. - № 2. - С. 74-85.

3. Мисуно И.С., Рачковский Д.А., Слипченко С.В. Векторные и распределенные представления, отражающие меру семантической связи слов // Математичні машини і системи. - 2005. - № 3. - С. 50-67.

4. Мисуно И.С., Рачковский Д.А., Слипченко С.В. Экспериментальное исследование классификации рукописных цифр // Системные технологии. - 2005. - №4. - С.110-133.

5. Мисуно И.С., Рачковский Д.А., Слипченко С.В., Соколов А.М. Поиск текстовой информации с помощью векторных представлений // Проблемы программирования. - 2005. - № 4. - С. 50-59.

6. Мисуно И.С. Векторное представление и классификация текстовой информации // Управляющие системы и машины. - 2006. - № 1. - С. 85-91.

7. Мисуно И.С., Рачковский Д.А., Слипченко С.В. Распределенное представление данных в задачах классификации // Системные технологии. - 2006. - № 1. - С. 109-118.

8. Рачковский Д.А., Мисуно И.С., Слипченко С.В., Соколов А.М. Поиск аналогов с помощью распределенных представлений // Проблемы программирования. - 2005. - № 1. - С. 39-50.

9. Слипченко С.В., Мисуно И.С., Рачковский Д.А. Свойства кодирования числовых величин случайными гиперпрямоугольными рецептивными полями // Математичні машини і системи. - 2005. - № 4. - С. 15-29.

10. Рачковский Д.А., Слипченко С.В., Мисуно И.С., Куссуль Э.М., Байдык Т.Н. Разреженное бинарное распределенное кодирование числовых векторов // Проблемы управления и информатики. - 2005. - № 6. - С. 57-72.

11. Слипченко С.В., Рачковский Д.А., Мисуно И.С. Декодирование разреженных бинарных распределенных кодов скалярных и векторных величин // Компьютерная математика. - 2005. - № 3. - С. 108-120.

12. Misuno I.S., Rachkovskij D.A., Revunova E.G., Sokolov A.M. SNC: The Software Neurocomputer With Modular Architecture // Междунар. конф. "Проблемы нейрокибернетики". - Ростов-на-Дону, Россия. - 2002. – Т. 2. - С. 109-113.

13. Рачковский Д.А., Мисуно И.С., Ревунова Е.Г. Случайное векторное индексирование документов и семантические представления слов // V Всероссийская конф. "Нейроинформатика-2003". - М.: МИФИ. - 2003. – Т. 2. - С. 213-218.

14. Markman A.B., Rachkovskij D.A., Misuno I.S., Revunova E.G. Analogical reasoning techniques in intelligent counterterrorism systems // X-th Int. Conf. "Knowledge-Dialogue-Solution" KDS-2003. - FOI-Commerce, Sofia, Bulgaria. - 2003. - P. 445-453.

15. Misuno I.S. Reduction of feature pool in large-scale classification tasks // Междунар. конф. "Проблемы нейрокибернетики". - Ростов-на-Дону, Россия. - 2005. - Т.2. - С.70-73.

16. Мисуно И.С., Рачковский Д.А., Слипченко С.В., Соколов А.М. Обработка текстовой информации с помощью векторных представлений // Международный семинар по индуктивному моделированию МСИМ-05. - Киев. - 2005. - С. 230-236.

17. Рачковский Д.А., Мисуно И.С., Ревунова Е.Г., Слипченко С.В., Соколов А.М. Концепция и методы нейросетевого распределенного представления информации в задачах ИИ // 14 Междунар. конф. "Проблемы нейрокибернетики". - Ростов-на-Дону, Россия. - 2005. - Т. 2. - С. 30-33.