Ломонос Ярослав Геннадійович. Система обробки електронних документів на базі нечіткої моделі термінологічного аналізу : Дис... канд. наук: 05.13.06 - 2009.
Анотація до роботи:
Ломонос Я. Г. Система обробки електронних документів на базі нечіткої моделі термінологічного аналізу. – Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – «Інформаційні технології». – Донецький національний університет, Донецьк, 2008.
В дисертаційній роботі вирішується актуальна наукова задача – підвищення якості виділення смислових одиниць тексту (термінів) під час обробки електронних документів, що містять природно-мовні тексти, можливо з помилками. В процесі вирішення задачі розроблена концептуальна багаторівнева модель обробки тексту на базі розділення семантичних шарів, модель подання тексту через нечіткі характеристики семантичних складових тексту різного ступеня узагальнення смислу та метод узагальнення семантичного навантаження тексту за шарами символ-морфема-термін. Розроблений метод дозволяє вирішувати задачу пошуку терміну в тексті з мінімумом помилок пропуску та задачу ідентифікації терміну з мінімумом помилок помилкового спрацювання. Розробленого методу може бути використано при розробки інформаціонно-пошукових систем, систем категоризації та інших систем, що включають до себе підсистеми морфологічного, термінологічного та семантичного аналізу.
У дисертації подано нове розв'язання наукової проблеми обробки природно-мовних текстів в автоматизованих системах аналізу текстової інформації. Створені моделі обробки тексту дозволяють підвищити якість виділення значеннєвих елементів у природно-мовних текстах, що містять помилки. Основні результати роботи зводяться до зазначеного нижче.
Аналіз документів, що відносяться до динамічного контенту мережі Інтернет показав високий вміст помилок в документах. Це обмежує можливості пошукових і аналітичних систем. На основі класифікації помилок як інформаційного шуму, що зустрічаються в текстових документах – синтаксичних помилок (зміна, вставка або випадіння символу), та семантичних змін (зміни порядку слідування слів, зміни множини/роду/відмінку, вставка слів в середину фрази), запропоновано багаторівневу модель подання тексту. Це дозволяє врахувати можливі помилки на різних рівнях: синтаксичні помилки на символьному та морфемному та семантичні зміни на термінологічному рівні подання тексту.
Багаторівнева модель подання тексту, що побудована на основі формалізації нечіткого фактору впевненості, дозволяє однорідно виразити нечіткі характеристики тексту рівнів символів, морфем та термінів у вигляді послідовності множин нечітких множин. Однорідність апарату подання и обробки нечітких характеристик на різних шарах спрощує фізичну реалізацію моделі та подання даних в базі даних.
Первинний текст незалежно від рівня зашумленості відображається у формі послідовності множин нечітких множин. Рівень зашумленості й кількість помилок відображається в значенні впевненості семантичних елементів. Під час нечіткого порівняння словарного еталону з первинним текстом досягається роздільність впевненості між різними по смислу термінами та одним терміном написаним з помилками та без.
Процес обробки тексту зведено до поетапного вирахування нечітких характеристик на базі первинного тексту та базових свідотств про спосіб створення тексту. Класифікація способів створення тексту задається в формі нечіткої характеристики алфавіту й дозволяють підвищити достовірність обробки синтаксичних помилок в первинному тексті.
В основу механізму вирахування нечітких характеристик покладени модель фактора впевненості й ідея логогену Мортона. Формалізовано три путі обробки лінгвістичної інформації: порівняння з еталоном (використовується для створення нечіткої характеристики тексту рівня символів), послідовне накопичення впевненості (використовується при морфологічному аналізі) й паралельне накопичення впевненості (використовується при термінологічному аналізі).
Розроблена модель подання тексту нечіткими характеристиками різних семантичних рівнів дозволяє для рівня термінів істотно зменшити розмір інформації що зберігається (до 50 % по об’єму). Це збільшує швидкість подальшої обробки тексту (наприклад, фразеологічного аналізу) за рахунок зменшення інформаційного навантаження тексту, кількості обробляємих елементів тексту й відсутності необхідності перевірки тексту на помилки.
Проведений комп’ютерний експеримент для двох варіантів використання методу термінологічної розмітки тексту з різною кількістю орфографічних помилок показав:
задача пошуку може бути вирішена з мінімумом помилок пропуску (до 0,1%) при долі помилок помилкового спрацювання до 10% (2,5% на текстах з малою кількістю помилок – одна на слово);
задача ідентифікації може бути вирішена з мінімумом помилок помилкового спрацювання (до 0,1%) при долі помилок пропуску до 20% (10% на текстах з малою кількістю помилок – одна на слово).
Опитна експлуатація системи «Text-to-Term» в складі програмного комплексу інформаційної системи АИБС бібліотеки Донецького національного університету підтвердила результати комп’ютерних експериментів по задаче пошуку. Експлуатація системи «Text-to-Term» в складі системи спілкування з клієнтом через короткі мобільні повідомлення сервісу Getitcard.com показала збільшення ефективності в задачі ідентифікації термінів – зменшення помилкових запитів на 15%.
Публікації автора:
Каргин А.А., Ломонос Я.Г. Исследование метода интерпретации аудиальных данных с учетом контекста // Вісник Херсонського державного технічного університету. – 2004. – №1(19). – С. 272-277.
Каргин А.А., Ломонос Я.Г., Петренко Т.Г. Модель нечеткого текста в интеллектуальной системе терминологической разметки электронных документов // Вісник Донецького національного університету – 2005. – Серія А, №2. – С. 360-364.
Ломонос Я.Г. Нечеткая модель терминологической разметки электронных текстов // Вісник Херсонського державного технічного університету. – 2006. – №1(24). – С. 282-288.
Ломонос Я.Г. Терминологическая разметка текста в автоматизированной системе интеллектуальной обработки текстовой информации // Штучний Інтелект. – ІПШІ МОН і НАН України «Наука і освіта», 2006. – №3/2006. – С. 537-547.
Ломонос Я.Г. Использование механизма логогена Мортона для терминологического анализа электронных документов // Наукові праці Донецького національного технічного університету. – 2007. – №13(121). – С. 145-152.
Каргин А.А., Ломонос Я.Г., Парамонов А.И. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» // «Моделювання та керування станом еколого-економічних систем регіону», №3, 2006р. – С. 122-131.
Ломонос Я.Г. Метод інтерпретації аудіальних даних, що належать до класу стаціонарних процесів // Збірка праць сьомої всеукраїнської (другої міжнародної) студентської наукової конференції з прикладної математики та інформатики СНКПМІ–2004. – Львів: Львівський національний університет імені Івана Франка, 2004. – С. 21-22.
Ломонос Я.Г. Исследование метода интерпретации аудиальных данных с учетом контекста // Збірка тез доповідей за матеріалами студентської наукової конференції фізичного факультету. – Донецьк: ДонНУ, 2004. – С. 10-11.
Каргин А.А., Ломонос Я.Г., Парамонов А.И. Интеллектуальные поисковые системы в администрировании информационных ресурсов корпоративной сети ДонНУ. // Збірка доповідей міжнародної науково-практичної конференції «Єдиний інформаційний простір». – Дніпропетровськ: УГХТУ, 2004. – С. 9-12.
Каргин А.А., Ломонос Я.Г. Модель синтеза терминов в системах интеллектуальной обработки текстовой информации // Збірка праць шостій міжнародної науково-практичної конференції «Сучасні інформаційні та електронні технології» (23-27 травня 2005г.) – Одеса, 2005г. – С. 177.
Каргин А.А., Ломонос Я.Г., Парамонов А.І. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» // Збірка наукових праць сьомої міжнародної наукової конференції «Інтелектуальний аналіз інформації» – Київ, ІАІ-2007. – С. 140-149.