Искусство в IT-технологиях...

Васильев Иван Анатольевич. Методы и инструментальные средства построения семантических WEB-порталов, 2006

4.2.2. Тестирование функции семантического поиска



Тестирование функции семантического поиска выполнялось с точки зрения качества поиска. Параметрами, по которым обычно оценивается качество работы информационно-поисковой системы (ИПС), являются точность и полнота поиска. Как показывает практика, для существующих в сети Интернет полнотекстовых ИПС данные показатели находятся на уровне 50% [3].
Это связано с тем, что реальная релевантность, как правило, ниже формальной релевантности, а удовлетворенность, как правило, ниже реальной релевантности (рис. 4.16).

Схема оценки качества работы ИПС


Рис. 4.16. Схема оценки качества работы ИПС
Отмеченное снижение релевантности на пути от формальной оценки до оценки человеком связано с преобразованиями, которые претерпевает информационная потребность человека до попадания в ИПС. В результате этих преобразований в изначальную информационную потребность вносятся искажения:
• Человек может не точно выразить свою информационную потребность.

Кроме этого искажения вносятся во время формирования ПОЗ. Чаще всего это выражается в утрате контекста поиска. Под утратой контекста надо понимать использование слов из информационного запроса не в том смысле, который заложен в них человеком. Основанная причина утраты контекста — полисемия и омонимия естественного языка.
ПОД также может неточно отражать текстовое содержание документа. Основная причина —утрата контекста.
Метод вычисления формальной релевантности также вносит погрешность.
Метод вычисления близости семантических метаданных, на котором основывается семантический поиск, разрабатывался с целью уменьшения искажений при формировании ПОЗ и ПОД и при расчете формальной релевантности (таблица 4.4).
Таблица 4.4. Сравнение различных видов информационно-поисковых систем по параметрам, влияющим на качество поиска

Сравнение различных видов информационно-поисковых систем по параметрам, влияющим на качество

Вид ИПС
Факторы Полнотекстовая ИПС ИПС со словарем ИПС со словарем н синонимами ИПС с онтологией Учет синонимии - - + + Учет омонимии - частично частично + Учет полисемии - частично частично + Учет широты понятия - - - + Плюсы любая предметная область, простота формирования ПОД и ПОЗ увеличение точности поиска увеличение полноты поиска увеличение полноты и точности поиска Минусы недостаточная точность и полнота поиска ограниченная
предметная
область ограниченная
предметная
область ограниченная
предметная
область Специфика полнотекстовых ИПС в том, что основной причиной снижения точности и полноты являются искажения при формировании ПОЗ и ПОД (они формируются автоматически), а методы расчета формальной релевантности имеют высокий показатель качества. В ИПС с ограниченным сло-
варем понятий (тезаурус или онтология) повышается качество формирования ПОЗ и ПОД (за счет участия человека). Поэтому при сохранении качества расчета формальной релевантности в этих ИПС показатели полноты и точности поиска могут быть улучшены.
Для проверки качества расчета формальной релевантности трем потенциальным пользователям семантического портала (далее, тестеры) было предложено вручную оценить формальную релевантность 4-х запросов относительно семантических метаданных всех 160-ти документов. Всем тестерам были предложены одинаковые запросы, которые были подобраны таким образом, что алгоритм семантического поиска возвращал непустое множество документов.
Пример 4Л. Запрос представляет собой набор триплетов и одиночных элементов. Ниже приведена таблица элементов 4-го запроса.
Таблица 4.5. Элементы семантических метаданных, описывающих 4-ый запрос

Элементы семантических метаданных, описывающих 4-ый запрос


В задачи тестера входил отбор семантических метаданных документов, подходящих под запрос (рис. 4.17), а также проставление оценок релевантности по шкале [0;1] для каждого элемента из запроса каждому элементу семантических метаданных документов.

Сравнение результатов работы тестеров с результатами работы алгоритма


Рис. 4.17. Сравнение результатов работы тестеров с результатами работы алгоритма
На основании полученных данных было выполнено сравнение результатов работы тестеров с результатами работы алгоритмов семантического поиска (параграф 3.6). Для этого по аналогии с показателями полноты и точности рассчитывались показатели формальной полноты и формальной точности.
Формальная полнота поиска

Формальная полнота поиска


количество релевантных семантических метаданных, выданных алгоритмом

количество релевантных семантических метаданных, выданных алгоритмом

количество релевантных семантических метаданных, не выданных алгоритмом

количество релевантных семантических метаданных, не выданных алгоритмом
Таблица 4.6.
Показатель формальной полноты алгоритмов семантического поиска

Показатель формальной полноты алгоритмов семантического поиска


Формальная точность поиска

Формальная точность поиска


количество релевантных семантических метаданных, выданных алгоритмом

количество релевантных семантических метаданных, выданных алгоритмом

количество нерелевантных семантических метаданных, выданных алгоритмом

количество нерелевантных семантических метаданных, выданных алгоритмом
Таблица 4.7. Показатель формальной точности алгоритмов семантического поиска

Показатель формальной точности алгоритмов семантического поиска



Алгоритмы семантического поиска показали высокие результаты по формальной полноте и точности поиска. Однако их нельзя сравнивать с показателями полноты и точности полнотекстовых ИПС в силу того, что формальные показатели не учитывают удовлетворенность пользователей результатами поиска. В данном тестировании удовлетворенность не была оценена потому, что сехмантические метаданные документов были сгенерированы произвольным образом и не отражали текстового содержания документов. Тем не менее, при достижении высокой степени соответствия семантических метаданных текстовому содержанию документов можно ожидать высоких показателей полноты и точности поиска с помощью предложенных алгоритмов.
В результате тестирования зафиксировано снижение формальной точности поиска для запросов 2 и 3 при оценке вторым тестером (таблица 4.7). Анализ причин этого снижения выявил, что пользователи могут по-разному интерпретировать включение понятия из онтологии в поисковый запрос.
Понятие в запросе может использоваться как для ссылки на термин из предметной области, так и для целенаправленного объединения нескольких понятий в группу. Например, в запросе указано понятие «Контроллер». Такой запрос можно интерпретировать как:
Найти документы о том, что такое контроллер и как он устроен, исключая документы с описаниями конкретных моделей контроллеров.
Найти документы обо всех конкретных моделях контроллеров, описанных в базе знаний.
Найти все документы, которые касаются контроллеров в общем и которые о частных моделях контроллеров.
Разработанные алгоритмы семантического поиска (параграф З.б) учитывают только третий вариант. В связи с этим возникает необходимость дальнейшей доработки алгоритмов семантического поиска и связанных с ним методов вычисления близости семантических метаданных. Эти задачи выходят за рамки данной работы, но являются актуальными на перспективу.

Результаты работы тестеров также использовались для определения значений коэффициентов, необходимых при сравнении элементов онтологии во время семантического поиска (выражения 3.26, 3.30). Тестеры указывали сходство между элементами запроса и элементами семантических метаданных документов. На основании этих оценок для каждого типа пар сравниваемых элементов было получено среднее значение соответствующих коэффициентов (таблица 4.8).
Таблица 4.8. Коэффициенты для семантического поиска

Коэффициенты для семантического поиска


Коэффициент dICC указывает на то, что тестеры в некоторых ситуациях сочли релевантными те семантические метаданные документов, в которых не упоминался искомый экземпляр. В свою очередь значение коэффициента dCIC
подтверждает наличие указанной выше проблемы интерпретации понятий в запросе. Указанные коэффициенты опосредованно используются при расчете показателя SMcs (выражение 3.47), который позволяет ранжировать найденные объекты портала.
предыдущий следующий
= К содержанию =


4.2.2. Тестирование функции семантического поиска - релевантная информация:

  1. ВВЕДЕНИЕ
    тестированы в процессе практической реализации Web-порталов. Результаты исследования использовались при разработке и реализации Web-портала для «Центра профессиональной подготовки специалистов нефтегазового дела» ТПУ и Web-портала системы управления знаниями компании «ЭлеСи». Диссертационное исследование выполнялось в соответствии с проектом «Создание информационно-программной среды научно-
  2. 4.2. Тестирование семантического ядра портала
    функции: аннотирование объектов; семантический поиск; формирование списка объектов, связанных с исходным объектом; формирование списка объектов, похожих на исходный объект. Функция аннотирования упрощает процесс формирования семантических метаданных для объектов портала. Семантический поиск позволяет искать объекты портала с учетом их семантики. Формирование списка объектов, связанных с исходным
  3. 4.2.1. Тестирование функции аннотирования объектов
    тестирования была проверка простоты использования методов и программных средств составления семантических метаданных. Для этого в онтологию было помещено 1227 экземпляров различных понятий предметной области. Из них 112 экземпляров были выявлены в результате анализа документов, относящихся к выбранной предметной области. Эти экземпляры содержали от 1 до 3 лексических меток. Остальные 1115
  4. 4.2.3. Тестирование функции категоризации
    тестирование функции категоризации выполнялось с целью уточнения значений коэффициентов, полученных в результате тестирования семантического поиска. Для этого трем тестерам было предложено 20 из 160 проаннотированных документов. На основании семантических метаданных документа тестер должен был выбрать рубрики (приложение 5), семантические метаданные которых соответствуют документу. Ограничением
  5. 4.2.4. Тестирование функции выработки рекомендации
    тестирования трем тестерам было предложено 3 произвольных документа из 160-ти проаннотированных. Семантические метаданные каждого из трех предложенных документов сравнивались тестером с семантическими метаданными оставшихся 159-ти документов. При этом тестер указывал близость элементов семантических метаданных в диапазоне (0;1], а также указывал, считает ли он семантические метаданные схожими
  6. 4.3.2. Портал «Корпоративная система управления знаниями»
    тестирования были зафиксированы высокие показатели качества выполнения алгоритмических процедур поиска, категоризации и предоставления рекомендаций. Результаты исследований современного уровня развития семантических технологий, разработка функциональной структуры и программная реализация компонентов семантического ядра способствуют практическому решению задачи создания семантического
  7. ЗАКЛЮЧЕНИЕ
    тестирование программного кода на сгенерированном множестве семантических метаданных. Разработанные структуры, методы и алгоритмы построения семантических Web-порталов, а также соответствующее программное обеспечение, внедрены в двух организациях (ЗЛО «ЭлеСи», Центр профессиональной переподготовки специалистов нефтегазового дела ТПУ) при создании для них семантических порталов различного
  8. ПЕРЕЧЕНЬ СОКРАЩЕНИЙ, УСЛОВНЫХ ОБОЗНАЧЕНИЙ, СИМВОЛОВ, ЕДИНИЦ И ТЕРМИНОВ1
    функционирования) в зависимости от изменения условий внешней среды путем накапливания и использования информации о ней [I] Архитектура Концепция взаимосвязи элементов сложной структуры. Включает компоненты логической, физической и программной структур Высказывание Иерархия Избыточность Информационная архитектура сайта Суждение, рассматриваемое в некоторой системе суждений только в связи с
  9. 1.2 Теоретические подходы к процессу чтения
    тестирования, которые ложатся в основу разрабатываемых моделей чтения. Однако иногда достоверность тестов вызывает сомнения, поскольку моделирование процесса но итогам описания результатов представляется весьма затруднительным, если не невозможным. Интроспективные методы также поднимают больше вопросов, чем проясняют. Как отмечает А.А. Залевская, в существующих теориях подчас игнорируется сам
  10. ЛИТЕРАТУРА
    функциональной семантики. Калининград, 1993. С. 26-34 Бойцова Т.А. О роли названия и введения в реатизации текстовой проспекции. Автореф. Дис....канд.филол. наук. Ниж. Новгород, 1992. -25 с. Ьогин Г.И. Схемы действий читателя при понимании текста: Учебное пособие. ЮГУ.- Калинин, 1989. - 69 с. Богин Г.И. Субстанциальная сторона понимания текста : Учеб. пособие, Твер. гос. ун-т, 1993. - 137 с.