Искусство в IT-технологиях...

Васильев Иван Анатольевич. Методы и инструментальные средства построения семантических WEB-порталов, 2006

3.6. Применение методов вычисления семантической близости и фильтрации множества кандидатов



Метод вычисления близости семантических метаданных применяется в комплексе с методом вычисления семантической-близости элементов онтологии и методом фильтрации для реализации в СП функций семантического поиска, категоризации и формирования рекомендаций.
Общие шаги по использованию указанных методов приведены на рисунке 3.5.

Использование метода вычисления близости семантических метаданных


Рис. 3.5. Использование метода вычисления близости семантических метаданных
Семантический поиск:
Объектом-эталоном при семантическом поиске является поисковый запрос, представленный в виде семантических метаданных.
Процедура формирования множества объектов-кандидатов для выполнения среди них семантического поиска заключается в выборе пользователем тех понятий из неизменной части онтологии, которым соответствуют требуемые типы объектов. Если, например, необходимо найти документы и ссылки, то указываются соответствующие понятия. В результате выбора определяется значение комплексного понятия используемое в процессе фильтрации множества кандидатов.
К множеству объектов-кандидате в относятся все объекты выбранных типов.
Для фильтрации множества объектов кандидатов формируется комплексное понятие

Для фильтрации множества объектов кандидатов формируется комплексное понятие

и выполняется обращение к CJIB. Результаты обращения обрабатываются с целью установления соответствия между найденными экземплярами и объектами СП.
В процессе обработки результатов из множества кандидатов удаляются те объекты, семантические метаданные которых не содержат
всех-понятий и экземпляров, присутствующих в семантических метаданных поискового запроса.
Сравнение поискового запроса с семантическими метаданными объектов-кандидатов осуществляется с использованием показателя

Сравнение поискового запроса с семантическими метаданными объектов-кандидатов осуществляется с использованием показателя

. Каждому объекту-кандидату присваивается значение релевантности в диапазоне [0;1].
Все объекты-кандидаты упорядочиваются по уменьшению показателя релевантности.
В результате семантического поиска пользователю предлагается список найденных по запросу объектов, упорядоченных по релевантности и дополнительно сгруппированных по типам объектов.
Категоризация:
В качестве объекта-эталона выступает рубрика каталога.
Из базы данных извлекаются семантические метаданные всех объектов СП (за исключением рубрик), для которых нужно проверить
с
соответствие рубрике. Значение понятия еп,,,у устанавливается равным объединению соответствующих понятий-кандидатов.

Множеством объектов-кандидатов является множество объектов СГ1 за исключением самих рубрик. Семантическое сравнение рубрики с рубрикой при категоризации не имеет смысла, но имеет практическое значение при проверке правильности расположения рубрики- кандидата в иерархии рубрик.
Для фильтрации множества объектов кандидатов формируется комплексное понятие

Для фильтрации множества объектов кандидатов формируется комплексное понятие

и выполняется обращение к СЛВ. Результаты обращения обрабатываются с целью установления соответствия между найденными экземплярами и объектами СП.
В процессе обработки результатов из множества кандидатов удаляются..те объекты, семантические метаданные которых-не содержат хотя бы одного понятия или экземпляра, присутствующего в семантических метаданных рубрики.
Сравнение семантических метаданных рубрики с семантическими метаданными объектов-кандидатов осуществляется с использованием показателя

Сравнение семантических метаданных рубрики с семантическими метаданными объектов-кандидатов осуществляется с использованием показателя

, Каждому объекту-кандидату присваивается значение релевантности в диапазоне [0; 1].
Во множестве объектов-кандидатов остаются лишь те объекты, которые имеют показатель релевантности больше нуля, то есть относятся к рубрике,
В результате категоризации в базу данных СП заносится перечень объектов, относящихся к рубрике, для последующего использования.
Нужно отметить, что наряду с описанным процессом категоризации, называющимся «полной категоризацией», в СП также применяется частичная категоризация.
Она применяется для соотнесения одного объекта-кандидата с множеством рубрик. При частичной категоризации фильтрация не используется, так как множество кандидатов содержит один заранее известный объект. Каждая рубрика поочередно сравнивается с кандидатом для установления того, к каким рубрикам относится объект.

Формирование рекомендаций:
Объектом-эталоном является некоторый документ, для которого нужно найти другие документы, семантически близкие к нему по текстовому содержанию.
Из базы данных СП извлекаются семантические метаданные, как внутренних документов, так и внешних документов (ссылок, имеющих семантические метаданные).
Во множество объектов-кандидатов входят все документы за исключением объекта-эталона.
Фильтрация множества кандидатов не осуществляется, так как семантическая близость между двумя документами при использовании алгоритма

Фильтрация множества кандидатов не осуществляется, так как се¬мантическая близость между двумя документами при использовании алгоритма

не может быть равной нулю.
Множество кандидатов остается прежним.
Семантическое сравнение семантических метаданных эталона с семантическими метаданными объектов-кандидатов осуществляется с использованием показателя

Семантическое сравнение семантических метаданных эталона с семантическими метаданными объектов-кандидатов осуществляется с использованием показателя

.
Каждому объекту-кандидату присваивается значение близости в диапазоне (0;1].
Множество кандидатов упорядочивается по уменьшению показателя близости эталону.
В результате из полученного упорядоченного множества выбираются и рекомендуются пользователю первые N документов, показатель близости которых не ниже порогового значения для рекомендации. Пороговое значение для рекомендации предполагается устанавливать экспериментальным путем.
предыдущий следующий
= К содержанию =


3.6. Применение методов вычисления семантической близости и фильтрации множества кандидатов - релевантная информация:

  1. Выводы по главе
    применения метода фильтрации множества кандидатов. Предложенный метод представления.семантических метаданных в системе логического вывода способен находить метаданные с показателем близости равным нулю. Это позволяет применять систему логического вывода для фильтрации множества кандидатов в процедурах поиска и
  2. 3.5. Метод фильтрации множества кандидатов
    метод вычисления близости семантических метаданных можно рассматривать как средство ранжирования объектов-кандидатов на основании объекта-эталона. После ранжирования те кандидаты, семантическая близость которых эталону меньше некоторого порогового значения, исключаются из результирующего множества объектов. Очевидно, что чем больше множество кандидатов, тем дольше выполняется ранжирование.
  3. ВВЕДЕНИЕ
    применение в рамках Web-портала новых подходов и методов к обработке информации имеет высокую практическую значимость, а исследование подходов и разработка методов построения Web- портала на основе семантических технологий являются актуальными. В настоящее время исследования в области развития и внедрения семантических и портальных технологий ведутся как в России, так и за рубежом. Тем не менее,
  4. 2.5. Использование семантического ядра портала
    применение. В разработанном семантическом портале эта функция СЯП использовалась для выполнения категоризации — проверки соответствия объекта заданным категориям. Для выполнения категоризации объектов с учетом их семантики необходимо наличие семантических метаданных у объектов и у категорий, к которым нужно отнести объекты. Предполагается, что все множество воз- можных категорий будет
  5. 3.3. Метод вычисления семантической близости элементов онтологии
    метод оценки семантической близости следующих элементов онтологии [25]: понятия (множество С); экземпляры понятий (множество I); отношения (множество R); атрибуты (множество А); конкретные значения (множество V). Пара сравниваемых элементов рассматривается как упорядоченная в том смысле, что первый элемент пары является эталоном, с которым сравнивается второй элемент пары - кандидат. Из этого
  6. НС обучаемые по образцам
    применений [3, 7, 8] при моделировании экономических процессов обычно используют нейронные сети, содержащие до двух скрытых слоев, которые могут содержать до тысячи формальных нейронов. Ограничения по числу слоев и количеству формальных нейронов связаны, в первую очередь, с нелинейным ростом вычислительных затрат при программной эмуляции нейронных сетей. • Определить разность между вычисленным
  7. СПИСОК ИСПОЛЬЗОВАННЫХ источников
    применения бумажных прототипов // \VebmasterPro_com_ua - оптимизация сайтов в поисковых сис-темах_ Маркетинг и реклама в интернет.пНп/2005/. Нестерук Л. Г., Нестерук Т. Н. Применение иейро-иечетких сетей для анализа инвестиционных процессов // Нейроинформатика-2005: Материалы VII всероссийской научно-технической конференции. - М.: МИФИ (ТУ), 2005. 4.2. С. 221-228. Нестерук Т. Н. Специфика
  8. 1.3. Анализ существующих применений семантических технологий в порталах
    метод использования семантических технологий для тематических порталов в сфере образования. Портал такого рода должен содержать ссылки на ресурсы в сети Интернет, из которых обучаемый может почерпнуть информацию по определенной тематике. Для создания портала необходимо: описать онтологию требуемой предметной области; описать с использованием онтологии ресурсы в сети Интернет, которые содержат
  9. 2.1. Анализ вариантов использования онтологии
    применения онтологии и эффект от ее использования для указанной цели. Описание объектов ИС. Документы, звук, видео и другие объекты ИС могут быть описаны с помощью элементов онтологии. Получившееся описание является семантическими метаданными объекта, которые могут быть использованы для реализации различных функций ИС. Составление семантических метаданных является одной из основных задач в
  10. Вычисление семантической близости экземпляра понятию
    метод Левенштейна [109], метод Q-грамм [110], алгоритм Soundex [111], алгоритм MetaPhone [112] и т.д. Любой из перечисленных алгоритмов может быть использован также и для сравнения чисел, рассматриваемых в качестве строковых