Искусство в IT-технологиях...

Васильев Иван Анатольевич. Методы и инструментальные средства построения семантических WEB-порталов, 2006

3.2. Метод формирования семантических метаданных



Семантические метаданные применяются для описания объектов семантического портала и используются в процедурах семантической обработки информации. Объекты могут либо иметь, либо не иметь текстовое описание.
В зависимости от этого формирование семантических метаданных будет выполняться различными способами. В данном диссертационном исследовании разработан метод формирования семантических метаданных, который определяет правила выбора предикатов и объектов из онтологии, а также определяет алгоритм поиска понятий и экземпляров в тексте.
Формирование семантических метаданных объекта портала должен выполнять человек. Он должен в соответствии с сущностью предмета описания определять элементы семантических метаданных. Элементы представляют собой либо триплеты со структурой «субъект—предикат—объект», либо отдельные понятия или экземпляры из онтологии, которые будем называть «субъект» (параграф 2.4.1, таблица 2.7). Создавая элемент семантических метаданных, человек обязательно должен указать «субъект». После этого он может дополнительно указать «предикат» и «объект».
Если субъект указывается человеком таким образом, чтобы отражать сущность предмета описания, то на выбор предиката и объекта накладываются дополнительные ограничения, которые вытекают из правил формирования высказываний дескриптивной логики [96].

Определение 2.2 онтологии 0DL (параграф 2.3.2) дано с учетом свойств дескриптивной логики. На основании этого определения в рамках метода формирования семантических метаданных сформулированы правила выбора предикатов и объектов из онтологии.
Множество возможных предикатов в триплете ограничивается выбранным субъектом триплета. В таблице 3.2 приведены правила формирования множества Мгеш возможных предикатов в триплете на основании определения онтологии 0Г11 .
Таблица 3.2. Правила определения возможного значения предиката в триплете

Правила определения возможного значения предиката в триплете


То есть, в качестве предиката человек может выбрать те отношения или атрибуты, которые в онтологии определены для субъекта — понятия или экземпляра.
После выбора предиката человек должен обязательно указать объект триплета. Множество возможных объектов зависит от выбранного предиката. Правила формирования множества Мош возможных объектов в триплете на основании определения онтологии 0DL приведены в таблице 3.3.
Таблица 3.3. Правила определения возможного значения объекта в триплете

Правила определения возможного значения объекта в триплете


То есть, возможные значения предиката определяются либо областью конкретных значений атрибута, либо областью значений отношения.
При соблюдении указанных правил человек формирует элементы семантических метаданных. Ограничений на количество элементов в семантических метаданных не накладывается.

Если семантические метаданные формируются на основании текстового описания объекта, то в дополнение к правилам выбора предикатов и объектов используется алгоритмом поиска понятий и экземпляров в тексте. Это позволяет частично автоматизировать процесс выбора субъекта из онтологии. С этой целью текстовое описание анализируется на наличие понятий и экземпляров, которые могут выступать в качестве субъектов в элементах семантических метаданных.
Задачей алгоритма является поиск лексических меток понятий и экземпляров из онтологии в текстовом описании объекта для формирования множества возможных субъектов в элементах семантических метаданных.
Обозначим через L0 текстовое описание объекта, которое можно представить как упорядоченное семейство слов, исключив из него знаки препинания.
В онтологии 0DL в свою очередь задано множество L лексических меток элементов онтологии. Каждая лексическая метка I, е L может быть представлена как упорядоченное семейство слов, если удалить из нее знаки препинания. Из множества L выделяем подмножество LscL, содержащее лексические метки понятий и экземпляров.

Из множества L выделяем подмножество LscL, содержащее лексические метки понятий и экземпляров


Перед поиском лексических меток из множества Ls в текстовом описании L0 выполняется морфологический анализ [107] с целью определения нормальной формы слов, входящих в состав лексических меток

лексические метки

и в состав семейства L0. В результате получаем множество нормализованных лексических меток L's и упорядоченное семейство нормализованных слов L'0 соответственно.
Обозначим количество слов в семействе

количество слов в семействе

через

количество слов в семействе

. Введем упорядоченное семейство слов W. Найденные в результате поиска понятия и экземпляры образуют соответственно множества Мс и М,.

С учетом введенных обозначений алгоритм поиска понятий и экземпляров в тексте L0 можно представить следующим образом (рис. 3.4).

Алгоритм поиска понятий и экземпляров в тексте


Рис.
3.4. Алгоритм поиска понятий и экземпляров в тексте
Алгоритм построен таким образом, что:
• при наличии во множестве лексических меток двух меток с одинаковым началом совпадения ищутся в тексте сначала для более длинной метки, а потом - для более короткой;
90

не учитывается возможные синтаксические варианты расположения лексических меток в тексте;
учитываются морфологические варианты лексических меток.
Результатом работы алгоритма являются множество понятий Мс и
множество экземпляров которые могут иметь отношение к объекту, для которого формируются семантические метаданные.
Человек, формирующий семантические метаданные, должен отредактировать полученное множество понятий и экземпляров:
удалить элементы, не отражающие сущность объекта описания;
устранить многозначность, если множество содержит элементы с одинаковыми лексическими метками;
дополнить множество понятиями и экземплярами, не найденными алгоритмом.
После этого элементы множества могут быть использованы для формирования триплетов в соответствии с описанными выше правилами выбора предикатов и объектов.
Во время функционирования семантического портала рассмотренный метод используется при формировании семантических метаданных для различных типов объектов. Например, в процессе семантического описания знаний человека не задействуется алгоритм поиска понятий и экземпляров в тексте, так как нет соответствующего текстового описания его знаний. В свою очередь для документа, например, семантические метаданные создаются на основании его текстового содержания, что позволяет задействовать алгоритм поиска понятий и экземпляров.
предыдущий следующий
= К содержанию =


3.2. Метод формирования семантических метаданных - релевантная информация:

  1. ВВЕДЕНИЕ
    методов к обработке информации имеет высокую практическую значимость, а исследование подходов и разработка методов построения Web- портала на основе семантических технологий являются актуальными. В настоящее время исследования в области развития и внедрения семантических и портальных технологий ведутся как в России, так и за рубежом. Тем не менее, необходимо, констатировать значительный разрыв по
  2. 4.1.3. Вспомогательные функции
    методе формирования семантических метаданных (параграф 3.2). Загрузка метаданных в онтологию. Данная функция реализует предложенный способ представления семантических метаданных в онтологии для реализации функции фильтрации, Фильтрация множества кандидатов перед расчетом показателя {foto188} (выражение 3.60). Фильтрация множества кандидатов перед расчетом показателя {foto189} (выражение
  3. 4.2.1. Тестирование функции аннотирования объектов
    метод аннотирования не исключает участия человека при составлении семантических метаданных объектов портала. Поэтому основной целью тестирования была проверка простоты использования методов и программных средств составления семантических метаданных. Для этого в онтологию было помещено 1227 экземпляров различных понятий предметной области. Из них 112 экземпляров были выявлены в результате анализа
  4. ЗАКЛЮЧЕНИЕ
    методов и инструментальных средств для создания семантических Web-порталов. Разработанное по результатам исследований семантическое ядро портала, реализующее предложенные методы формирования и обработки семантических метаданных объектов портала, может служить основой для создания семантических порталов в различных предметных областях. В ходе диссертационного исследования получены следующие
  5. 1.3. Анализ существующих применений семантических технологий в порталах
    метод использования семантических технологий для тематических порталов в сфере образования. Портал такого рода должен содержать ссылки на ресурсы в сети Интернет, из которых обучаемый может почерпнуть информацию по определенной тематике. Для создания портала необходимо: описать онтологию требуемой предметной области; описать с использованием онтологии ресурсы в сети Интернет, которые содержат
  6. 2.1. Анализ вариантов использования онтологии
    метод трансформации онтологии в схемы различных типов баз данных - реляционных, объектных, дедуктивных. Вариант интеграции множества реляционных баз данных в единое хранилище данных (data warehouse) с использованием онтологии предложен в [79]. Единая концептуальная схема, необходимая для интеграции, строится путем установления соответствий между онтологией и схемами баз данных. Проектирование
  7. 2.2. Место и функции семантического ядра портала
    методов и алгоритмов использования семантических технологий для реализации общесистемных функций семантического портала (описание объектов, поиск, категоризация и т.д.). Онтологии верхнего уровня являются необходимым условием для обеспечения возможности интеграции создаваемого семантического портала в среду Semantic Web, то есть для взаимодействия с другими информационными системами,
  8. 2.5. Использование семантического ядра портала
    методы оценки близости семантических метаданных (рис. 2.11). Метод вычисления близости семантических метаданных учитывает особенности поиска, категоризации и формирования рекомендаций. Он осно- ван на методе вычисления семантической близости элементов онтологии. Подробно указанные методы рассматриваются в третьей главе. Выводы но главе Анализ онтологического подхода к построению семантических
  9. 3.4. Метод вычисления близости семантических метаданных
    метод вычисления близости семантических метаданных основан на определении 2.2 онтологии {foto106} (параграф 2.3.2), определении 2.3 семантических метаданных {foto109} (параграф 2.4,1) и использует описанный выше метод вычисления семантической близости элементов онтологии. При вычислении близости пары семантических метаданных {foto110} и {foto111} учитывается характер отношений как между
  10. 3.5. Метод фильтрации множества кандидатов
    метод вычисления близости семантических метаданных можно рассматривать как средство ранжирования объектов-кандидатов на основании объекта-эталона. После ранжирования те кандидаты, семантическая близость которых эталону меньше некоторого порогового значения, исключаются из результирующего множества объектов. Очевидно, что чем больше множество кандидатов, тем дольше выполняется ранжирование.