Искусство в IT-технологиях...

Васильев Иван Анатольевич. Методы и инструментальные средства построения семантических WEB-порталов, 2006

2.1. Анализ вариантов использования онтологии



Семантические порталы (СП) развивают концепцию создания Semantic Web [43]. Они должны реализовывать информационные процессы - сбор, обработку, накопление, хранение, поиск и распространение — с учетом семантики информации.
Предполагается, что состоящая из таких семантических узлов (сайтов и порталов) сеть Интернет, будет предоставлять пользователям информационные услуги на новом, семантическом уровне. В основе концепции Semantic Web лежит онтология как средство описания семантики информационных ресурсов.
В настоящее время существует ряд проблем в области использования онтологий, которые нужно учитывать при разработке семантических порталов:
Проблема 1. Невозможность автоматического определения соответствия двух произвольных онтологий. Эта проблема возникает при интеграции информации из различных источников. В качестве преодоления данного ограничения в [74] предлагается создавать онтологии с использованием общих онтологий верхнего уровня. Проблема 2. Определение соответствия противоречивых онтологий, то есть такая ситуация, когда описание понятия из одной онтологии противоречит описанию понятия из другой онтологии. Решение этой проблемы возможно на основе использования «эпистемологического сдвига» [75], реализации которого для онтологического подхода пока не предложено [76].
Проблема 3. При использовании языка описания онтологий, основанного на логическом формализме, возникает проблема производительности программного обеспечения (ПО) для выполнения логического вывода на онтологии. Имеет место как минимум обратная полиномиальная зависимость между производительностью ПО и
количеством логических высказываний в онтологии. Необходимо искать компромисс между детальностью онтологии и производительностью ПО. В настоящее время такой компромисс чаще всего достигается экспериментальным путем.
В связи с указанными проблемами разработка семантических порталов ведется с соблюдением следующих ограничений [22]:
Ограничение 1 (позволяет обойти проблемы 1 и 2). Для описания информационных ресурсов содержащихся как в самом портале, так и во внешних источниках используется единая онтология (или набор онтологий), по которой достигнуто соглашение всех заинтере-
сованных лиц - разработчиков и пользователей. То есть процесс
создания и ведения онтологии контролируем, в отличие от сети Интернет в целом. Это позволяет в рамках одного портала стандартизировать процесс создания онтологий на уровне языков описания и
форматов хранения. Даже при условии моделирования предметной
области в виде множества объединяемых онтологий проблема терминологической дивергенции решается путем создания общего словаря терминов с их описанием и правилами использования. Для решения проблем, возникающих при необходимости изменения OEITO- логии, применим подход версий, предложенный в [76]. При возникновении несовместимых версий необходимо совершить переход к новой версии с отказом от старых, несовместимых версий и произ-
т вести повторную верификацию информационных ресурсов.
Ограничение 2 (позволяет обойти проблему 3). Создаваемые для использования в портале онтологии неполно охватывают содержание информационных ресурсов. Такие онтологии не являются семантической копией обрабатываемой информации, а отражают лишь те аспекты, которые существенны для решения конкретных
щ задач в рамках портала. Из-за этого размер онтологии, описываемой
с использованием логических формализмов, может быть скорректи-
рован для достижения приемлемой производительности системы логического вывода.
Как показал анализ, выполненный в параграфе 1.3, в существующих подходах к созданию семантических порталов предлагаются различные варианты использования онтологии. Помимо этих подходов к созданию порталов существуют и отдельные исследования в области использования онтологий в рамках информационных систем (ИС). В связи с этим, в дополнение к анализу порталов, был проведен анализ вариантов использования онтологии в ИС в общем по обширным литературным источникам [63, 70, 74, 77-89]. Были выявлены и обобщены следующие варианты использования онтологии:
Проектирование компонентов ИС [74]. В распоряжении проектировщика должна быть библиотека онтологий, содержащая онтологии предметных областей и онтологии задач [90]. При условии корректности онтологий их содержание может быть использовано при проектировании компонентов ИС. Необходимые части онтологий извлекаются из библиотеки и преобразуются в описание компонента. При таком подходе снижаются затраты на концептуальный анализ, всегда имеющий место при проектировании ИС. Результаты концептуального анализа фиксируются в онтологии, которая затем повторно используется. Таким образом, анализ проводится один раз, а его результаты используются многократно. Помимо проектирования компонентов ИС, онтология может быть использована в процессе реинжиниринга ИС [77]. Кроме этого, онтологии используются как метамодели, описывающие примитивы для моделирования различных аспектов ИС [66, 70]. На основании созданной модели генерируются компоненты ИС.
Проектирование схемы базы данных. Как и в случае с компонентами ИС, онтология может быть использована для преобразования ее в схему базы данных с уменьшением затрат на концептуальный анализ и моделирование. В [78] рассматривается метод трансформации онтологии в схемы различных типов баз данных - реляционных, объектных,

дедуктивных. Вариант интеграции множества реляционных баз данных в единое хранилище данных (data warehouse) с использованием онтологии предложен в [79]. Единая концептуальная схема, необходимая для интеграции, строится путем установления соответствий между онтологией и схемами баз данных.
Проектирование пользовательского интерфейса ИС. При наличии явно выраженной онтологии ИС можно использовать ее при проектировании экранных форм ИС. Пример такого подхода можно найти в [70].
Интеллектуальная интеграция информации. Интеллектуальная интеграция информации из различных информационных источников основана на использовании технологии посредников (mediator). Для каждого информационного источника существует свой посредник, который предоставляет информацию о схеме данных в виде онтологии и способен трансформировать поисковые запросы к нужному формату. Это позволяет осуществлять интеграцию информации не на этапе проектирования, а во время функционирования ИС. Информационные источники могут быть как структурированными (базы данных) [80], так и слабо структурированными (документы, Web-страницы и т.п.) [81]. Также возможно описание разнородных информационных источников в терминах одной онтологии, что упрощает процесс интеграции информации [15, 16].
Обмен информацией между программными агентами. В мультиа- гентной среде (http://www.fipa.org/) агенты могут быть использованы как носители информации в определенной предметной области. Один агент может находить других агентов, которые обладают нужной первому агенту информацией. Для этого каждый агент должен быть носителем информации двух типов - непосредственно информации из предметной области и информации о процессе обмена между агентами (так называемый «процесс объяснения»). В [82] рассматривается вари-
ант использования онтологии для описания обоих типов информации для агента.
Обмен информацией между ИС. Две и более информационные системы, обрабатывающие семантически похожую информацию и обменивающиеся ею, могут использовать онтологию для автоматизации этого процесса. В [83] описаны условия применения онтологии и эффект от ее использования для указанной цели.
Описание объектов ИС.
Документы, звук, видео и другие объекты ИС могут быть описаны с помощью элементов онтологии. Получившееся описание является семантическими метаданными объекта, которые могут быть использованы для реализации различных функций ИС. Составление семантических метаданных является одной из основных задач в Semantic Web, и в этом направлении ведется большое число исследований. Предложены различные способы полуавтоматического описания объектов с использованием онтологии при наличии у них текстового содержания. В [84] предложен подход к описанию, позволяющий с помощью онтологии формировать списки простых предложений, близких по смыслу к содержанию текста. Пользователь должен устранять лексические неточности, выбирая из списка наиболее подходящие варианты. В [85] лексическая неоднозначность уменьшается за счет использования статистики повторяемости слов в сети Интернет (через Web-сервис поисковой системы Google). Можно утверждать, что на практике большинство ИС, использующих семантические технологии, реализуют тот или иной подход к полуавтоматическому описанию семантики объектов ИС.
Переформулирование поисковых запросов. В поисковых системах, предоставляющих возможность поиска информации на основании набора слов, часто реализуется процедура переформулирования запроса. Цель этой процедуры - модификация исходного поискового запроса для улучшения показателей полноты (recall) и точности (precision) ре-
зультатов поиска с использованием поисковой системы. Использование онтологии в процессе переформулирования поискового запроса осуществляется путем модификации запроса на основании связей, существующих между понятиями в онтологии. Например, в [87] предложен метод расширения запроса (query expansion).
Семантический поиск. Этот вариант использования онтологии предполагает, что все объекты, поиск которых возможен в рамках ИС, имеют семантические метаданные. Тогда поисковый запрос тоже должен быть представлен в виде элементов онтологии, и поиск объектов осуществляется на основании понятий с учетом отношений между понятиями. В [15-18] используется подход к семантическому поиску на основании просмотра онтологии, В [86] рассматривается многоаспектный поиск, который является разновидностью поиска через просмотр онтологии. Такой подход аналогичен поиску по ключевым словам (ограниченный словарь), но его возможности шире за счет использования таксономии. Поиск через просмотр обычно дополняется поиском по шаблону, формируемому на основании описания понятий в онтологии [15, 16, 18]. Другой подход к формированию запросов и процессу поиска представлен в [63, 67, 68]. Здесь запрос представляет собой произвольный набор понятий онтологии, а для поиска релевантных объектов используется процедура оценки соответствия объекта запросу. Описание профилей пользователей ИС. Описание профилей пользователей с использованием элементов онтологии во многом схоже с описанием других объектов ИС. Существует ряд вариантов описания профиля пользователя. В [67] профиль пользователя описывает краткосрочные информационные предпочтения пользователя при работе с порталом. В [88] профиль пользователя ИС описывает области интересов пользователя. И эта информация затем используется И С для уточнения поисковых запросов и при выборе интересных для пользователя объектов (рекомендации к ознакомлению). В [89] профиль отражает

уровень знаний пользователя в определенной области знаний. На этой информация основывается процедура поиска экспертов по определенным вопросам и проблемам. Создание программных систем, использующих онтологию для поиска экспертов - ключевых источников неявных знаний - является одной из приоритетных задач в управлении знаниями [91].
Формирование списка объектов ИС, связанных с исходным объектом.
Сетевая структура онтологии может быть использована в ИС для навигации по объектам. Например, пользователь просматривает документ. У документа есть автор, который рассматривается как объект, связанный с документом. Для этого в онтологии должны существовать понятия «документ» и «автор» и они должны быть связаны некоторым отношением. В [86] данный вариант использования онтологии реализован применительно к области искусства.
Формирование списка объектов ИС, похожих на исходный объект. Если объекты в ИС описаны семантическими метаданными, то онтология может рассматриваться как пространство, в котором возможна оценка близости двух различных семантических метаданных. Такой подход используется в [67] для рекомендации пользователю некоторого Web-сервиса на основании сравнения описания пользователя с описаниями доступных Web-сервисов.
Семантическое связывание. Структура онтологии может быть использована для динамической генерации навигационного меню Web- приложений и дополнительных ссылок между страницами Web- приложений, что рассматривается в [17].
Подход к систематизации вариантов использования онтологии предложен в [74]. В соответствии с ним использование онтологии в ИС варьируется в зависимости от этапа жизненного цикла ИС, на котором применяется онтология, и от уровня ИС, на котором применяется онтология.
1. В основных этапах жизненного цикла ИС имеет место:

Использование онтологии на этапе проектирования ИС;
Использования онтологии в процессе функционирования ИС;
Использование онтологии в процессе развития ИС. 2. По уровням ИС имеет место:
Использование онтологии на уровне интерфейса пользователя;
Использование онтологии на уровне бизнес-логики;
Использование онтологии на уровне информационных ресурсов. В таблице 2.1 отражено соотношение выявленных вариантов использования онтологии с данной систематизацией.
Таблица 2.1. Систематизация выявленных вариантов использования онтологии

Систематизация выявленных вариантов использования онтологии

По этапам ЖЦ ИС По уровням ИС Проектирование Функционирование Разинтие Интерфейс • Проектирование пользовательского интерфейса ИС • Семантическое связывание Бизнес-логик» • Проектирование компонентов ИС • Обмен информацией между программными агентами
Обмен информацией между ИС
Переформулирование поисковых запросов
Семантический поиск
Формирование списка объектов ИС, связанных с исходным объектом
Формирование списка объектов ИС, похожих па исходный объект • Реинжиниринг компонентов ИС Информационные ресурсы • Проектирование схемы базы данных • Интеллектуальная интеграция информации
Описание объектов ИС
Описание профилей пользователей ИС Анализ показал, что понимание роли семантических технологий в ИС у большинства специалистов совпадает. Это совершенствование функций ИС по структуризации и предоставлению информации пользователям. Большинство вариантов использование онтологии нацелено на решение этих задач. Однако выбираемые исследователями подходы и методы варьируются.

Предлагаемые в данном диссертационном исследовании методы по работе с семантикой объектов объединены в семантическое ядро портала [21].
Определение 2.1. Семантическое ядро портала - это компонент или набор компонентов, которые реализуют функции, используемые порталом и позволяющие ему учитывать семантику обрабатываемой информации.
предыдущий следующий
= К содержанию =


2.1. Анализ вариантов использования онтологии - релевантная информация:

  1. 1.2. ОСНОВНЫЕ ПОДХОДЫ К ПОНИМАНИЮ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ
    анализ понятия «виртуальная реальность», проведенный И.Г.Корсунцевым, показывает, что все наши когнитивные репрезентации и модели есть виртуальная реальность или виртуальный мир, или, другими словами, мир не природный и не предметный. Это перекликается с пониманием репрезентации в широком смысле, используемым М.Вартофским, где репрезентация рассматривается как «систематизированное построение
  2. 3.2.1. Виртуальная реальность погружения (иммерсивная виртуальная реальность)
    анализе игры мы отмечали это свойство как повторяемость. Такая элиминация ценности жизни становится опасна при переносе ее в ординарную реальность. Народная мудрость отразила это, например, в таком анекдоте: «Папа-программист с сыном-геймером едут по мокрой горной дороге. Сын: «Папа, а сколько жизней на одну поездку?» Уже проводятся эксперименты по передаче вкусовых и обонятельных ощущений, но
  3. 3.2.2. Виртуальная реальность компьютерных сетей
    анализа. Наконец, третье направление связано с исследованиями Интернета как специфического сообщества людей - со своими ценностями, смысловыми интенциями, культурными парадигмами, историей развития. 106 Любое из этих направлений является темой для глубокого исследования, поэтому мы ограничимся лишь обозначением основных особенностей этого вида виртуальной реальности. Мы считаем нужным выделить
  4. ВВЕДЕНИЕ
    анализа выполненных исследований необходимо отметить их недостаточность в области использования семантических технологий для описания семантики контента объектов Web-порталов. В соответствии с [19] объект может быть рассмотрен в трех разных аспектах — структура, контекст и контент. В большинстве исследований семантические технологии применяются для описания контекста объекта, в то время как в
  5. 2.2. Место и функции семантического ядра портала
    анализированы и обобщены. Поэтому эти исследования являются актуальными и необходимыми. Разработанное в данном диссертационном исследовании семантическое ядро портала (СЯП) можно отнести к уровню инфраструктуры семантического портала, потому что реализуемые в нем методы использования семантических технологий могут быть задействованы различными функциональными модулями портала для учета семантики
  6. 2.4.1. Структура семантических метаданных
    анализа Шенка [103]. Но у семантических метаданных другая функция. Они описывают семантику объекта с точки зрения контента, основываясь на онтологии. Следовательно, семантические метаданные не могут описать контент объекта точнее, чем это позволяет онтология. Чем точнее описана предметная область в онтологии, тем точнее можно описать контент объектов портала. Далее приводится определение 2.3 для
  7. 4.2.2. Тестирование функции семантического поиска
    вариант. В связи с этим возникает необходимость дальнейшей доработки алгоритмов семантического поиска и связанных с ним методов вычисления близости семантических метаданных. Эти задачи выходят за рамки данной работы, но являются актуальными на перспективу. Результаты работы тестеров также использовались для определения значений коэффициентов, необходимых при сравнении элементов онтологии во
  8. ЗАКЛЮЧЕНИЕ
    анализ существующих подходов к разработке семантических порталов. Выявлена доминирующая роль онтологического подхода к созданию семантических порталов. Показано, что с помощью онтологий может решаться широкий круг задач повышения качества работы информационных систем. Проведен анализ и обобщение возможных вариантов использования онтологий в информационных системах. Для реализации информационных
  9. 5.Оценка эффективности Web-страницы
    анализ с помощью статистики сервера. Для этого можно использовать следующие показатели: количество обращений к Web-странице;суточная статистика частоты посещений Web-страницы;количество отдельных людей, посетивших Web-страницу;время, проведенное на Web-странице;какие страницы, использовались для входа и выхода посетителей. В) Качественный анализ с помощью: опроса потенциальных потребителей с
  10. структура для анализа позиционирования
    анализа позиционирования Web-страницы фирмы может быть представлена на рис. 16. После того, как фирма определит позицию своей Web-страницы, она может приступить к разработке и реализации ее концепции. Грамотное представление информации при разработке и реализации концепции Web-страницы, с нашей точки зрения, является основой для успешного и длительного жизненного цикла Web-страницы, поэтому