Искусство в IT-технологиях...

Васильев Иван Анатольевич. Методы и инструментальные средства построения семантических WEB-порталов, 2006

ВВЕДЕНИЕ



Совершенствование существующих и разработка новых подходов к сбору, хранению, обработке и распространению информации является неотъемлемой частью процесса развития информационных технологий и информационных систем (ИС).
Необходимость такого совершенствования во многом обусловлена непрерывным ростом количества электронных документов и их доступности, что па ряду со слабой структурированностью информационных фондов осложняет управление информацией и работу пользователей с ней. Существующие подходы к работе с информацией становятся не достаточно эффективными.
Для решения проблемы совершенствования доступа к растущему объему информации и информационным услугам, предоставляемым многочисленными источниками информации, специалистами была предложена концепция Web-порталов. Web-портал является программной системой, которая призвана обеспечить унифицированный доступ к информации, хранящейся во множестве разнородных информационных источников. Web-портал структурирует информацию и предоставляет средства для ее поиска.
Различные виды Web-порталов разрабатываются и внедряются в России и за рубежом. Перспективность данного подхода к интеграции и структуризации информации отмечается аналитиками и подтверждается пользователями. Огромное число пользователей сети Интернет обращаются к услугам различных поисковых Web-порталов, таких как «Yahoo!» (http://www.yahoo.com) или «Яндекс» (http://www.yandex.ru), а современные компании, такие как концерн Volkswagen, корейская вещательная корпорацию КЮВАСО или немецкая фармацевтическая корпорация Schering AG, внедряют [1] корпоративные Web-порталы, предлагаемые ведущими разработчиками данного класса программных продуктов.
Применение Web-порталов для интеграции источников информации и структуризации ее растущего объема поставило вопрос о повышении качест-
ва обработки информации в Web-порталах. Наиболее существенно проблема роста объема информации сказывается на качестве поиска в Web-порталах. Примером, демонстрирующим необходимость перехода на новый качественный уровень, является функционирование поисковых Web-порталов в сети Интернет. Обычно они предоставляют услуги двух типов: поиск по рубрикатору и полнотекстовый поиск. Если необходимая пользователю информация сосредоточена в какой-либо рубрике, то ему лучше воспользоваться возможностью просмотра этой рубрики, так как точность категоризации информации в рубрикаторе находится на очень высоком уровне. Это объясняется тем, что наполнение рубрикатора осуществляется вручную или полуавтоматически с участием модераторов Web-портала, которые учитывают смысл структурируемой информации. В свою очередь точность и полнота результатов полнотекстового поиска существенно ниже, чем у поиска по рубрикатору, так как информация обрабатывается без учета семантики информации. С ростом объема обрабатываемой информации возможность наполнения рубрикатора снижается — модераторы Web-портала не справляются с объемом информации. Если же пользователь обращается к полнотекстовому поиску, то проблема обработки большого объема информации возлагается на него самого - на поисковый запрос Web-портал выдает огромное количество результатов, среди которых пользователь должен дополнительно искать необходимую информацию. В настоящее время в Web-порталах информация обрабатывается на синтаксическом уровне, то есть без учета таких свойств естественного языка как синонимия, полисемия и омонимия. Это приводит к снижению качества обработки информации и в том числе к неудовлетворительным результатам поиска [2].
Для перехода на новый качественный уровень при обработке информации необходимо вести обработку на семантическом уровне, то есть учитывать ее смысл.
За последние несколько лет активное развитие получило направление в информационных технологиях, занимающееся проблемами учета семантики
в рамках информационных систем. Это направление исследует семантические технологии, позволяющие создавать новый класс ИС. Созданные на основе семантических технологий ИС отличаются от традиционных тем, что:
ИС при обработке информации в некоторой фиксированной предметной области использует знания из этой предметной области;
знания предметной области выражаются явно — в виде модели (частично или полностью);
модель выражает смысл терминов (понятий) предметной области через связи между ними;
модель отражает различные точки зрения на предметную область. Рассматриваемые в данном диссертационном исследовании Web-
порталы являются многопользовательскими ИС, которые предоставляют унифицированный доступ к различным информационным источникам и программным приложениям. Web-порталы, как правило, обрабатывают большой объем информации. С учетом этого применение в рамках Web-портала новых подходов и методов к обработке информации имеет высокую практическую значимость, а исследование подходов и разработка методов построения Web- портала на основе семантических технологий являются актуальными.
В настоящее время исследования в области развития и внедрения семантических и портальных технологий ведутся как в России, так и за рубежом. Тем не менее, необходимо, констатировать значительный разрыв по количеству исследований в этой области между отечественным и зарубежным научным сообществом.
В качестве основополагающих исследований отечественных авторов нужно выделить [2-6]. Ряд работ по использованию семантических технологий поддерживается Российским Фондом Фундаментальных Исследований также, в том числе «Исследование принципов семантического поиска текстовой информации на основе использования интеллектуальных и статистических методов» (03-01-00572, Харин Н. П., МАДИ, Москва), «Инструментальные программные средства семантического поиска текстовой информации,
использующие интеллектуальные и статистические методы» (04-07-90328, Михайловский О. В., РосНИИИТ и АП, Москва); осуществляется также поддержка проектов в области разработки порталов, например, «Технология разработки специализированных Интернет-порталов знаний по гуманитарным наукам» (04-01-00884, Загорулько Ю. А., ИСИ СО РАН, Новосибирск). К сожалению, результаты выполненных проектов недостаточно публикуются и с ними трудно ознакомиться в сети Интернет.
Более многочисленными и доступными в сети Интернет являются результаты исследований и внедрений семантических технологий в структуру Web-порталов, выполненных зарубежными учеными [7-18]. Среди них можно выделить такие крупные проекты как «OntoWeb: Ontology-based information exchange for knowledge management and electronic commerce» [16] или «ODESeW: Automatic generation of knowledge portals for intranets and extra- nets» [18].
В результате анализа выполненных исследований необходимо отметить их недостаточность в области использования семантических технологий для описания семантики контента объектов Web-порталов. В соответствии с [19] объект может быть рассмотрен в трех разных аспектах — структура, контекст и контент. В большинстве исследований семантические технологии применяются для описания контекста объекта, в то время как в Web- порталах значительный интерес представляет описание семантики объектов с точки зрения контента.
В рамках данного исследования анализируется отечественный и зарубежный опыт создания семантических Web-порталов и предлагается новый подход к использованию семантических технологий в Web-порталах.
Целью диссертационного исследования является разработка .методов использования семантических технологий в Web-порталах для реализации информационных процессов в них с учетом семантики контента объектов.

Для достижения поставленной цели исследования необходимо решить следующие задачи:
разработать архитектуру семантического ядра Web-портала;
разработать методы семантического описания контента объектов Web- портала;
разработать методы использования описаний объектов Web-портала для реализации его функций на семантическом уровне.
Объектом исследования являются технологии построения Web- порталов.
Предметом исследования являются подходы и методы использования семантических технологий в Web-порталах для реализации информационных процессов на семантическом уровне.
Методы исследования.
В ходе диссертационного исследования были использованы модели и методы теории множеств, профессионально- логический анализ и обобщение, метод экспертных оценок, методы объектно-ориентированного проектирования и программирования.
Научная новизна результатов исследования заключается в следующем:
разработан метод семантического описания объектов Web-портала с точки зрения контента, использующий предложенную автором структуру семантических метаданных;
разработан метод вычисления семантической близости метаданных, основанный на известном методе определения сотипности;
разработаны методы поиска, категоризации и формирования рекомендации объектов Web-портала с учетом семантики их контента, основанные на методе вычисления близости семантических метаданных;
разработана архитектура семантического ядра Web-портала, реализующего функции описания семантики контента объектов, поиска, категоризации и предоставления рекомендаций.
Практическая значимость исследования заключается:

в программной реализации разработанного автором семантического ядра Web-портала;
в применении предложенных методов для разработки семантического Web-портала для современной 1Т-компании;
в возможности использования созданного семантического ядра Web- портала в системах управления знаниями [20].
На защиту выносятся:
метод семантического описания объектов Web-портала;
метод вычисления семантической близости метаданных;
методы поиска, категоризации и формирования рекомендации объектов Web-портала;
архитектура семантического ядра Web-портала.
Апробация. Основные научные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях:
Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2003»;
Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2004»;
Международная научно-практическая конференция «Современные средства и системы автоматизации 2004».
Предложенные подходы и методы были протестированы в процессе практической реализации Web-порталов. Результаты исследования использовались при разработке и реализации Web-портала для «Центра профессиональной подготовки специалистов нефтегазового дела» ТПУ и Web-портала системы управления знаниями компании «ЭлеСи».
Диссертационное исследование выполнялось в соответствии с проектом «Создание информационно-программной среды научно- образовательного комплекса Томска для работы со знаниями и объектами интеллектуальной собственности» (контракт № 2093 от 1.11.2002) в рамках Федеральной Целевой Программы «Интеграция науки и высшего образова-
ния России на 2002-2006 годы» и темой научно-исследовательской работы, проводимой по заданию Министерства образования Российской Федерации (регистрационный номер 1,38.99) «Исследование методов представления, структуризации и контекстного поиска явных и неявных знаний для построения систем управления знаниями».
Публикации. По теме диссертационного исследования опубликовано 9 печатных работ, в том числе одна в реферируемом издании [21]. Имеется свидетельство государственного координационного центра информационных технологий об отраслевой регистрации разработки «Web-портал для работы с явными и неявным знаниями организации» в Отраслевом фонде алгоритмов и программ (свидетельство №4608; авторы Тузовский А. Ф., Васильев И. А., Козлов С. В., Усов М. В.; дата выдачи 29.04.2005).
Личный вклад автора. Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно. В опубликованных работах лично автором обоснованы варианты использования семантических технологий в информационных системах в общем [22] и в частности в Web-порталах [20, 23, 24], пояснены разработанные методы описания семантики объектов Web-портала и вычисления их семантической близости [21, 25], описано разработанное семантическое ядро Web-портала [21] и приведены варианты применения разработанных методов и алгоритмов в работе Web-порталов [21, 26, 27, 28].
Структура и объем диссертации.
Диссертация состоит из введения, 4 глав, заключения, списка литературных источников из 117 наименований и 6 приложений. Содержит 56 рисунков и 36 таблиц.
В первой главе рассматривается понятие Web-портала и их классификация по различным критериям. На основании анализа описаний существующих Web-порталов определяются их отличительные особенности и предлагается обобщенная архитектура, включающая инфраструктуру и множество функциональных модулей. Для современных Web-порталов отмечается проблема увеличения объема обрабатываемой информации, снижающая каИ
чество информационных процессов. Обосновывается, что решение данной проблемы возможно путем использования семантических технологий. Анализируется текущее состояние развития семантических технологий и существующие проекты по их использованию в Web-порталах. На основании анализа отмечается доминирующая роль онтологических моделей для целей представления семантики информации и недостаточность исследований в области описания семантики объектов Web-портала с точки зрения контента.
Во второй главе анализируются и обобщаются существующие в литературе варианты использования онтологий в информационных системах, в общем. Предлагаются варианты использования онтологий для реализации информационных процессов в Web-портале с учетом семантики контента объектов. С целью создания семантического Web-портала предлагается структура семантического ядра портала, реализующего предложенные варианты использования онтологии и позволяющего обрабатывать информацию с учетом ее семантики. Семантическое ядро состоит из сервера онтологий и сервера семантических метаданных. Рассматривается структура и функции указанных серверов. Описывается разработанная структура семантических метаданных для представления семантики контента объектов Web-портала.
В третьей главе описываются разработанные автором методы использования онтологий, обеспечивающие реализацию информационных процессов в Web-портале с учетом семантики объектов. Обосновывается структура онтологий для обеспечения работы семантического ядра портала. Поясняется метод формирования семантических метаданных, позволяющий описывать семантику контента объектов. Приводится подробное описание разработанных методов вычисления семантической близости элементов онтологии и метаданных, позволяющих количественно оценить схожесть семантических описаний объектов Web-портала. Предлагаются варианты применения разработанных методов для реализации функций семантического поиска, категоризации и формирования рекомендаций.

В четвертой главе описывается программная реализация разработанного семантического ядра. Поясняются основные программные интерфейсы, классы и компоненты, включенные в реализацию сервера онтологий и сервера семантических метаданных. Излагается методика тестирования разработанных методов и полученные результаты тестирования. Описываются результаты внедрения разработанных методов, алгоритмов и соответствующего программного обеспечения при создании семантических Web-порталов различного уровня.
Автор выражает благодарность профессору Ямпольскому В. 3. за внимание к работе, замечания и методическую помощь во многом способствовавшие улучшению качества окончательного варианта рукописи. Автор признателен доценту Тузовскому А. Ф. за ценные консультации и всестороннюю поддержку данного исследования.
следующий
= К содержанию =


ВВЕДЕНИЕ - релевантная информация:

  1. БИБЛИОГРАФИЯ
    Амблер Т. Практический маркетинг. - СПб.: Питер, 2001. - 28 с. Багиев Г.Л. Организация предпринимательской деятельности: Учебное пособие. - СПб.: СПбГУЭФ, 2001. Беляевский И.К. Статистика рынка товаров и услуг. - М.: Финансы и статистика, 1997. Беспалова Г.В. Развитие управления предприятием на основе повышения эффективности рекламной деятельности: Дис. ... канд. экон. наук. -Н.Новгород., 2000.
  2. Структура работы
    введения, трех глав, заключения и библиографии.Во введении обоснована актуальность проблемы, определены цели и задачи исследования, рассмотрены объект и предмет исследования, научная новизна, практическая значимость результатов.В первой главе "Интернет-реклама как инструмент воздействия на рынок в системе предпринимательства" проанализировано место рекламной деятельности в системе
  3. ВВЕДЕНИЕ
    ВВЕДЕНИЕ
  4. Любое эффективное письмо должно содержать несколько обязательных элементов…
    введение;описание товара или услуги;четкое описание выгод, которые покупатель извлечет из сотрудничества с фирмой;рекомендательные письма, по крайней мере одна (лучше две-три) дополнительная выгода для большей убедительности;гарантия удовлетворения;бланк заказа;несколько способов оплаты вашего товара через Интернет. Заголовок и первый параграф решают успех рекламного обращения. Для того, чтобы
  5. Введение
    Введение
  6. Введение
    Введение
  7. Практическая значимость работы…
    введения, трех глав, заключения и списка использованной
  8. ВВЕДЕНИЕ
    ВВЕДЕНИЕ
  9. Структура и объем работы.
    введения, трех глав, обобщенных выводов исследования, списка использованной литературы из 115 наименований. Основная часть работы изложена на 160 страницах машинописного текста, содержит 18 рисунков, 25 таблиц и 3
  10. Основные способы повышения эффективности рекламных кампаний…
    Итак, мы можем сформулировать основные способы повышения эффективности рекламных кампаний с использованием баннеров:Улучшение образа баннера. Зачастую именно дизайн баннера оказывает решающее воздействие на посетителя. Однако дизайн трудно измерить общими мерками, это зависит от вкуса каждого посетителя, поэтому дизайн можно выделить как один из параметров таргетинга, правда пока еще трудно