Содержание пункта источника
|
Козлов Дмитрий Олегович. РАЗРАБОТКА МЕТОДОВ АДАПТАЦИИ ПРЕДПРИЯТИЙ В УСЛОВИЯХ ДИНАМИЧНО ИЗМЕНЯЮЩЕЙСЯ ВНЕШНЕЙ СРЕДЫ ЗА СЧЕТ ИСПОЛЬЗОВАНИЯ ИНТЕРНЕТ-ТЕХНОЛОГИЙ, 2003 |
3.3. Методика автоматизированного поиска информации |
В настоящем разделе автор приводит описание разработанной методики автоматизированного поиска информации, релевантной с имеющимся текстом, на основе автоматического анализа текста с использованием законов Зипфа (Ципфа - G.K. Zipf). Законы Зипфа описывают любой текст, созданный человеком, в частности на основе частотного анализа вхождения слов в текст. Таким образом, проведя анализ текста, возможно выделить группу наиболее значимых слов, т.е. слов, при помощи которых возможно определить какую область затрагивает текст и которые в свою очередь отражают терминологию и основные понятия этой области. А. Попов [84] отмечает: «Джордж Зипф, профессор филологии в Гарварде, подсчитал, что самое популярное слово в английском языке (the) употребляется в 10 раз чаще, чем слово, стоящее на десятом месте, в 100 раз чаще, чем сотое, и в 1 ООО раз чаще, чем тысячное.» Он предположил, что человеческая лень ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона. Первый закон Зипфа "ранг - частота". Выберем любое слово в тексте и определим частоту вхождения этого слова. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты (R). Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними — 2 и т.д. Определим вероятность встретить в тексте слово, выбранное наугад. Вероятность (Р) будет равна отношению частоты вхождения этого слова (f) к числу слов в тексте (N).
(9) P=f/N Зипф обнаружил следующую закономерность: если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) окажется приблизительно постоянна.
(10) C = (f*R)/N
Таким образом зависимость частоты от ранга:
(П) /= (С *N)/R
График этой функции - равносторонняя гипербола. Следовательно, по первому закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популярности слова, с высокой долей вероятности, окажется на уровне 50. Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно. Так, для английских текстов константа Зипфа равна приблизительно 0,1. Для русского языка коэффициент Зипфа равен 0,06-0,07. Второй закон Зипфа "количество - частота" Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси X) частоту вхождения слова, а по другой (оси Y) - количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех созданных человеком текстов. Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой. Законы Зипфа могут применяться не только к текстам. В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет по некоторым оценкам тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта.
Если представить все тексты, найденные поисковой системой, как единую базу данных, к ней можно будет применить те же законы Зипфа, что и к единичному документу. Исследовав множество документов базы данных на предмет вхождения в них таких слов, как «это» и «Зипф», естественно обнаружится, что слово «это» встречается очень часто, в то время как «Зипф» - довольно редко. Напрашивается очевидный вывод: слово «Зипф» должно стать термином, в то время как «это» следует отбросить, как помеху. Чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, поисковые машины вводят инверсную частоту термина (i). Значение этого параметра тем меньше, чем чаще слово встречается в документах базы данных [58]. Одна из формул для его вычисления следующая: i = log(N/n), (12) где N - количество документов в базе данных, п - количество документов с термином i. Каждому термину поисковые системы присваивают весовой коэффициент, отражающий его значимость (j): j = f*i (13) где f - частота термина в документе. Наверняка в вышеизложенном примере слово «это» получит нулевой или близкий к нулю вес, поскольку оно попадается практически во всех текстах. Слово же «Зипф» - напротив, приобретет высокий вес. Таким образом, математический анализ позволяет машине с хорошей точностью, без участия человека распознать суть текста. Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. В качестве терминов могут выступать не только отдельные слова, но и словосочетания. Поисковые системы могут применять матричные и векторные системы отображения искомой информации. Точно определить механизм поиска информации для каждой системы невозможно: разработчики держат в строгом секрете свой алгоритм. Однако принцип ранжирования по весовым коэффициентам применяют все системы, этот общий принцип может быть использован для оптимизации составления запросов поисковой системе.
Воспользуемся первым законом Зипфа и построим график зависимости ранга от частоты для определения слов, отражающих смысл текста (Рис. №10).
Можно утверждать, что наиболее значимые слова лежат в средней части диаграммы. Согласно законам Зипфа чаще других в текстах встречаются слова, состоящие из меньшего количества букв. Эти слова в основном оказываются предлогами, союзами или местоимениями и не будут способствовать поиску релевантной информации. Редко встречающиеся слова также не могут иметь решающего смыслового значения для текста. Выбор диапазона рангов, слова из которого будут использованы для построения запроса поисковой системе, субъективен. При выборе широкого диапазона помимо нужных терминов в нем окажется много вспомогательных слов; в случае узкого диапазона можно потерять смысловые термины.
При ручной обработке текста следует ориентироваться на конкретный его смысл. Возможность выбора диапазон вручную не должна смущать, поскольку термины выбираются не из текста, а из построенного по определенному закону упорядоченного списка. При автоматической обработке текстов можно рекомендовать разбить площадь под кривой на три равные части. При этом для запроса необходимо выбрать не более 10-20 слов, в том случае, если это количество окажется существенно больше, необходимо уменьшить объем обрабатываемого текста. В определенную таким образом область непременно попадут и ненужные слова. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор. "Шум" можно уменьшить путем предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов - стоп-лист. Для русского текста в стоп-лист должны быть включены все предлоги, частицы, союзы, личные местоимения, имена собственные, числительные, названия месяцев, дней недели (если поиск не связан соответственно с именем собственным, числительным или названием месяца) и т.п. Также в стоп-лист могут включаться и другие слова с учетом особенностей конкретного поиска. Следует отметить, что поисковые системы обладают своими списками стоп-слов, это в основном слова короче 3 букв, предлоги, частицы, союзы и личные местоимения. При разработке стратегии автоматизированного поиска прежде всего следует оговорить исходные предпосылки. Для использования данной стратегии необходимо иметь текст-источник, документы схожего содержания с которым нужно найти в Сети. Поскольку задача поиска не могла возникнуть из ничего, непременно должна существовать информация, возбудившая интерес к проблеме. Это может быть журнальная статья, книга, веб-страница и т.п. Именно эту информацию и нужно упорядочить и привести в форму, удобную для анализа. Если задача существует только в мыслях, можно попробовать написать небольшое сочинение, изложив свое видение проблемы, - оно и станет текстом-источником. Поисковая машина, которая будет применяться с использованием данного метода, должна обладать свойством хорошего ранжирования результатов.
Поскольку для запроса используется большое количество слов с логикой ИЛИ, это сильно увеличивает количество возвращаемых поисковой машиной документов. Без ранжирования всякий поиск теряет смысл. Наилучшие результаты дает ранжирование по схеме: точное соответствие - все слова запроса - все слова, кроме последнего, - все слова, кроме двух последних, - ... - все слова, кроме п последних, ~ первое слово (плюс, разумеется, ранжирование по количеству терминов в тексте). Алгоритм может быть и более мощным, но даже при такой последовательности можно быть уверенным, что сколько бы документов найдено ни было, наиболее удачные окажутся впереди. Следует отметить, что данному требованию в той или иной мере удовлетворяют все популярные поисковые системы. |
|
|
|
|
= К содержанию =
|
|
|
|
|
3.3. Методика автоматизированного поиска информации - релевантная информация: |
- ПЕРЕЧЕНЬ СОКРАЩЕНИЙ, УСЛОВНЫХ ОБОЗНАЧЕНИЙ, СИМВОЛОВ, ЕДИНИЦ И ТЕРМИНОВ1
автоматизированных систем брать на себя отдельные функции интеллекта человека, т.е., например, выбирать и принимать оптимальные решения на основе ранее полученного опыта и рационального анализа внешних воздействий. Процесс отнесения объектов к одному из классов в соответствии с определенными признаками Выделение групп объектов с общими свойствами; задача расширения классификации: если входной
- СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ:
автоматизированных систем дистанционного банковского обслуживания «iBank2». 123. http://www.binbank.ru. Официальный сайт банка «Бинбанк». 124. http://www.bssvs.com. Официальный сайт компании - разработчик автоматизированных систем дистанционного банковского обслуживания «Банкс софт системе». 125. www.bspb.ru. Официальный сайт банка «Банк «Санкт-Петербург». 126. http://www.busincsspress.ru. Портал
- 3.1 Моделирование бизнес процессов торговых операций
методика решения которых будет рассмотрена ниже: проблема готовности поставщиков работать в режиме, предлагаемом средствами электронной коммерции: их обеспеченность совместимыми техническими и технологическими средствами, заинтересованность в переводе своих бизнес процессов в режим реального времени и т.д. проблема готовности покупателей совершать покупки в режиме реального времени: их
- ЗАКЛЮЧЕНИЕ
методики создания эффективного баннера при помощи комбинации различных способов повышения его отклика, использование которых позволяет компаниям создавать информативные, ориентированные на клиента, удобные в использовании сайты. Разработан комплекс авторских рекомендаций по адаптации и повышению конкурентоспособности предприятий за счет повышения доступности информации в Интернете, заключающийся
- По результатам поиска можно сделать следующие выводы:
методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Обзорный поиск незаменим, когда нужно найти как можно больше документов на заданную тему. Таким образом можно сделать вывод, что предложенная методика построения запросов поисковым системам Интернет позволяет существенно повысить возможности поиска на предприятиях и в несколько раз увеличить
- Целью диссертационной работы является совершенствование управления предприятиями на основе взаимодействия организаций в глобальной сети Интернет.
методику позиционирования предприятий в Интернете за счет создания эффективного баннера (способа Интернет-рекламы) при помощи комбинации различных способов повышения его отклика, выгодного расположения баннеров на страницах, оправданного выбора баннерной системы, отвечающей требованиям предприятия. Предложить рекомендации по минимизации времени поиска экономической и деловой информации в Интернет
- Научная новизна исследования заключается в развитии методов адаптации предприятий к быстрым изменениям внешней среды, обусловленным развитием Интернета.
автоматизированного поиска деловой информации. Его использование приведет к сокращению времени поиска информации персоналом предприятий. Методика определения эффективности рекламных кампаний в Интернете на основе разработанных аналитических выражений для расчета целесообразности покупки показов или нажатий на баннеры, а также расчета окупаемости рекламной кампании электронного магазина.
- 1.2. Интернет-компания как хозяйственное звено новой экономики
методики определения того, от какого вида деятельности получен доход. Например, если компания 17 производит программное обеспечение и продает его через Интернет-магазин, следует ли ее отнести к Интернет-компаниям? Или, если программное обеспечение компании предназначено для разработки Web-приложений, но продажи осуществляются традиционным оффлайновым способом? Отсутствие четкой методики
- Наиболее эффективным рекламным средством в проведенной кампании…
методика предназначена для оценки эффективности рекламных кампаний, задачей которых является увеличение посещаемости сайта с целью повышения осведомленности аудитории о продуктах, событиях предприятия или просто для массовости аудитории сайта, на котором продается реклама и т.д. Это могут быть дистрибью-торские компании, использующие сайты для стимулирования спроса и распространения информации о
- БИБЛИОГРАФИЧЕСКИЙ СПИСОК ЛИТЕРАТУРЫ
поиска информации в Интернет. - М.: Солон-Пресс,2003. - 340 с.Мачадо Р. Маркетинг для малых предприятий. -СПб.: Питер Паблишинг. 1998.-288с.Музыкант В.Л. Теория и практика современной рекламы. Часть. 1. Монография. -М.: Евразийский регион, 1998. - 400с.Наумов В.Б. Право и Интернет: очерки теории и практики. - М.: Книжный дом Университет, 2002. - 302 с.Нижегородцева Н. Использование Internet при
|
|
|