Искусство в IT-технологиях...

Козлов Дмитрий Олегович. РАЗРАБОТКА МЕТОДОВ АДАПТАЦИИ ПРЕДПРИЯТИЙ В УСЛОВИЯХ ДИНАМИЧНО ИЗМЕНЯЮЩЕЙСЯ ВНЕШНЕЙ СРЕДЫ ЗА СЧЕТ ИСПОЛЬЗОВАНИЯ ИНТЕРНЕТ-ТЕХНОЛОГИЙ, 2003

3.2. Организация на предприятии прямого поиска в Интернете



Обычно пользователь Интернет, попробовав несколько поисковых машин, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. Однако, как будет показано в дальнейшем, использование одной машины не гарантирует полноты охвата информации в Сети.
Приведем несколько ссылок на страницы, содержащие крупнейшие в Сети перечни поисковых систем:
http://dir.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/ Searching_the_Web/Search_Engines
http://dmoz.org/Computers/Internet/WWW/Search_Engines
http ://www.webtaxi .com

В таблицах 10,11 приведены сравнительные показатели глобальных поисковых машин общего назначения, связанные как с фазой индексирования, так и с фазой обработки запросов.

Сетевые адреса поисковых машин строятся на базе их имен по шаблону www.hmh.coih, двусложные имена пишутся слитно.
Таблица 10

В таблицах 10,11 приведены сравнительные показатели глобальных поисковых машин общего назначения, связанные как с фазой индексирования, так и с фазой обработки запросов.



Особенности поисковых языков


Особенности поисковых языков


Большой объем индекса, безусловно, выглядит как разумный аргумент при выборе поисковой системы.
Однако он далеко не единственный. Любые начальные сведения о характере информации, служащей предметом поиска, делают задачу выбора более тонкой. Например, если пользователя интересуют сведения, которые могли поступить в Сеть только за последнюю неделю, то следует предпочесть поисковые машины с высокой скоростью индексирования и минимальным временем регистрации, через которое документ по представлению автора появляется в индексе.
Для ускорения сканирования узла робот поисковой машины может ограничивать глубину его индексирования. WebCrawler, например, вообще сканирует только домашнюю страницу сайта. В результате даже такой крупный индекс как Excite может оказаться непригодным для поиска данных, которые в типичных случаях принято размещать в глубине узла.
Из трех крупнейших конкурирующих индексов AltaVista, Northern Light и HotBot у последнего есть серьезные проблемы со сканированием узлов, содержащих фреймы. Отсюда следует, что при масштабном сборе информации из Сети HotBot во избежание потерь можно использовать только как систему, дополнительную к двум первым.
Нередко разработчики коммерческих узлов закрывают паролем доступ к материалам сайта. Заинтересованные тем не менее в рекламе, они часто прибегают к возможности открыть доступ к их ресурсам роботам поисковых систем. Из таблицы видно, что только два индекса корректно работают с закрытыми узлами. Таким образом, при поиске информации, которая потенциально является продаваемой, их применение обязательно.
Роботы поисковых систем, сканирующие Сеть, могут увязывать частоту своих повторных посещений уже зарегистрированного узла со скоростью обновления его материалов (AltaVista, InfoSeek). Эта черта полезна при поиске сведений, которым присуще частое обновление, например, новостей.
В нижнем блоке таблицы выделены возможности поисковых языков отдельных систем, которые также допускают специфичное применение.
Так, ключевые слова, входящие в доменное имя узла, сегодня широко используются при поиске всевозможных компаний. Если есть начальные сведения о терминах, которые могут быть включены в названия каталогов или файлов - носителей релевантной информации, то следует использовать машины, поддерживающие поиск по URL.
Такая незначительная деталь, как учет регистра при построении запроса в определенных ситуациях становится крайне полезной. Например, при сборе сведений о Турции (Turkey) системы, которые фиксируют при индексировании регистр каждой буквы слова, позволяют легко избавиться от документов с термином turkey (индюк).
Поиск по заголовку страницы (элемент title) достаточно эффективно применяется, когда разыскиваются организации, особенно с двусложным длинным названием. Односложное название обычно входит в имя домена или в URL как есть, а многосложное формирует аббревиатуру. По домену или URL их легче всего и оказывается локализовать. Название же компании из двух слов, например, American Cybernetics, не позволяет точно угадать имя сервера (ни www.americancybernetics.com, ни www.ac.com не являются верными). Поэтому в синтаксисе AltaVista запрос title:"American Cybernetics" является наиболее эффективным. Ясно, что лидеры некоторых опросов - поисковые службы Excite или WebCrawler выглядят здесь несостоятельными.
Следует отметить, что большинство крупных компаний регистрируют в сети сайты с практически всеми возможными написаниями своего названия и
устанавливают на них редиректоры на свой основной сайт, поэтому если необходимо найти сайт компании «Кока-кола», не нужно пользоваться поисковой системой, можно просто набрать www.cocacola.com, даже если в написании имени сайта будет неточность, пользователя скорее всего переадресуют на сайт компании.
Следует помнить, что одноименные операторы в разных поисковых системах могут иметь неодинаковые свойства. Оператор близости NEAR иллюстрирует этот факт. На запрос типа "термин_1 NEAR термин_2" откликнутся документы, заиндексированные роботами AltaVista, Lycos или WebCrawler, если заданные термины присутствуют в документах в пределах определенной близости друг к другу, неодинаковой для разных систем (см. таблицу). Разницу в интерпретации оператора NEAR можно тонко использовать при поиске.
Еще одно замечание необходимо сделать о возможности "теневой" профилизации глобальных поисковых машин. Чисто технические особенности работы сервиса могут спровоцировать увеличение доли одной тематики информации перед другой. В результате равные по объему индексы могут давать неодинаковый отклик по отдельным запросам, что следует учитывать при планировании поиска. Существует ли такой крен в каждом конкретном случае выясняется с помощью тестовых запросов.
Нужно отметить, что обычно поисковые сервера разделяют интерфейс для ввода запросов на "простой" и "расширенный" (advanced, power). Все необходимые для профессиональной работы с системой возможности скрыты в "расширенном" интерфейсе, и именно с него стоит начинать знакомство с любой новой для себя поисковой машиной.
В настоящее время что борьба за глобальное лидерство разворачивается между тремя наиболее крупными поисковыми системами AltaVista, HotBot и Northern Light. Если в 1997 году трудно было себе представить, что первенство AltaVista кто-то сможет оспорить. Казалось бы, что с течением времени соперничать с гигантом становится все труднее. Однако в 1998 году к лидеру заметно приблизился HotBot, а 2000 год отмечен скандальными заявлениями разработчиков Northern Light о том, что индекс этой системы является самым
крупным в Сети. Скачок индекса Northern Light от 67 млн. документов по данным прошлого года до нынешних 140 млн. говорит о том, что вся борьба еще впереди. Разница в объеме индексов этой тройки при достаточно большом количестве нюансов его определения не настолько значительна, чтобы быть принципиальной. Более важно то, что соперничество систем способствует развитию индивидуальности каждой из них.
AltaVista отличается, пожалуй, самым изысканным и гибким языком запросов, требующим однако специального изучения. Но он того стоит. Например, так может выглядеть запрос на получение документов, содержащих слова «двигатель торговли»: text:(двигaтeль near торговля) and not text:(элeктpoдвигaтeль or (постоянный near ток)).
Такой запрос тут же отсекает нерелевантную информацию об электродвигателях.
Другая черта AltaVista - это многоязыковая поддержка индекса и возможность перевода в режиме on-line текста Web-страницы с распространенных европейских языков на английский.
HotBot отличает от AltaVista шаблонный и поэтому более простой подход к построению запроса, а также богатый набор фильтров для поиска специфических объектов, таких как ActiveX, VRML, VB Script и других.
Northern Light в этом отношении имеет достаточно стандартный набор функций. Система пытается заработать очки на сопровождении уникальной коллекции ссылок (более 5 тысяч записей) в основном на статьи из периодических изданий. Поддержка индексом кириллицы делает его вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Яндекс и Апорт при русскоязычном поиске.
Сегодня при решении поисковых задач возрастает роль чувствительности поисковых систем к закрытым форматам хранения данных. Речь идет о тех форматах, внутренняя структура которых закрыта от проникновения сканирующих программ. Файлы мультимедиа, заархивированные данные и PDF-файлы могут оказаться не менее полезными, чем гипертекстовые данные. Если цель поиска с самого начала связана с одним из таких форматов, то целесообразно использовать глобальные системы с поддержкой соответствующих фильтров (например, Lycos) или специализированные системы.

Рис. 9. Изменение числа заиндексированных на май 2001 года документов (правый столбец) в процентах от их общего количества в Паутине по отношению к апрелю 2000 года (левый столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot, 4- Excite, 5- Lycos, 6- Infoseek, 7- WebCrawler. Источник: Science magazine и Forrester Research.


Рис. 9. Изменение числа заиндексированных на май 2001 года документов (правый столбец) в процентах от их общего количества в Паутине по отношению к апрелю 2000 года (левый столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot, 4- Excite, 5- Lycos, 6- Infoseek, 7- WebCrawler. Источник: Science magazine и Forrester Research.

Несмотря на постоянный рост индексов поисковых систем, увеличение общего числа документов в WWW в целом ухудшает картину доступности информации. Из гистограммы на Рис. 9 следует, что доля документов, захваченная отдельным индексом, не превышает 30%. Отсюда ясно, что только применение совокупности поисковых машин способно дать полноценную информационную картину для поисковых задач.
При проведении лексического анализа информации, подлежащей поиску, следует учесть, что Интернет является не только носителем технологий и информации, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличаться от общепринятых. Не всегда можно догадаться, что название операционной системы OS/2 допускает несколько написания - "OS/2", "OS2", и даже «полуось».
Даже вместо термина «Интернет» может применяться другой термин - «Сеть». Такие особенности нельзя не учитывать, например, если нужно найти информацию о поиске информации в Интернет, задав слово «Интернет» как обязательное, можно потерять десятки тысяч полезных документов.

Прецедент существования в Сети необходимых данных лучше всего найти в известном каталоге, поддерживающем поиск по ключевым словам. В целом при решении простых, "любительских" задач уровня "погода в Сочи" или "карта метро Рима" каталоги могут оказаться более быстрым источником получения информации, чем поисковые машины.
После лексического анализа информации наступает технологический этап. Выбор информационного поля Сети и поисковых инструментов производится на основе подходов, изложенных нами ранее.
В настоящее время заметно возрастает роль региональных и специализированных поисковых сервисов. Использование глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет в сжатые сроки форсировать поисковую кампанию.
Можно предложить ряд советов, позволяющих экономить время поиска, используя проводную низкоскоростную связь с Интернет или непроизводительный компьютер - именно такие условия в настоящее время у большинства российских пользователей.
Время можно сэкономить, ограничив область поиска конкретной категорией.
Вместо обычного щелчка на полученных по ссылкам страницах можно щелкнуть на ссылке правой клавишей мыши и выбрать пункт меню «Открыть в новом окне».
При поиске имени собственного нужно использовать режим поиска "точно по фразе" и кавычки, если это возможно. Если в результате было обнаружено слишком мало страниц, можно переключиться из режима поиска "точно по фразе" в режим поиска по всем словам, из него - в режим поиска по одному из слов или использовать меньше ключевых слов. Если же в результате поиска было обнаружено слишком много страниц, нужно переключитесь из режима поиска по одному из слов в режим поиска по всем словам.
Кроме того нужно следить за правописанием, поскольку допустив орфографическую ошибку в слове для запроса поисковой машины, можно потратить довольно много времени и получить нулевой результат.

Следует отметить, что как каждый человек выбирает для себя удобный маршрут поездки из дома на работу из множества вариантов, так и пользователи выбирают один или несколько способов поиска информации и редко его меняют. Приведенные в настоящей главе рекомендации по поиску информации с использованием поисковых машин и каталогов позволяют повысить полноту найденной информации, ее релевантность, осуществить выбор поисковой системы в зависимости от характера поиска и сократить его время.
предыдущий следующий
= К содержанию =


3.2. Организация на предприятии прямого поиска в Интернете - релевантная информация:

  1. БИБЛИОГРАФИЧЕСКИЙ СПИСОК ЛИТЕРАТУРЫ
    организации WEB-сайтов кредитных организаций".Указ Президента РФ"О защите потребителей от недобросовестной рекламы", № Ц83 от 10.06.95.Монографии, учебные пособия, справочники, энциклопедии.Азоев Г.Л. Конкуренция: анализ, стратегия, практика. - М.: Интерэкс, 1996.-243 с.Амблер Т. Практический маркетинг. - СПб.: Питер, 1999. - 400 с.Аникеев С.Н. Методика разработки плана маркетинга. - М.: ACT,
  2. 3.2.2. Виртуальная реальность компьютерных сетей
    организаций не может быть поддерживаема в региональных и мировом масштабах. Итак, сеть Интернет принципиально неиерархична и децентрализована. Элементы любой системы имеют некую функциональную специализацию, что делает их взаимозависимыми. Именно поэтому система сохраняет целостность и утраченные части системы имеют свойство воспроизводиться. Утраченные части Сети могут не быть воспроизведены, но
  3. Специальным принципом права телекоммуникаций является принцип приоритета сообщений,
    организаций, не имеющих обязательной юридической силы, но отражающих усилия международного сообщества по поиску приемлемых средств регулирования новых коммуникационных технологий, содержатся ссылки на специальные принципы регламентации связи и передачи информации.67 6* В пункте 1 ст. II указанной Декларации установлено, что «при вещании через спутники должны уважаться суверенитет и равенезио всех
  4. Основные выводы.
    организации полосы, и о стремлении глубже осветить событие и разобраться в проблеме, с другой. Сейчас очевидно, что обе версии (печатная и электронная) живут в симбиозе, они составляют две практически равнозначные части одного живого организма, который не стоит на месте, но постоянно развивается и совершенствуется, адаптируясь к происходящим в медийной сфере изменениям. Утверждая, что газета и
  5. СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ:
    организаций/ А.И. Полнщук - М.: Юристь, 2002. - 478 с. 73. Положение ЦБРФ О безналичных расчётах в Российской Федерации от 03.09.2002 № 2-П, Электронная Россия №65. 74. Померанцева, Н. Банки рявноудаляются or клиентов/ Н. Померанцева//Коммерсант. 2004. 29 апреля. 75. Попов, В. Практикум по Интернет - технологиям: учебное пособие/' В. Попов. - СПб.: Питер, 2002.- 480с. 76. Райзберг, Б.А.
  6. Оценка влияния ИКТ на экономический рост
    организации и структуре бизнеса меняются с внедрением новых технологий, точно также как и процессы принятия решений. Чтобы понять, почему это происходит, необходимо оценить влияние новых технологий на микроэкономическом уровне. Новые товары и услуги показывают новое распределение стоимости между производителями, новое распределение затрат между клиентами и поставщиками. Имеется в виду, что
  7. 3.1 Моделирование бизнес процессов торговых операций
    организациям создавать новые дополнительные услуги, оптимально планировать действия компании на длительный срок и достигать высоких производственных и экономических показателей. Хотя основное внимание в оценках эффективности электронной коммерции сфокусировано на цифровых электронных магазинах (некомбинированный вид деятельности или «чистый» электронный магазин), наиболее сложные процессы и
  8. 3.2 Формирование управляемых параметров торговых операций в Интернет-среде
    организационных процедур, связанных с инициативами в электронной коммерции, благодаря тому, что они могут играть главенствующую роль в достижении максимальной эффективности внутренних операций, а, следовательно, в снижении внутрифирменных трансакционных издержек. Приложения интранет должны быть прежде всего ориентированы на поддержание внутрифирменного взаимодействия, управление человеческими
  9. Объем выборки можно определить на основании статистических методов.
    организации пользуются традиционными банковскими услугами, поэтому в данном направлении будем изучать только спектр услуг посредством дистанционного банковского обслуживания. В ходе исследования мы получили данные, что 40 (49%) используют банковские услуги посредством Интернет, а 42 (51%) нет. В данном случае важным являлось не только определение доли предприятий, использующих дистанционное
  10. 2.5. Характеристика Web - сайта коммерческого банка как нового вида обслуживания в системе Интернет - банкинга
    организации области стремятся к интенсивному развитию электронных технологий, обеспечивающих создание банковского продукта, а также определяющих средства эффективной организации деятельности банка, то есть сокращения издержек, времени операций, увеличения прибыли при минимизации рисков [106, С,5]. Это, на наш взгляд, обосновывает актуальность темы и подчеркивает важность банковских технологий,