Экономическая библиотека

Учебники по экономике

Выбор источников информации, средств и методов ее поиска в Интернете

  Как говорилось выше, Интернет является на сегодняшний день богатейшим источником различного рода данных. В этой связи одним из основных аспектов проведения вторичных маркетинговых исследований при помощи Интернета является выбор источников информации. Сотни миллионов сайтов, находящихся сегодня в Сети делают поставленную задачу достаточно сложной. Чтобы облегчить этот процесс, сделать его более эффективным и получить качественный результат при проведении поиска необходимо соблюдать ряд условий. Основными из них являются контроль полноты охвата ресурсов и достоверности найденной информации.
  Контроль достоверности информации может производиться разными способами, в которые входит нахождение и сверка с альтернативными источниками информации, установление частоты его использования другими источниками, выяснение статуса документа и сайта, на котором он находится, получение сведений о компетентности и положении автора материала и ряд других.
  Полнота охвата интернет-ресурсов определяет возможность нахождения той или иной информации в Сети. Зачастую проведение поиска требует задействования максимального объема возможных источников, в роли которых могут выступать web-сайты, базы данных, телеконференции, FTP-архивы и т. д.
  Web-сайты являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Сайт может содержать информацию, представленную в различной форме: графической, звуковой, видеоизображения и т. д. Владельцем сайта может быть как фирма, так и частное лицо. Однако независимо от этого, на сайте обычно размещается информация, относящаяся к какой-то конкретной области знаний или сфере деятельности. Это обстоятельство существенно уменьшает количество источников информации и облегчает поиск необходимых сведений.
  Базы данных могут содержать самую произвольную информацию: публикации, справочную информацию, другие данные. Наиболее широко распространен способ доступа к базам данных через стандартные браузеры. Наряду с непосредственным извлечением информации из баз данных широко используется динамическое построение web-страниц в процессе исполнения пользовательских запросов.
  Телеконференции могут являться источником необходимой информации, как правило, носящей неофициальный характер. Телеконференции представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации. Они позволяют добиться обратной связи с множеством лиц и произвести детальное обсуждение какой-либо проблемы с территориально разобщенными людьми.
  Файловые серверы - являются традиционным способом хранения данных и представляют собой компьютеры, часть дискового пространства которых доступна через Интернет. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов - FTP. Данный протокол в общем случае требует авторизации, то есть идентификации пользователя. Для осуществления доступа к файлам со стороны произвольного пользователя Сети обычно используется так называемый анонимный вход под регистрационным именем anonymous, для которого пароль не требуется. Этот протокол поддерживается всеми стандартными браузерами.
  Очевидно, что чем больше полнота охвата интернет-ресурсов, тем больше будет вероятность получения требуемой информации. Однако выбирая источники данных следует исходить, во-первых, из экономических соображений (слишком большое количество источников информации может привести к затягиванию сбора информации и удорожанию самого исследования), и, во-вторых, с позиций рациональности (иногда в различных интернет-ресурсах можно встретить одинаковые или схожие данные, что позволяет исключать некоторые ресурсы из списка источников информации без потери качества результата исследования).
  Немаловажным при сборе информации в Интернет является вопрос выбора средства поиска информации, среди которых выделяют следующие инструменты: поисковые машины являются ключевым инструментом поиска информации, поскольку содержат индексы большинства web-серверов Интернета. Однако именно это достоинство оборачивается их главным недостатком. На любой запрос они выдают обычно чрезмерно большое количество информации, среди которой только незначительная часть является полезной, после чего требуется значительный объем времени для ее извлечения и обработки. Вместе с тем, при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы; мета-средства поиска - позволяют ускорить выполнение запроса путем передачи ключевых слов, одновременно нескольким поисковым системам. При значительном ускорении процесса и увеличении охвата поиска, этот способ имеет ряд недостатков, связанных с необходимостью координации во времени поступления результатов обработки запроса от нескольких систем, а также тем, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств; специализированные средства поиска— представляют собой «программы- пауки», которые в автоматическом режиме просматривают web-страницы, отыскивая на них нужную информацию. Механизм их работы близок к механизму, который используют поисковые системы для построения своих индексных таблиц. Выбор между первыми и вторыми представляет собой классический выбор между применением универсальных или специализированных средств; каталоги - иерархически организованную структуру, в которую данные заносится по инициативе пользователей. Как следствие, объем информации в них несколько ограничен по сравнению с поисковыми системами, но в то же время более упорядочен благодаря лежащей в их основе иерархической тематической структуре.
  Часто можно встретить комбинирование названных инструментов. В частности, на главных web-страницах поисковых систем можно поместить запрос на поиск информации по ключевым словам или, воспользовавшись размещенным здесь же каталогом, перейти к странице с тематической информацией.
  Методы поиска информации
  Поиск информации в Интернете может быть произведен при помощи двух основных методов, которые, в зависимости от его целей и задач, могут быть использованы по отдельности или в комбинации друг с другом.
  Использование поисковых систем является одним из основных методов при проведении предварительного поиска (Yandex, Aport, Rambler, Altavista и др.). Его применение основано на ключевых словах, которые передаются системе в качестве аргумента поиска. Результатом является список ресурсов Интернета, подлежащих детальному рассмотрению. Сложность данного метода связана с тем, что проведение эффективного поиска требует одновременного решения двух противоположных задач: увеличении охвата с целью извлечения максимального количества значимой информации и уменьшении охвата с целью минимизации шумовой информации. Нетрудно увидеть, что одновременно осуществить и то, и другое довольно сложно, хотя найти оптимальное соотношение все-таки возможно. Получение наиболее релевантного результата требует проведения предварительной работы по составлению тезауруса - списка ключевых слов, организованного с учетом семантических отношений между ними.
  Составление и выполнение запросов к поисковым машинам - это наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. На основе тезауруса формируются запросы к выбранным поисковым серверам. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа.
  Запросы должны составляться так, чтобы область поиска была максимально конкретизирована и сужена, то есть предпочтение следует отдавать использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится их пробная реализация как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.
  Результат запроса, то есть выведенный системой список ссылок на найденные ресурсы, обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
  Другой, не менее распространенный метод поиска информации в Интернет, - поиск по гипертекстовым ссылкам. Поскольку все сайты Интернета связаны между собой гиперссылками, поиск информации может быть произведен путем последовательного просмотра связанных ссылками web-страниц с помощью браузера. К этому виду поиска также относится использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников. Такой метод наиболее трудоемок, однако «ручной» просмотр web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, требующего глубокого анализа. Он может быть также более эффективен при проведении повторных циклов или просмотре вновь образованных ресурсов.

 
© www.eclib.net