Поисковая система

Поисковая система — это программная система , которая предоставляет гиперссылки на веб-страницы и другую соответствующую информацию в Интернете пользователя в ответ на запрос . Пользователь вводит запрос в веб-браузере или мобильном приложении , и результаты поиска часто представляют собой список гиперссылок, сопровождаемых текстовыми описаниями и изображениями. Пользователи также имеют возможность ограничить поиск определенным типом результатов, например изображениями, видео или новостями.

Для поставщика поиска его механизм является частью распределенной вычислительной системы, которая может охватывать множество центров обработки данных по всему миру. Скорость и точность ответа системы на запрос основаны на сложной системе индексации , которая постоянно обновляется автоматическими веб-сканерами . Это может включать в себя анализ данных из и файлов баз данных, хранящихся на веб-серверах , но некоторый контент недоступен для сканеров.

С момента появления Интернета в 1990-х годах существовало множество поисковых систем, но Google Search стал доминирующим в 2000-х годах и остается таковым. В настоящее время его доля на мировом рынке составляет 91%. ^[1]^[2] Таким образом, бизнес веб-сайтов, улучшающий их видимость в результатах поиска , известный как маркетинг и оптимизация , в основном сосредоточен на Google.

История

Хронология ( полный список )
Год	Двигатель	Текущий статус
1993	W3Каталог	Неактивный
	АЛИВЕБ	Неактивный
	JumpStation	Неактивный
	WWW-червь	Неактивный
1994	Веб-краулер	Активный
	Go.com	Неактивно, перенаправляет на Disney
	Ликос	Активный
	Инфопоиск	Неактивно, перенаправляет на Disney
1995	Yahoo! Поиск	Активная, изначально функция поиска для Yahoo! Каталог
	Даум	Активный
	Search.ch	Активный
	Магеллан	Неактивный
	Возбуждать	Активный
	МетаКроулер	Активный
	АльтаВиста	Неактивен, приобретен Yahoo! в 2003 г., с 2013 г. перенаправляет на Yahoo!
1996	РейтингDex	Неактивен, включен в состав Baidu в 2000 году.
	Собачья куча	Активный
	ХотБот	Неактивно (используется Inktomi поисковая технология )
	Спросите Дживса	Активный (ребрендинг Ask.com)
1997	AOL NetFind	Активный (ребрендинг AOL Search с 1999 г.)
	goo.ne.jp	Активный
	Северное сияние	Неактивный
	Yandex	Активный
1998	Google	Активный
	Иквик	Активен как Startpage.com
	MSN-поиск	Активен как Bing
	эмпас	Неактивен (объединен с NATE)
1999	AlltheWeb	Неактивно (URL-адрес перенаправлен на Yahoo!)
	ДжиниНоус	Неактивен, переименован в Yellowee (перенаправлялся на justlocalbusiness.com)
	Навер	Активный
	Феома	Неактивно (перенаправление на Ask.com)
2000	Байду	Активный
	Эксалид	Неактивный
	Гигабласт	Неактивный
2001	Он может	Неактивный
2003	Info.com	Активный
2004	A9.com	Неактивный
	Класти	Неактивно (перенаправление на DuckDuckGo)
	Моджик	Активный
	Согоу	Активный
2005	ИскатьМе	Неактивный
2005	KidzПоиск	Активный, Поиск в Google
2006	Сосо	Неактивен, слился с Sogou
	я спрашиваю	Неактивный
	Search.com	Активный
	ЧаЧа	Неактивный
	Ask.com	Активный
	Живой поиск	Активен как Bing, переименован в MSN Search
2007	википоиск	Неактивный
	Спроуз	Неактивный
	Викия Поиск	Неактивный
	Blackle.com	Активный, Поиск в Google
2008	Powerset	Неактивно (перенаправляется на Bing)
	Пиколлатор	Неактивный
	Просмотрзи	Неактивный
	Бугамия	Неактивный
	ПрыжокРыба	Неактивный
	Форестл	Неактивно (перенаправляется на Ecosia)
	УткаDuckGo	Активный
	TinEye	Активный
2009	Бинг	Активный, переименованный Live Search
	Yebol	Неактивный
	Разведчик (Бычок)	Активный
	НЕЙТ	Активный
	Экозия	Активный
	Startpage.com	Активный, родственный движок Ixquick
2010	Блекко	Неактивен, продан IBM
	Куил	Неактивный
	Яндекс (Английский)	Активный
	напиток парси	Активный
2011	ЯСи	Активный, P2P
2012	Волуния	Неактивный
2013	Квант	Активный
2014	Эгерин	Активный, Курдский / Сорани
	швейцарские коровы	Активный
	Сиркс	Активный
2015	Юз	Неактивный
2015	Кликз	Неактивный
2016	Киддл	Активный, Поиск в Google
2017	Поиск	Активный
2018	Вперед, продолжать	Активный
2020	Лепесток	Активный
2021	Смелый поиск	Активный
	Куэй	Активный
	You.com	Активный

До 1990-х годов

В 1945 году Ванневар Буш описал систему поиска информации, которая позволила бы пользователю получить доступ к огромному объему информации с одного стола. ^[3] Он назвал это мемексом . Он описал систему в статье под названием « Как мы можем думать », опубликованной в The Atlantic Monthly . ^[4] Мемекс был предназначен для того, чтобы дать пользователю возможность преодолеть постоянно растущую сложность поиска информации в постоянно растущих централизованных индексах научной работы. Ванневар Буш представил библиотеки исследований со связанными аннотациями, похожими на современные гиперссылки . ^[5]

Анализ ссылок в конечном итоге стал важнейшим компонентом поисковых систем благодаря таким алгоритмам, как Hyper Search и PageRank . ^[6]^[7]

1990-е: Рождение поисковых систем.

Первые поисковые системы Интернета появились еще до появления Интернета в декабре 1990 года: поиск пользователей WHOIS начался в 1982 году. ^[8] а Knowbot Information Service был впервые реализован в 1989 году. многосетевой поиск пользователей ^[9] Первой хорошо документированной поисковой системой, которая осуществляла поиск в файлах содержимого, а именно в файлах FTP , была Archie , дебютировавшая 10 сентября 1990 года. ^[10]

До сентября 1993 года Всемирная паутина полностью индексировалась вручную. Был список веб-серверов , отредактированный Тимом Бернерсом-Ли и размещенный на ЦЕРН веб-сервере . Сохранился один снимок списка 1992 года: ^[11] но по мере того, как все больше и больше веб-серверов подключались к сети, центральный список больше не успевал за ними. На сайте NCSA анонсированы новые сервера под заголовком «Что нового!». ^[12]

Первым инструментом, который использовался для поиска контента (в отличие от пользователей) в Интернете, был Archie . ^[13] Название означает «архив» без буквы «v». ^[14] Его создал Алан Эмтаж , ^[14]^[15]^[16]^[17] Студент информатики в Университете Макгилла в Монреале, Квебек , Канада. Программа загружала списки каталогов всех файлов, расположенных на общедоступных анонимных сайтах FTP ( протокол передачи файлов ), создавая базу данных имен файлов с возможностью поиска; однако поисковая система Archie не индексировала содержимое этих сайтов, поскольку объем данных был настолько ограничен, что их можно было легко найти вручную.

Расцвет Gopher (созданный в 1991 году Марком МакКахиллом в Университете Миннесоты ) привел к появлению двух новых поисковых программ, Veronica и Jughead . Как и Арчи, они искали имена и заголовки файлов, хранящиеся в индексных системах Gopher. Veronica (Очень простой сетевой индекс компьютеризированных архивов, ориентированный на грызунов) обеспечила поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) был инструментом для получения информации меню с определенных серверов Gopher. Хотя название поисковой системы « Поисковая система Арчи » не было отсылкой к серии комиксов Арчи , « Вероника » и « Джагхед » являются персонажами сериала, что является отсылкой к своему предшественнику.

Летом 1993 года в Интернете не существовало поисковой системы, хотя многочисленные специализированные каталоги велись вручную. Оскар Ниерстраз из Женевского университета написал серию скриптов Perl , которые периодически зеркально отображали эти страницы и переписывали их в стандартный формат. Это легло в основу W3Catalog , первой примитивной поисковой системы в сети, выпущенной 2 сентября 1993 года. ^[18]

В июне 1993 года Мэтью Грей, работавший тогда в Массачусетском технологическом институте , создал, вероятно, первого веб-робота , Perl на основе World Wide Web Wanderer , и использовал его для создания индекса под названием «Wandex». Целью Wanderer было измерение размера Всемирной паутины, чем он и занимался до конца 1995 года. Вторая поисковая система Aliweb появилась в ноябре 1993 года. Aliweb не использовал веб-робота , а вместо этого зависел от получения уведомлений от веб-сайта. администраторам наличие на каждом сайте индексного файла в определенном формате.

JumpStation (создан в декабре 1993 г.) ^[19] Джонатон Флетчер ) использовал веб-робота для поиска веб-страниц и создания их индекса, а также использовал веб-форму в качестве интерфейса для своей программы запросов. Таким образом, это был первый инструмент для поиска ресурсов WWW , сочетающий в себе три основные функции поисковой системы в Интернете (сканирование, индексирование и поиск), как описано ниже. Из-за ограниченности ресурсов, доступных на платформе, на которой он работал, его индексирование и, следовательно, поиск были ограничены заголовками и заголовками, найденными на веб-страницах, с которыми сталкивался сканер.

Одной из первых поисковых систем, основанных на «полностью текстовом» сканере, была WebCrawler , появившаяся в 1994 году. В отличие от своих предшественников, она позволяла пользователям искать любое слово на любой веб-странице , что с тех пор стало стандартом для всех основных поисковых систем. . Это была также поисковая система, которая была широко известна публике. Кроме того, в 1994 году была запущена компания Lycos (основанная в Университете Карнеги-Меллона ), которая стала крупным коммерческим предприятием.

Первой популярной поисковой системой в Интернете была Yahoo! Поиск . ^[20] Первый продукт Yahoo! , основанный Джерри Янгом и Дэвидом Фило в январе 1994 года, представлял веб-каталог собой Yahoo! Каталог . В 1995 году была добавлена функция поиска, позволяющая пользователям искать Yahoo! Каталог. ^[21]^[22] Он стал одним из самых популярных способов поиска интересующих веб-страниц, но его функция поиска работала в веб-каталоге, а не в полнотекстовых копиях веб-страниц.

Вскоре после этого появилось несколько поисковых систем, которые соперничали за популярность. В их число входили Magellan , Excite , Infoseek , Inktomi , Northern Light и AltaVista . Лица, ищущие информацию, также могут просматривать каталог вместо поиска по ключевым словам.

В 1996 году Робин Ли разработал RankDex оценки сайта алгоритм для ранжирования страниц в результатах поисковых систем. ^[23]^[24]^[25] и получил патент США на эту технологию. ^[26] Это была первая поисковая система, которая использовала гиперссылки для измерения качества индексируемых веб-сайтов. ^[27] до очень похожего патента на алгоритм, поданного Google два года спустя, в 1998 году. ^[28] Ларри Пейдж ссылался на работу Ли в некоторых своих патентах на PageRank в США. ^[29] Позже Ли использовал свою технологию Rankdex для поисковой системы Baidu , которая была основана им в Китае и запущена в 2000 году.

В 1996 году Netscape стремилась предоставить единственной поисковой системе эксклюзивную сделку в качестве основной поисковой системы в веб-браузере Netscape. Интерес был настолько велик, что вместо этого Netscape заключила сделки с пятью основными поисковыми системами: за 5 миллионов долларов в год каждая поисковая система будет поочередно отображаться на странице поисковой системы Netscape. Пятью платформами были Yahoo!, Magellan, Lycos, Infoseek и Excite. ^[30]^[31]

Google перенял идею продажи поисковых запросов в 1998 году у небольшой поисковой компании goto.com . Этот шаг оказал существенное влияние на бизнес поисковых систем, который превратился из испытывающего трудности в один из самых прибыльных бизнесов в Интернете. ^{[ нужна ссылка ]}

Поисковые системы также были известны как одни из самых ярких звезд интернет-инвестиционного безумия, произошедшего в конце 1990-х годов. ^[32] Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время своих первичных публичных размещений . Некоторые из них закрыли свою общедоступную поисковую систему и продают только корпоративные издания, такие как Northern Light. Многие компании, занимающиеся поисковыми системами, попали в пузырь доткомов — рыночный бум, вызванный спекуляциями, достигший пика в марте 2000 года.

2000-е – настоящее время: пост-пузырь доткомов

Примерно в 2000 году поисковая система Google приобрела известность. ^[33] Компания добилась лучших результатов для многих поисковых запросов с помощью алгоритма под названием PageRank , как было объяснено в статье «Анатомия поисковой системы», написанной Сергеем Брином и Ларри Пейджем , более поздними основателями Google. ^[7] Этот итеративный алгоритм ранжирует веб-страницы на основе количества и PageRank других веб-сайтов и страниц, ссылающихся на них, исходя из того, что на хорошие или желательные страницы ссылается больше, чем на другие. В патенте Ларри Пейджа на PageRank упоминается, патент Робина Ли что на него оказал влияние более ранний RankDex . ^[29]^[25] Google также сохранил минималистичный интерфейс своей поисковой системы. Напротив, многие из ее конкурентов встроили поисковую систему в веб-портал . Фактически, поисковая система Google стала настолько популярной, что появились поддельные системы, такие как Mystery Seeker .

К 2000 году Yahoo! предоставляла поисковые услуги на основе поисковой системы Inktomi. Yahoo! приобрела Inktomi в 2002 году и Overture (которая владела AlltheWeb и AltaVista) в 2003 году. Yahoo! перешла на поисковую систему Google до 2004 года, когда она запустила собственную поисковую систему, основанную на объединении технологий своих приобретений.

Microsoft впервые запустила MSN Search осенью 1998 года, используя результаты поиска Inktomi. В начале 1999 года на сайте начали отображаться списки Looksmart , смешанные с результатами Inktomi. В течение короткого времени в 1999 году MSN Search вместо этого использовал результаты AltaVista. В 2004 году Microsoft начала переход на собственную технологию поиска, основанную на собственном веб-сканере (называемом msnbot ).

Поисковая система Microsoft с ребрендингом Bing была запущена 1 июня 2009 г. 29 июля 2009 г. Yahoo! и Microsoft заключили сделку, по которой Yahoo! Поиск будет осуществляться с помощью технологии Microsoft Bing.

По состоянию на 2019 год ^[update] К активным сканерам поисковых систем относятся Google, Sogou , Baidu, Bing, Gigablast , Mojeek , DuckDuckGo и Yandex .

Подход

Поисковая система поддерживает следующие процессы практически в реальном времени: ^[34]

Поисковые системы получают информацию путем сканирования с сайта на сайт. «Паук» проверяет стандартное имя файла robots.txt , адресованное ему. Файл robots.txt содержит директивы для поисковых роботов, указывающие, какие страницы сканировать, а какие нет. После проверки файла robots.txt и обнаружения его или нет, паук отправляет определенную информацию обратно для индексации в зависимости от многих факторов, таких как заголовки, содержимое страницы, JavaScript , каскадные таблицы стилей (CSS), заголовки или метаданные в файле. HTML Метатеги . После определенного количества просканированных страниц, объема проиндексированных данных или времени, проведенного на веб-сайте, паук перестает сканировать и движется дальше. «[Ни один веб-сканер не может фактически сканировать всю доступную сеть. Из-за бесконечного количества веб-сайтов, ловушек для пауков, спама и других потребностей реальной сети сканеры вместо этого применяют политику сканирования, чтобы определить, когда сканирование сайта следует считать достаточно. Некоторые веб-сайты сканируются полностью, а другие — лишь частично». ^[36]

Индексирование означает связывание слов и других определяемых токенов, найденных на веб-страницах, с их доменными именами и HTML полями на основе . Ассоциации заносятся в общедоступную базу данных, доступную для поисковых запросов в Интернете. Запрос пользователя может состоять из одного слова, нескольких слов или предложения. Индекс помогает максимально быстро найти информацию, относящуюся к запросу. ^[35] Некоторые методы индексирования и кэширования являются коммерческой тайной, тогда как сканирование веб-страниц представляет собой простой процесс систематического посещения всех сайтов.

Между посещениями паука кэшированная версия страницы (некоторая часть или весь контент, необходимый для ее отображения) , хранящаяся в рабочей памяти поисковой системы, быстро отправляется запрашивающему. Если посещение просрочено, поисковая система может вместо этого выступать в качестве веб-прокси . В этом случае страница может отличаться от проиндексированных поисковых запросов. ^[35] Кэшированная страница сохраняет внешний вид версии, слова которой были ранее проиндексированы, поэтому кешированная версия страницы может быть полезна веб-сайту, когда фактическая страница была потеряна, но эта проблема также считается легкой формой linkrot .

Высокоуровневая архитектура стандартного веб-сканера

Обычно, когда пользователь вводит запрос в поисковую систему, это несколько ключевых слов . ^[37] уже В индексе есть названия сайтов, содержащие ключевые слова, и они мгновенно извлекаются из индекса. Реальная нагрузка на обработку заключается в создании веб-страниц, которые представляют собой список результатов поиска: каждая страница во всем списке должна иметь вес в соответствии с информацией в индексах. ^[35] Затем для верхнего элемента результатов поиска требуется поиск, реконструкция и разметка фрагментов, показывающих контекст совпадающих ключевых слов. Это лишь часть обработки, которую требует каждая веб-страница с результатами поиска, а дальнейшие страницы (следующие вверху) требуют дополнительной постобработки.

Помимо простого поиска по ключевым словам, поисковые системы предлагают свои собственные операторы с графическим интерфейсом или командами и параметры поиска для уточнения результатов поиска. Они обеспечивают необходимые элементы управления для пользователя, вовлеченного в цикл обратной связи, который пользователи создают путем фильтрации и взвешивания при уточнении результатов поиска, учитывая начальные страницы первых результатов поиска.Например, с 2007 года поисковая система Google.com позволяет фильтровать по дате, щелкнув «Показать инструменты поиска» в крайнем левом столбце начальной страницы результатов поиска, а затем выбрав желаемый диапазон дат. ^[38] Также возможно взвешивание по дате, поскольку каждая страница имеет время изменения. Большинство поисковых систем поддерживают использование логических операторов И, ИЛИ и НЕ, чтобы помочь конечным пользователям уточнить поисковый запрос . Логические операторы предназначены для буквального поиска, который позволяет пользователю уточнять и расширять условия поиска. Механизм ищет слова или фразы точно так, как они были введены. Некоторые поисковые системы предоставляют расширенную функцию, называемую поиском по близости , которая позволяет пользователям определять расстояние между ключевыми словами. ^[35] Существует также концептуальный поиск , при котором исследование включает в себя статистический анализ страниц, содержащих искомые слова или фразы.

Полезность поисковой системы зависит от релевантности набора результатов, которые она возвращает. Хотя могут существовать миллионы веб-страниц, содержащих определенное слово или фразу, некоторые страницы могут быть более актуальными, популярными или авторитетными, чем другие. Большинство поисковых систем используют методы ранжирования результатов, чтобы в первую очередь предоставить «лучшие» результаты. То, как поисковая система решает, какие страницы наиболее соответствуют друг другу и в каком порядке следует отображать результаты, сильно различается от одной системы к другой. ^[35] Методы также меняются со временем по мере изменения использования Интернета и развития новых технологий. Существует два основных типа поисковых систем: один представляет собой систему заранее определенных и иерархически упорядоченных ключевых слов, которые люди тщательно запрограммировали. Другая — это система, которая генерирует « инвертированный индекс » путем анализа обнаруженных ею текстов. Эта первая форма в гораздо большей степени зависит от самого компьютера, выполняющего основную часть работы.

Большинство поисковых систем в Интернете являются коммерческими предприятиями, поддерживаемыми доходами от рекламы , и поэтому некоторые из них позволяют рекламодателям повышать рейтинг своих объявлений за определенную плату в результатах поиска. Поисковые системы, которые не принимают деньги за результаты поиска, зарабатывают деньги, размещая рекламу, связанную с поиском, рядом с обычными результатами поисковых систем. Поисковые системы зарабатывают деньги каждый раз, когда кто-то нажимает на одно из этих объявлений. ^[39]

Локальный поиск

Локальный поиск — это процесс, который оптимизирует усилия местного бизнеса. Они сосредоточены на изменениях, чтобы обеспечить единообразие всех поисков. Это важно, поскольку многие люди определяют, куда планируют пойти и что купить, на основе своих поисков. ^[40]

Доля рынка

По состоянию на январь 2022 г. ^[update] Google , безусловно, является наиболее используемой поисковой системой в мире, ее рыночная доля составляет 90,6%, а другими наиболее часто используемыми поисковыми системами в мире являются Bing , Yahoo! , Baidu , Яндекс и DuckDuckGo . ^[2]

Россия и Восточная Азия

В России Яндекса доля рынка составляет 62,6% по сравнению с 28,3% у Google. А Яндекс — вторая по популярности поисковая система на смартфонах в Азии и Европе. ^[41] В Китае Baidu — самая популярная поисковая система. ^[42] Собственный поисковый портал Южной Кореи Naver используется для 62,8% онлайн-поиска в стране. ^[43] Yahoo! Япония и Yahoo! Тайвань является наиболее популярным местом для поиска в Интернете в Японии и Тайване соответственно. ^[44] Китай — одна из немногих стран, где Google не входит в тройку крупнейших поисковых систем по доле рынка. Google ранее был ведущей поисковой системой в Китае, но отказался от нее из-за разногласий с правительством по поводу цензуры и кибератаки. Но Bing входит в тройку лучших поисковых систем с долей рынка 14,95%. Baidu лидирует с долей рынка 49,1%. ^[45]^{[ нужна ссылка ]}

Европа

На рынках большинства стран Евросоюза доминирует Google, за исключением Чехии , где Seznam является сильным конкурентом. ^[46]

Поисковая система Qwant базируется в Париже , Франция , откуда она привлекает большую часть своих 50 миллионов ежемесячно зарегистрированных пользователей.

Предвзятость поисковых систем

Хотя поисковые системы запрограммированы ранжировать веб-сайты на основе определенного сочетания их популярности и релевантности, эмпирические исследования указывают на различные политические, экономические и социальные предвзятости в информации, которую они предоставляют. ^[47]^[48] и основные предположения о технологии. ^[49] Эти предубеждения могут быть прямым результатом экономических и коммерческих процессов (например, компании, которые размещают рекламу в поисковой системе, также могут стать более популярными в результатах обычного поиска ) и политических процессов (например, удаление результатов поиска в соответствии с местными законами). ). ^[50] Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста является незаконным.

Предвзятости также могут быть результатом социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются так, чтобы исключать ненормативные точки зрения в пользу более «популярных» результатов. ^[51] Алгоритмы индексирования основных поисковых систем ориентированы на охват сайтов из США, а не сайтов из стран за пределами США. ^[48]

Google Bombing — один из примеров попыток манипулировать результатами поиска по политическим, социальным или коммерческим причинам.

Несколько ученых изучили культурные изменения, вызванные поисковыми системами. ^[52] и представление в их результатах некоторых спорных тем, таких как терроризм в Ирландии , ^[53] отрицание изменения климата , ^[54] и теории заговора . ^[55]

Индивидуальные результаты и пузырьковые фильтры

Высказывались опасения, что поисковые системы, такие как Google и Bing, предоставляют персонализированные результаты на основе истории активности пользователя, что приводит к тому, что 2011 году назвал «эхо-камерами» или «пузырями фильтров» в Эли Паризер . ^[56] Аргумент заключается в том, что поисковые системы и платформы социальных сетей используют алгоритмы , чтобы выборочно угадывать, какую информацию пользователь хотел бы видеть, на основе информации о пользователе (например, местоположения, поведения прошлых кликов и истории поиска). В результате веб-сайты, как правило, отображают только ту информацию, которая согласуется с прошлой точкой зрения пользователя. По словам Эли Паризера, пользователи меньше подвергаются воздействию противоречивых точек зрения и интеллектуально изолированы в своем собственном информационном пузыре. С тех пор, как эта проблема была выявлена, появились конкурирующие поисковые системы, которые стремятся избежать этой проблемы, не отслеживая и не «всплывая» пользователей, например DuckDuckGo . Однако многие ученые подвергли сомнению точку зрения Паризера, обнаружив, что доказательств существования пузыря фильтров мало. ^[57]^[58]^[59] Напротив, ряд исследований, пытавшихся подтвердить существование «пузырей фильтров», обнаружили лишь незначительный уровень персонализации поиска. ^[59] что большинство людей сталкиваются с различными мнениями при просмотре онлайн-страниц и что новости Google имеют тенденцию продвигать популярные новостные агентства. ^[60]^[58]

Религиозные поисковые системы

Глобальный рост Интернета и электронных средств массовой информации в арабском и мусульманском мире за последнее десятилетие побудил приверженцев ислама на Ближнем Востоке и на азиатском субконтиненте попытаться создать собственные поисковые системы, собственные поисковые порталы с фильтрацией, которые позволили бы пользователям выполнять безопасный поиск . Эти исламские веб-порталы представляют собой нечто большее, чем обычные безопасные поисковые фильтры. Они классифицируют веб-сайты на « халяльные » и « харамные » на основе интерпретации «Закона ислама» . ImHalal появился в сети в сентябре 2011 года. Halalgoogling появился в сети в июле 2013 года. Они используют харам -фильтры для коллекций Google и Bing (и других). ^[61]

В то время как недостаток инвестиций и медленный темп развития технологий в мусульманском мире препятствовали прогрессу и препятствовали успеху исламской поисковой системы, ориентированной в качестве основных потребителей на приверженцев ислама, такие проекты, как Muxlim , сайт о мусульманском образе жизни, действительно получили миллионы долларов от таких инвесторов, как Rite Internet Ventures, и она тоже пошатнулась. Другими религиозными поисковыми системами являются Jewogle, еврейская версия Google, ^[62] и SeekFind.org, христианский. SeekFind фильтрует сайты, которые нападают на их веру или унижают ее. ^[63]

Представление в поисковых системах

Отправка веб-поисковой системы — это процесс, при котором веб-мастер отправляет веб-сайт непосредственно в поисковую систему. Хотя представление в поисковых системах иногда представляется как способ продвижения веб-сайта, обычно в этом нет необходимости, поскольку основные поисковые системы используют веб-сканеры, которые в конечном итоге без посторонней помощи найдут большинство веб-сайтов в Интернете. Они могут отправлять либо одну веб-страницу за раз, либо весь сайт, используя карту сайта , но обычно необходимо отправлять только домашнюю страницу веб-сайта, поскольку поисковые системы могут сканировать хорошо спроектированный веб-сайт. Остаются две причины отправить веб-сайт или веб-страницу в поисковую систему: добавить совершенно новый веб-сайт, не дожидаясь, пока поисковая система его обнаружит, и обновить записи веб-сайта после существенного изменения дизайна.

Некоторые программы для отправки в поисковые системы не только отправляют веб-сайты в несколько поисковых систем, но также добавляют ссылки на веб-сайты со своих собственных страниц. веб-сайта Это может оказаться полезным для повышения рейтинга , поскольку внешние ссылки являются одним из наиболее важных факторов, определяющих рейтинг веб-сайта. Однако Джон Мюллер из Google заявил, что это «может привести к появлению огромного количества неестественных ссылок на вашем сайте», что отрицательно скажется на рейтинге сайта. ^[64]

Сравнение с социальными закладками

По сравнению с поисковыми системами система социальных закладок имеет ряд преимуществ перед традиционным программным обеспечением для автоматического определения местоположения и классификации ресурсов, таким как « поисковых систем пауки» . Вся классификация интернет-ресурсов (например, веб-сайтов) на основе тегов выполняется людьми, которые понимают содержание ресурса, в отличие от программного обеспечения, которое алгоритмически пытается определить значение и качество ресурса. Кроме того, люди могут находить и добавлять в закладки веб-страницы, которые еще не были замечены или проиндексированы веб-пауками. ^[65] Кроме того, система социальных закладок может ранжировать ресурс на основе того, сколько раз пользователи добавляли его в закладки, что может быть более полезным показателем для конечных пользователей , чем системы, которые ранжируют ресурсы на основе количества внешних ссылок, указывающих на него. Однако оба типа ранжирования уязвимы для мошенничества (см. «Игры в систему »), и оба требуют технических мер противодействия этому.

Технология

Арчи

Первой поисковой системой в Интернете был Archie , созданный в 1990 году. ^[66] Алан Эмтаж , студент Университета Макгилла в Монреале. Автор изначально хотел назвать программу «архивами», но был вынужден сократить ее, чтобы соответствовать мировому стандарту Unix присваивать программам и файлам короткие загадочные имена, такие как grep, cat, troff, sed, awk, perl и т. д. .

Основным методом хранения и получения файлов был протокол передачи файлов (FTP). Это была (и остается) система, которая определяла общий способ обмена компьютерами файлами через Интернет. Это работает следующим образом: какой-то администратор решает, что он хочет сделать файлы доступными со своего компьютера. Он устанавливает на своем компьютере программу, называемую FTP-сервером. Когда кто-то в Интернете хочет получить файл с этого компьютера, он или она подключается к нему через другую программу, называемую FTP-клиентом. Любая клиентская программа FTP может соединяться с любой программой FTP-сервера, если клиентская и серверная программы полностью соответствуют спецификациям, изложенным в протоколе FTP.

Первоначально любой, кто хотел поделиться файлом, должен был настроить FTP-сервер, чтобы сделать файл доступным для других. Позже «анонимные» FTP-сайты стали хранилищами файлов, что позволило всем пользователям публиковать и получать их.

Даже при наличии архивных сайтов многие важные файлы по-прежнему были разбросаны по небольшим FTP-серверам. Эти файлы можно было найти только с помощью интернет-эквивалента устной речи: кто-то отправлял электронное письмо в список сообщений или на дискуссионный форум, объявляя о доступности файла.

Арчи все изменил. Он объединил сборщик данных на основе сценариев, который получал списки анонимных FTP-файлов на сайтах, со средством сопоставления регулярных выражений для получения имен файлов, соответствующих запросу пользователя. (4) Другими словами, сборщик Арчи просмотрел FTP-сайты в Интернете и проиндексировал все найденные файлы. Его средство сопоставления регулярных выражений предоставило пользователям доступ к своей базе данных. ^[67]

Вероника

В 1993 году группа System Computing Services Университета Невады разработала Veronica . ^[66] Он был создан как поисковое устройство, похожее на Archie, но для файлов Gopher. Чуть позже появился еще один поисковый сервис Gopher, под названием Jughead, вероятно, с единственной целью дополнить триумвират комиксов. Джагхед — это аббревиатура от «Раскопок и показа универсальной иерархии сусликов» Джонзи, хотя, как и в случае с Вероникой, вероятно, можно с уверенностью предположить, что создатель поддержал эту аббревиатуру. Функциональность Джагхеда была практически идентична функциональности Вероники, хотя по краям она кажется немного более грубой. ^[67]

Одинокий странник

The World Wide Web Wanderer , разработанный Мэтью Греем в 1993 году. ^[68] был первым роботом в Интернете и был разработан для отслеживания роста Интернета. Первоначально Wanderer считал только веб-серверы, но вскоре после своего появления он начал захватывать URL-адреса. База данных перехваченных URL-адресов стала Wandex, первой веб-базой данных.

Wanderer Мэтью Грея вызвал в то время немало споров, отчасти потому, что ранние версии программного обеспечения широко распространялись по Сети и вызывали заметное снижение производительности во всей сети. Эта деградация произошла потому, что Странник обращался к одной и той же странице сотни раз в день. Вскоре Wanderer изменил свою позицию, но споры о том, приносят ли роботы пользу или вред Интернету, остались.

В ответ на Wanderer Мартейн Костер в октябре 1993 года создал Archie-Like Indexing of the Web, или ALIWEB. Как следует из названия, ALIWEB был HTTP-эквивалентом Archie, и по этой причине он до сих пор уникален во многих отношениях.

У ALIWEB нет робота для поиска в Интернете. Вместо этого веб-мастера участвующих сайтов публикуют собственную индексную информацию для каждой страницы, которую они хотят включить в список. Преимущество этого метода заключается в том, что пользователи могут описывать свой собственный сайт, а робот не бегает, поглощая пропускную способность сети. Недостатки ALIWEB сегодня представляют собой большую проблему. Основным недостатком является необходимость предоставления специального индексного файла. Большинство пользователей не понимают, как создать такой файл, и поэтому не отправляют свои страницы. Это приводит к относительно небольшой базе данных, а это означает, что пользователи с меньшей вероятностью будут искать на ALIWEB, чем на одном из крупных сайтов, основанных на ботах. Эта «Уловка-22» была в некоторой степени компенсирована включением других баз данных в поиск ALIWEB, но она по-прежнему не пользуется массовой популярностью среди поисковых систем, таких как Yahoo! или Ликос. ^[67]

Возбуждать

Excite , первоначально называвшаяся Architext, была основана шестью студентами Стэнфорда в феврале 1993 года. Их идея заключалась в использовании статистического анализа словесных отношений, чтобы обеспечить более эффективный поиск в большом объеме информации в Интернете.Их проект был полностью профинансирован к середине 1993 года. Как только финансирование было обеспечено. они выпустили версию своего программного обеспечения для поиска, которую веб-мастера могли использовать на своих веб-сайтах. В то время программа называлась Architext, но теперь она называется Excite for Web Servers. ^[67]

Excite была первой серьезной коммерческой поисковой системой, запущенной в 1995 году. ^[69] Он был разработан в Стэнфорде и был куплен @Home за 6,5 миллиардов долларов. В 2001 году Excite и @Home обанкротились, и InfoSpace купила Excite за 10 миллионов долларов.

Некоторые из первых анализов веб-поиска были проведены на основе журналов поиска Excite. ^[70]^[71]

Yahoo!

В апреле 1994 года два доктора философии Стэнфордского университета. кандидаты Дэвид Фило и Джерри Янг создали несколько страниц, которые стали довольно популярными. Они назвали коллекцию страниц Yahoo! Официальное объяснение выбора имени заключалось в том, что они считали себя парой йеху.

Когда количество ссылок выросло, а их страницы стали получать тысячи посещений в день, команда нашла способы лучше организовать данные. Чтобы облегчить поиск данных, Yahoo! (www.yahoo.com) стал каталогом с возможностью поиска. Функция поиска представляла собой простую поисковую систему по базе данных. Потому что Yahoo! записи вводились и классифицировались вручную, Yahoo! на самом деле не был классифицирован как поисковая система. Вместо этого обычно считалось, что это каталог с возможностью поиска. Yahoo! с тех пор автоматизировал некоторые аспекты процесса сбора и классификации, стирая различие между механизмом и каталогом.

Wanderer фиксировал только URL-адреса, что затрудняло поиск вещей, которые не были явно описаны в их URL-адресах. Поскольку URL-адреса изначально довольно загадочны, обычному пользователю это не помогло. Поиск Yahoo! или Galaxy были гораздо более эффективными, поскольку содержали дополнительную описательную информацию об индексируемых сайтах.

Ликос

В июле 1994 года в Университете Карнеги-Меллон Майкл Молдин, находясь в отпуске из CMU, разработал поисковую систему Lycos .

Типы поисковых систем в Интернете

Поисковые системы в Интернете — это сайты, оснащенные возможностями поиска контента, хранящегося на других сайтах. Существуют различия в работе различных поисковых систем, но все они выполняют три основные задачи. ^[72]

Поиск и выбор полного или частичного контента на основе предоставленных ключевых слов.
Поддержание индекса контента и ссылки на местоположение, которое они находят.
Разрешение пользователям искать слова или комбинации слов, найденные в этом индексе.

Процесс начинается, когда пользователь вводит запрос в систему через предоставленный интерфейс.

Тип	Пример	Описание
Общепринятый	каталог библиотеки	Поиск по ключевому слову, названию, автору и т. д.
Текстовый	Google, Бинг, Yahoo!	Поиск по ключевым словам. Ограниченный поиск с использованием запросов на естественном языке.
Голосовой	Google, Бинг, Yahoo!	Поиск по ключевым словам. Ограниченный поиск с использованием запросов на естественном языке.
Мультимедийный поиск	QBIC, WebSeek, SaFe	Поиск по внешнему виду (форма, цвет и т. д.)
Вопросы/ответы	Обмен стеками , NSIR	Поиск на (ограниченном) естественном языке
Кластерные системы	Вивисимо, Класти
Исследовательские системы	Лемур, Натч

В основном существует три типа поисковых систем: те, которые работают на роботах (называемые сканерами ; муравьями или пауками), и те, которые работают на основе информации, представленной человеком; и те, которые являются гибридом этих двух.

Поисковые системы на основе краулеров — это те, которые используют автоматические программные агенты (называемые сканерами), которые посещают веб-сайт, читают информацию на реальном сайте, читают метатеги сайта, а также переходят по ссылкам, которые сайт соединяет, выполняя индексацию всех связанных Веб-сайты тоже. Сканер возвращает всю эту информацию обратно в центральное хранилище, где данные индексируются. Сканер будет периодически возвращаться на сайты, чтобы проверить наличие измененной информации. Частота, с которой это происходит, определяется администраторами поисковой системы.

Поисковые системы, управляемые человеком, полагаются на то, что люди предоставляют информацию, которая впоследствии индексируется и каталогизируется. В индекс помещается только предоставленная информация.

В обоих случаях, когда вы запрашиваете поисковую систему для поиска информации, вы на самом деле выполняете поиск по индексу, созданному поисковой системой, а не ищете в Интернете. Эти индексы представляют собой гигантские базы данных информации, которая собирается, хранится и впоследствии ищется. Это объясняет, почему иногда поиск в коммерческой поисковой системе, такой как Yahoo! или Google вернут результаты, которые на самом деле являются неработающими ссылками. Поскольку результаты поиска основаны на индексе, если индекс не обновлялся с тех пор, как веб-страница стала недействительной, поисковая система рассматривает страницу как все еще активную ссылку, даже если она больше не является таковой. Так будет до тех пор, пока индекс не будет обновлен.

Так почему же один и тот же поиск в разных поисковых системах дает разные результаты? Частично ответ на этот вопрос заключается в том, что не все индексы будут одинаковыми. Это зависит от того, что найдут пауки или что предоставили люди. Но что еще более важно, не все поисковые системы используют один и тот же алгоритм для поиска по индексам. Алгоритм — это то, что поисковые системы используют для определения соответствия информации в индексе тому, что ищет пользователь.

Одним из элементов, которые сканирует алгоритм поисковой системы, является частота и расположение ключевых слов на веб-странице. Те, которые встречаются чаще, обычно считаются более актуальными. Но технологии поисковых систем становятся все более изощренными в попытках предотвратить так называемое наполнение ключевыми словами или спамдексирование.

Еще один общий элемент, который анализируют алгоритмы, — это то, как страницы ссылаются на другие страницы в Интернете. Анализируя то, как страницы ссылаются друг на друга, движок может определить, о чем страница (если ключевые слова связанных страниц аналогичны ключевым словам на исходной странице), а также считается ли эта страница «важной» и заслуживает оценки. повышение рейтинга. Так же, как технология становится все более сложной, чтобы игнорировать наполнение ключевыми словами, она также становится более сообразительной для веб-мастеров, которые встраивают искусственные ссылки на свои сайты, чтобы создать искусственный рейтинг.

Современные поисковые системы в Интернете представляют собой очень сложные программные системы, в которых используются технологии, развивавшиеся с годами. Существует ряд подкатегорий программного обеспечения поисковых систем, которые по отдельности применимы к конкретным потребностям «просмотра». К ним относятся поисковые системы в Интернете (например, Google ), поисковые системы по базам данных или структурированным данным (например, Dieselpoint ), а также смешанные поисковые системы или корпоративный поиск. Более распространенные поисковые системы, такие как Google и Yahoo! , используют сотни тысяч компьютеров для обработки триллионов веб-страниц, чтобы получить довольно точные результаты. Из-за большого объема запросов и обработки текста программное обеспечение должно работать в сильно рассредоточенной среде с высокой степенью избыточности.

Другая категория поисковых систем — научные поисковые системы. Это поисковые системы, которые ищут научную литературу. Самый известный пример — Google Scholar. Исследователи работают над улучшением технологии поисковых систем, помогая им понять элемент содержания статей, например, извлекая теоретические конструкции или ключевые результаты исследований. ^[73]

См. также

Сравнение поисковых систем в Интернете
Фильтр-пузырь
Гугл эффект
Поиск информации
Использование поисковых систем в библиотеках
Список поисковых систем
Ответ на вопрос
Эффект манипуляции поисковыми системами
Конфиденциальность поисковых систем
Семантическая сеть
Проверка орфографии
Инструменты веб-разработки
Веб-запрос
Wikipedia:Тест поисковых систем — руководство по использованию поисковых систем для поиска статей в Википедии.

Ссылки

^ «Доля рынка поисковых систем во всем мире | StatCounter Global Stats» . СтатСчетчик . Проверено 19 февраля 2024 г.
^ Jump up to: Перейти обратно: ^а ^б «Доля рынка поисковых систем в мире» . Подобные веб-лидеры поисковых систем . Проверено 19 февраля 2024 г.
^ Буш, Ванневар (1 июля 1945 г.). «Как мы можем думать» . Атлантика . Архивировано из оригинала 22 августа 2012 г. Проверено 22 февраля 2024 г.
^ «История поисковых систем.com» . www.searchenginehistory.com . Проверено 2 июля 2020 г.
^ «Безопасный вход в WebAccess штата Пенсильвания» . webaccess.psu.edu . Архивировано из оригинала 22 января 2022 г. Проверено 2 июля 2020 г.
^ Маркиори, Массимо (1997). «В поисках правильной информации в Интернете: гиперпоисковые системы» . Материалы шестой Международной конференции по всемирной паутине (WWW6) . Проверено 10 января 2021 г.
^ Jump up to: Перейти обратно: ^а ^б Брин, Сергей; Пейдж, Ларри (1998). «Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете» (PDF) . Материалы Седьмой Международной конференции по всемирной паутине (WWW7) . Архивировано из оригинала (PDF) 13 июля 2017 г. Проверено 10 января 2021 г.
^ Харренстин, К.; Уайт, В. (1982). «RFC 812 — NICNAME/WHOIS» . Ietf Datatracker . дои : 10.17487/RFC0812 .
^ «Программирование Knowbot: системная поддержка мобильных агентов» . cnri.reston.va.us .
^ Дойч, Питер (11 сентября 1990 г.). «[следующий] Сервер Интернет-архивного сервера (было о Лиспе)» . groups.google.com . Проверено 29 декабря 2017 г.
^ «Серверы всемирной паутины» . W3C . Проверено 14 мая 2012 г.
^ «Что нового! Февраль 1994 года» . Коммуникационная корпорация Мозаик! . Проверено 14 мая 2012 г.
^ Search Engine Watch (сентябрь 2001 г.). «Поисковые системы» . История Интернета . Нидерланды: Лейденский университет. Архивировано из оригинала 13 апреля 2009 г.
^ Jump up to: Перейти обратно: ^а ^б «Арчи» . PCMag . Проверено 20 сентября 2020 г.
^ Александра Самуэль (21 февраля 2017 г.). «Познакомьтесь с Аланом Эмтейджем, черным технологом, который изобрел АРЧИ, первую поисковую систему в Интернете» . ИТАКА . Проверено 20 сентября 2020 г.
^ цикл новостей Барбадоса. «Алан Эмтаж — барбадосец, которого вы должны знать» . Loopnewsbarbados.com. Архивировано из оригинала 23 сентября 2020 г. Проверено 21 сентября 2020 г.
^ Дино Грандони, Алан Эмтаж (апрель 2013 г.). «Алан Эмтаж: человек, который изобрел первую в мире поисковую систему (но не запатентовал ее)» . huffingtonpost.co.uk . Проверено 21 сентября 2020 г.
^ Оскар Нирстраз (2 сентября 1993 г.). «Каталог WWW-ресурсов с возможностью поиска (экспериментальный)» .
^ «Архив NCSA: что нового на странице декабря 1993 года» . 20 июня 2001 г. Архивировано из оригинала 20 июня 2001 г. Проверено 14 мая 2012 г.
^ «Что такое первопроходец?» . Поиск директора по информационным технологиям . ТехТаржет . Сентябрь 2005 года . Проверено 5 сентября 2019 г.
^ Оппитц, Маркус; Томсу, Питер (2017). Изобретая век облаков: как облачность продолжает менять нашу жизнь, экономику и технологии . Спрингер. п. 238. ИСБН 9783319611617 .
^ «Yahoo! Поиск» . Yahoo! . 28 ноября 1996 года. Архивировано из оригинала 28 ноября 1996 года . Проверено 5 сентября 2019 г.
↑ Гринберг, Энди, «Человек, который побеждает Google» , журнал Forbes , 5 октября 2009 г.
^ Яньхун Ли, «На пути к качественной поисковой системе», IEEE Internet Computing , vol. 2, нет. 4, стр. 24–29, июль/август. 1998, дои : 10.1109/4236.707687
^ Jump up to: Перейти обратно: ^а ^б «О: RankDex» , Rankdex.com
^ USPTO, «Система и метод поиска гипертекстовых документов» , номер патента США: 5920859, изобретатель: Яньхун Ли, дата подачи: 5 февраля 1997 г., дата выпуска: 6 июля 1999 г.
^ «Baidu против Google: сравнение близнецов поиска» . Четыре неделиMBA . 18 сентября 2018 года . Проверено 16 июня 2019 г.
^ Альтушер, Джеймс (18 марта 2011 г.). «10 необычных вещей о Google» . Форбс . Проверено 16 июня 2019 г.
^ Jump up to: Перейти обратно: ^а ^б «Метод ранжирования узлов в связанной базе данных» . Патенты Google. Архивировано из оригинала 15 октября 2015 года . Проверено 19 октября 2015 г.
^ «Сделка по международному распространению Yahoo! и Netscape Ink» (PDF) . Архивировано из оригинала (PDF) 16 ноября 2013 г. Проверено 12 августа 2009 г.
^ «Сделки по браузерам привели к росту акций Netscape на 7,8%» . Лос-Анджелес Таймс . 1 апреля 1996 года.
^ Гэндал, Нил (2001). «Динамика конкуренции на рынке интернет-поисковиков» . Международный журнал промышленной организации . 19 (7): 1103–1117. дои : 10.1016/S0167-7187(01)00065-0 .
^ «Наша история в глубине» . Архивировано из оригинала 1 ноября 2012 года . Проверено 31 октября 2012 г.
^ «Определение – поисковая система» . Техтаргет . Проверено 1 июня 2023 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж Джавадекар, Ваман С. (2011), «8. Управление знаниями: инструменты и технологии» , Управление знаниями: текст и примеры , Нью-Дели: Tata McGraw-Hill Education Private Ltd, стр. 278, ISBN 978-0-07-07-0086-4 , получено 23 ноября 2012 г.
^ Дасгупта, Анирбан; Гош, Арпита; Кумар, Рави; Олстон, Кристофер; Панди, Сандип; и Томкинс, Эндрю. Открытость Интернета . http://www.arpitaghosh.com/papers/discoverability.pdf
^ Янсен Б.Дж., Спинк А. и Сарацевич Т. 2000. Реальная жизнь, реальные пользователи и реальные потребности: исследование и анализ запросов пользователей в Интернете. Обработка информации и управление . 36(2), 207–227.
^ Читу, Алекс (30 августа 2007 г.). «Простой способ найти последние веб-страницы» . Операционная система Google . Проверено 22 февраля 2015 г.
^ "как работает поисковая система?" . ГФО = 26 июня 2018 г.
^ «Что такое локальное SEO и почему важен локальный поиск» . Журнал поисковых систем . Проверено 26 апреля 2020 г.
^ «Живой Интернет – Статистика сайта» . Живой Интернет . Проверено 4 июня 2014 г.
^ Артур, Чарльз (3 июня 2014 г.). «Китайские технологические компании готовы доминировать в мире» . Хранитель . Проверено 4 июня 2014 г.
^ «Как Naver вредит производительности компаний» . Уолл Стрит Джорнал . 21 мая 2014 г. Проверено 4 июня 2014 г.
^ «Эпоха интернет-империй» . Оксфордский Интернет-Институт . Проверено 15 августа 2019 г.
^ Уодделл, Каве (19 января 2016 г.). «Почему Google уходит из Китая и почему возвращается» . Атлантика . Проверено 26 апреля 2020 г.
^ Seznam берет на себя Google в Чешской Республике . Доз.
^ Сегев, Эль (2010). Google и цифровой разрыв: предвзятость онлайн-знаний , Оксфорд: издательство Chandos Publishing.
^ Jump up to: Перейти обратно: ^а ^б Воган, Ливен; Майк Телуолл (2004). «Предвзятость охвата поисковых систем: доказательства и возможные причины». Обработка информации и управление . 40 (4): 693–707. CiteSeerX 10.1.1.65.5130 . дои : 10.1016/S0306-4573(03)00063-3 . S2CID 18977861 .
^ Янсен, Б.Дж. и Ри, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации . Журнал Американского общества информационных наук и технологий. 61 (8), 1517–1534.
^ Центр Беркмана по Интернету и обществу (2002), «Замена Google альтернативными поисковыми системами в Китае: документация и снимки экрана» , Гарвардская школа права.
^ Интрона, Лукас; Хелен Ниссенбаум (2000). «Формирование Интернета: почему политика поисковых систем имеет значение». Информационное общество . 16 (3): 169–185. CiteSeerX 10.1.1.24.8051 . дои : 10.1080/01972240050133634 . S2CID 2111039 .
^ Хиллис, Кен; Пети, Майкл; Джарретт, Кайли (12 октября 2012 г.). Google и культура поиска . Рутледж. ISBN 9781136933066 .
^ Рейли, П. (1 января 2008 г.). « Террористы, гуглящие»: видны ли североирландские террористы в поисковых системах Интернета? В Спинке, профессор доктор Аманда; Циммер, Майкл (ред.). Веб-поиск . Информатика и управление знаниями. Том. 14. Шпрингер Берлин Гейдельберг. стр. 151–175. Бибкод : 2008wsis.book..151R . дои : 10.1007/978-3-540-75829-7_10 . ISBN 978-3-540-75828-0 . S2CID 84831583 .
^ Хироко Табути , « Как отрицатели изменения климата выходят на первое место в результатах поиска Google », The New York Times, 29 декабря 2017 г. Проверено 14 ноября 2018 г.
^ Баллаторе, А (2015). «Химические следы Google: методология анализа представления тем в поисковых системах» . Первый понедельник . 20 (7). дои : 10.5210/fm.v20i7.5597 .
^ Паризер, Эли (2011). Пузырь фильтров: что от вас скрывает Интернет . Нью-Йорк: Пингвин Пресс. ISBN 978-1-59420-300-8 . OCLC 682892628 .
^ О'Хара, К. (1 июля 2014 г.). «Поклоняясь эху» . IEEE Интернет-вычисления . 18 (4): 79–83. дои : 10.1109/MIC.2014.71 . ISSN 1089-7801 . S2CID 37860225 .
^ Jump up to: Перейти обратно: ^а ^б Брунс, Аксель (29 ноября 2019 г.). «Фильтр-пузырь» . Обзор интернет-политики . 8 (4). дои : 10.14763/2019.4.1426 . hdl : 10419/214088 . ISSN 2197-6775 . S2CID 211483210 .
^ Jump up to: Перейти обратно: ^а ^б Хаим, Марио; Грефе, Андреас; Брозиус, Ханс-Бернд (2018). «Взрыв пузыря фильтров?» . Цифровая журналистика . 6 (3): 330–343. дои : 10.1080/21670811.2017.1338145 . ISSN 2167-0811 . S2CID 168906316 .
^ Нечуштай, Ефрат; Льюис, Сет К. (2019). «Какими хранителями новостей мы хотим, чтобы машины были? Фильтруйте пузыри, фрагментацию и нормативные аспекты алгоритмических рекомендаций» . Компьютеры в поведении человека . 90 : 298–307. дои : 10.1016/j.chb.2018.07.043 . S2CID 53774351 .
^ «Новая одобренная исламом поисковая система для мусульман» . Новости.msn.com. Архивировано из оригинала 12 июля 2013 г. Проверено 11 июля 2013 г.
^ «Jewogle – Часто задаваемые вопросы» . Архивировано из оригинала 07 февраля 2019 г. Проверено 6 февраля 2019 г.
^ «Халяльгугл: мусульмане получают свой собственный «безгрешный» Google; должен ли христианин иметь христианский Google? - Христианский блог» . Христианский блог . 25 июля 2013 г. Архивировано из оригинала 13 сентября 2014 г. Проверено 13 сентября 2014 г.
^ Шварц, Барри (29 октября 2012 г.). «Google: Службы подачи заявок в поисковые системы могут быть вредными» . Круглый стол по поисковым системам . Проверено 4 апреля 2016 г.
^ Хейманн, Пол; Коутрика, Грузия; Гарсиа-Молина, Гектор (12 февраля 2008 г.). «Могут ли социальные закладки улучшить веб-поиск?» . Первая международная конференция ACM по веб-поиску и интеллектуальному анализу данных . Проверено 12 марта 2008 г.
^ Jump up to: Перейти обратно: ^а ^б Прити Шринивас Саджа; Раджендра Акеркар (2012). Интеллектуальные технологии для веб-приложений . Бока-Ратон: CRC Press. п. 87. ИСБН 978-1-4398-7162-1 . Проверено 3 июня 2014 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д «История поисковых систем» . Уайли . Проверено 1 июня 2014 г.
^ Прити Шринивас Саджа; Раджендра Акеркар (2012). Интеллектуальные технологии для веб-приложений . Бока-Ратон: CRC Press. п. 86. ИСБН 978-1-4398-7162-1 . Проверено 3 июня 2014 г.
^ «Основные поисковые системы» . 21 января 2014 года. Архивировано из оригинала 5 июня 2014 года . Проверено 1 июня 2014 г.
^ Янсен, Б. Дж., Спинк, А., Бейтман, Дж. и Сарацевич, Т. 1998. Поиск информации в реальной жизни: исследование пользовательских запросов в Интернете . Форум СИГИР, 32(1), 5–17.
^ Янсен Б.Дж., Спинк А. и Сарацевич Т. 2000. Реальная жизнь, реальные пользователи и реальные потребности: исследование и анализ запросов пользователей в Интернете . Обработка информации и управление. 36(2), 207–227.
^ Прити Шринивас Саджа; Раджендра Акеркар (2012). Интеллектуальные технологии для веб-приложений . Бока-Ратон: CRC Press. п. 85. ИСБН 978-1-4398-7162-1 . Проверено 3 июня 2014 г.
^ Ли, Цзинцзин; Ларсен, Кай; Аббаси, Ахмед (01 декабря 2020 г.). «TheoryOn: структура проектирования и система для раскрытия поведенческих знаний посредством обучения онтологии» . МИС Ежеквартально . 44 (4): 1733–1772. дои : 10.25300/MISQ/2020/15323 . S2CID 219401379 .

Дальнейшее чтение

Стив Лоуренс; К. Ли Джайлз (1999). «Доступность информации в сети» . Природа . 400 (6740): 107–9. Бибкод : 1999Natur.400..107L . дои : 10.1038/21987 . ПМИД 10428673 . S2CID 4347646 .
Бинг Лю (2007), Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании . Спрингер, ISBN 3-540-37881-2
Бар-Илан, Дж. (2004). Использование поисковых систем в Интернете в исследованиях в области информатики. АРИСТ, 38, 231–288.
Левен, Марк (2005). Введение в поисковые системы и веб-навигацию . Пирсон.
Хок, Рэндольф (2007). Справочник экстремального искателя . ISBN 978-0-910965-76-7
Джавед Мостафа (февраль 2005 г.). «В поисках лучшего поиска в Интернете». Научный американец . 292 (2): 66–73. Бибкод : 2005SciAm.292b..66M . doi : 10.1038/scientificamerican0205-66 .
Росс, Нэнси; Вольфрам, Дитмар (2000). «Поиск конечных пользователей в Интернете: анализ тем пар терминов, представленных в поисковой системе Excite». Журнал Американского общества информатики . 51 (10): 949–958. doi : 10.1002/1097-4571(2000)51:10<949::AID-ASI70>3.0.CO;2-5 .
Се, М.; и др. (1998). «Качество поисковых систем Интернета». Журнал информатики . 24 (5): 365–372. дои : 10.1177/016555159802400509 . S2CID 34686531 .
Поиск информации: внедрение и оценка поисковых систем . МТИ Пресс. 2010. Архивировано из оригинала 05 октября 2020 г. Проверено 7 августа 2010 г.
Йо, ШинДжон. (2023) За окном поиска: Google и глобальная интернет-индустрия (U of Illinois Press, 2023) ISBN 10: 0252087127 онлайн

Внешние ссылки

Поисковые системы в Curlie

[1] «Доля рынка поисковых систем во всем мире | StatCounter Global Stats» . СтатСчетчик . Проверено 19 февраля 2024 г.

[NMS-2] Jump up to: Перейти обратно: ^а ^б «Доля рынка поисковых систем в мире» . Подобные веб-лидеры поисковых систем . Проверено 19 февраля 2024 г.

[3] Буш, Ванневар (1 июля 1945 г.). «Как мы можем думать» . Атлантика . Архивировано из оригинала 22 августа 2012 г. Проверено 22 февраля 2024 г.

[4] «История поисковых систем.com» . www.searchenginehistory.com . Проверено 2 июля 2020 г.

[5] «Безопасный вход в WebAccess штата Пенсильвания» . webaccess.psu.edu . Архивировано из оригинала 22 января 2022 г. Проверено 2 июля 2020 г.

[6] Маркиори, Массимо (1997). «В поисках правильной информации в Интернете: гиперпоисковые системы» . Материалы шестой Международной конференции по всемирной паутине (WWW6) . Проверено 10 января 2021 г.

[AnatomyOfSearch-7] Jump up to: Перейти обратно: ^а ^б Брин, Сергей; Пейдж, Ларри (1998). «Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете» (PDF) . Материалы Седьмой Международной конференции по всемирной паутине (WWW7) . Архивировано из оригинала (PDF) 13 июля 2017 г. Проверено 10 января 2021 г.

[8] Харренстин, К.; Уайт, В. (1982). «RFC 812 — NICNAME/WHOIS» . Ietf Datatracker . дои : 10.17487/RFC0812 .

[9] «Программирование Knowbot: системная поддержка мобильных агентов» . cnri.reston.va.us .

[10] Дойч, Питер (11 сентября 1990 г.). «[следующий] Сервер Интернет-архивного сервера (было о Лиспе)» . groups.google.com . Проверено 29 декабря 2017 г.

[11] «Серверы всемирной паутины» . W3C . Проверено 14 мая 2012 г.

[12] «Что нового! Февраль 1994 года» . Коммуникационная корпорация Мозаик! . Проверено 14 мая 2012 г.

[LeidenUnivSE-13] Search Engine Watch (сентябрь 2001 г.). «Поисковые системы» . История Интернета . Нидерланды: Лейденский университет. Архивировано из оригинала 13 апреля 2009 г.

[2020/09/21pcmag-14] Jump up to: Перейти обратно: ^а ^б «Арчи» . PCMag . Проверено 20 сентября 2020 г.

[15] Александра Самуэль (21 февраля 2017 г.). «Познакомьтесь с Аланом Эмтейджем, черным технологом, который изобрел АРЧИ, первую поисковую систему в Интернете» . ИТАКА . Проверено 20 сентября 2020 г.

[16] цикл новостей Барбадоса. «Алан Эмтаж — барбадосец, которого вы должны знать» . Loopnewsbarbados.com. Архивировано из оригинала 23 сентября 2020 г. Проверено 21 сентября 2020 г.

[17] Дино Грандони, Алан Эмтаж (апрель 2013 г.). «Алан Эмтаж: человек, который изобрел первую в мире поисковую систему (но не запатентовал ее)» . huffingtonpost.co.uk . Проверено 21 сентября 2020 г.

[Announcement_html-18] Оскар Нирстраз (2 сентября 1993 г.). «Каталог WWW-ресурсов с возможностью поиска (экспериментальный)» .

[19] «Архив NCSA: что нового на странице декабря 1993 года» . 20 июня 2001 г. Архивировано из оригинала 20 июня 2001 г. Проверено 14 мая 2012 г.

[20] «Что такое первопроходец?» . Поиск директора по информационным технологиям . ТехТаржет . Сентябрь 2005 года . Проверено 5 сентября 2019 г.

[21] Оппитц, Маркус; Томсу, Питер (2017). Изобретая век облаков: как облачность продолжает менять нашу жизнь, экономику и технологии . Спрингер. п. 238. ИСБН 9783319611617 .

[22] «Yahoo! Поиск» . Yahoo! . 28 ноября 1996 года. Архивировано из оригинала 28 ноября 1996 года . Проверено 5 сентября 2019 г.

[23] Гринберг, Энди, «Человек, который побеждает Google» , журнал Forbes , 5 октября 2009 г.

[24] Яньхун Ли, «На пути к качественной поисковой системе», IEEE Internet Computing , vol. 2, нет. 4, стр. 24–29, июль/август. 1998, дои : 10.1109/4236.707687

[rankdex-25] Jump up to: Перейти обратно: ^а ^б «О: RankDex» , Rankdex.com

[26] USPTO, «Система и метод поиска гипертекстовых документов» , номер патента США: 5920859, изобретатель: Яньхун Ли, дата подачи: 5 февраля 1997 г., дата выпуска: 6 июля 1999 г.

[27] «Baidu против Google: сравнение близнецов поиска» . Четыре неделиMBA . 18 сентября 2018 года . Проверено 16 июня 2019 г.

[28] Альтушер, Джеймс (18 марта 2011 г.). «10 необычных вещей о Google» . Форбс . Проверено 16 июня 2019 г.

[patent-29] Jump up to: Перейти обратно: ^а ^б «Метод ранжирования узлов в связанной базе данных» . Патенты Google. Архивировано из оригинала 15 октября 2015 года . Проверено 19 октября 2015 г.

[30] «Сделка по международному распространению Yahoo! и Netscape Ink» (PDF) . Архивировано из оригинала (PDF) 16 ноября 2013 г. Проверено 12 августа 2009 г.

[31] «Сделки по браузерам привели к росту акций Netscape на 7,8%» . Лос-Анджелес Таймс . 1 апреля 1996 года.

[32] Гэндал, Нил (2001). «Динамика конкуренции на рынке интернет-поисковиков» . Международный журнал промышленной организации . 19 (7): 1103–1117. дои : 10.1016/S0167-7187(01)00065-0 .

[33] «Наша история в глубине» . Архивировано из оригинала 1 ноября 2012 года . Проверено 31 октября 2012 г.

[34] «Определение – поисковая система» . Техтаргет . Проверено 1 июня 2023 г.

[Jawadekar2011-35] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж Джавадекар, Ваман С. (2011), «8. Управление знаниями: инструменты и технологии» , Управление знаниями: текст и примеры , Нью-Дели: Tata McGraw-Hill Education Private Ltd, стр. 278, ISBN 978-0-07-07-0086-4 , получено 23 ноября 2012 г.

[36] Дасгупта, Анирбан; Гош, Арпита; Кумар, Рави; Олстон, Кристофер; Панди, Сандип; и Томкинс, Эндрю. Открытость Интернета . http://www.arpitaghosh.com/papers/discoverability.pdf

[37] Янсен Б.Дж., Спинк А. и Сарацевич Т. 2000. Реальная жизнь, реальные пользователи и реальные потребности: исследование и анализ запросов пользователей в Интернете. Обработка информации и управление . 36(2), 207–227.

[38] Читу, Алекс (30 августа 2007 г.). «Простой способ найти последние веб-страницы» . Операционная система Google . Проверено 22 февраля 2015 г.

[39] "как работает поисковая система?" . ГФО = 26 июня 2018 г.

[40] «Что такое локальное SEO и почему важен локальный поиск» . Журнал поисковых систем . Проверено 26 апреля 2020 г.

[41] «Живой Интернет – Статистика сайта» . Живой Интернет . Проверено 4 июня 2014 г.

[42] Артур, Чарльз (3 июня 2014 г.). «Китайские технологические компании готовы доминировать в мире» . Хранитель . Проверено 4 июня 2014 г.

[43] «Как Naver вредит производительности компаний» . Уолл Стрит Джорнал . 21 мая 2014 г. Проверено 4 июня 2014 г.

[44] «Эпоха интернет-империй» . Оксфордский Интернет-Институт . Проверено 15 августа 2019 г.

[45] Уодделл, Каве (19 января 2016 г.). «Почему Google уходит из Китая и почему возвращается» . Атлантика . Проверено 26 апреля 2020 г.

[46] Seznam берет на себя Google в Чешской Республике . Доз.

[47] Сегев, Эль (2010). Google и цифровой разрыв: предвзятость онлайн-знаний , Оксфорд: издательство Chandos Publishing.

[vaughan-thelwall-48] Jump up to: Перейти обратно: ^а ^б Воган, Ливен; Майк Телуолл (2004). «Предвзятость охвата поисковых систем: доказательства и возможные причины». Обработка информации и управление . 40 (4): 693–707. CiteSeerX 10.1.1.65.5130 . дои : 10.1016/S0306-4573(03)00063-3 . S2CID 18977861 .

[49] Янсен, Б.Дж. и Ри, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации . Журнал Американского общества информационных наук и технологий. 61 (8), 1517–1534.

[50] Центр Беркмана по Интернету и обществу (2002), «Замена Google альтернативными поисковыми системами в Китае: документация и снимки экрана» , Гарвардская школа права.

[51] Интрона, Лукас; Хелен Ниссенбаум (2000). «Формирование Интернета: почему политика поисковых систем имеет значение». Информационное общество . 16 (3): 169–185. CiteSeerX 10.1.1.24.8051 . дои : 10.1080/01972240050133634 . S2CID 2111039 .

[52] Хиллис, Кен; Пети, Майкл; Джарретт, Кайли (12 октября 2012 г.). Google и культура поиска . Рутледж. ISBN 9781136933066 .

[53] Рейли, П. (1 января 2008 г.). « Террористы, гуглящие»: видны ли североирландские террористы в поисковых системах Интернета? В Спинке, профессор доктор Аманда; Циммер, Майкл (ред.). Веб-поиск . Информатика и управление знаниями. Том. 14. Шпрингер Берлин Гейдельберг. стр. 151–175. Бибкод : 2008wsis.book..151R . дои : 10.1007/978-3-540-75829-7_10 . ISBN 978-3-540-75828-0 . S2CID 84831583 .

[54] Хироко Табути , « Как отрицатели изменения климата выходят на первое место в результатах поиска Google », The New York Times, 29 декабря 2017 г. Проверено 14 ноября 2018 г.

[55] Баллаторе, А (2015). «Химические следы Google: методология анализа представления тем в поисковых системах» . Первый понедельник . 20 (7). дои : 10.5210/fm.v20i7.5597 .

[56] Паризер, Эли (2011). Пузырь фильтров: что от вас скрывает Интернет . Нью-Йорк: Пингвин Пресс. ISBN 978-1-59420-300-8 . OCLC 682892628 .

[57] О'Хара, К. (1 июля 2014 г.). «Поклоняясь эху» . IEEE Интернет-вычисления . 18 (4): 79–83. дои : 10.1109/MIC.2014.71 . ISSN 1089-7801 . S2CID 37860225 .

[:0-58] Jump up to: Перейти обратно: ^а ^б Брунс, Аксель (29 ноября 2019 г.). «Фильтр-пузырь» . Обзор интернет-политики . 8 (4). дои : 10.14763/2019.4.1426 . hdl : 10419/214088 . ISSN 2197-6775 . S2CID 211483210 .

[:1-59] Jump up to: Перейти обратно: ^а ^б Хаим, Марио; Грефе, Андреас; Брозиус, Ханс-Бернд (2018). «Взрыв пузыря фильтров?» . Цифровая журналистика . 6 (3): 330–343. дои : 10.1080/21670811.2017.1338145 . ISSN 2167-0811 . S2CID 168906316 .

[60] Нечуштай, Ефрат; Льюис, Сет К. (2019). «Какими хранителями новостей мы хотим, чтобы машины были? Фильтруйте пузыри, фрагментацию и нормативные аспекты алгоритмических рекомендаций» . Компьютеры в поведении человека . 90 : 298–307. дои : 10.1016/j.chb.2018.07.043 . S2CID 53774351 .

[61] «Новая одобренная исламом поисковая система для мусульман» . Новости.msn.com. Архивировано из оригинала 12 июля 2013 г. Проверено 11 июля 2013 г.

[62] «Jewogle – Часто задаваемые вопросы» . Архивировано из оригинала 07 февраля 2019 г. Проверено 6 февраля 2019 г.

[63] «Халяльгугл: мусульмане получают свой собственный «безгрешный» Google; должен ли христианин иметь христианский Google? - Христианский блог» . Христианский блог . 25 июля 2013 г. Архивировано из оригинала 13 сентября 2014 г. Проверено 13 сентября 2014 г.

[CanBeHarmful-64] Шварц, Барри (29 октября 2012 г.). «Google: Службы подачи заявок в поисковые системы могут быть вредными» . Круглый стол по поисковым системам . Проверено 4 апреля 2016 г.

[acm-bookmarking-65] Хейманн, Пол; Коутрика, Грузия; Гарсиа-Молина, Гектор (12 февраля 2008 г.). «Могут ли социальные закладки улучшить веб-поиск?» . Первая международная конференция ACM по веб-поиску и интеллектуальному анализу данных . Проверено 12 марта 2008 г.

[intelligent-technologies-66] Jump up to: Перейти обратно: ^а ^б Прити Шринивас Саджа; Раджендра Акеркар (2012). Интеллектуальные технологии для веб-приложений . Бока-Ратон: CRC Press. п. 87. ИСБН 978-1-4398-7162-1 . Проверено 3 июня 2014 г.

[wileyhistory-67] Jump up to: Перейти обратно: ^а ^б ^с ^д «История поисковых систем» . Уайли . Проверено 1 июня 2014 г.

[68] Прити Шринивас Саджа; Раджендра Акеркар (2012). Интеллектуальные технологии для веб-приложений . Бока-Ратон: CRC Press. п. 86. ИСБН 978-1-4398-7162-1 . Проверено 3 июня 2014 г.

[69] «Основные поисковые системы» . 21 января 2014 года. Архивировано из оригинала 5 июня 2014 года . Проверено 1 июня 2014 г.

[70] Янсен, Б. Дж., Спинк, А., Бейтман, Дж. и Сарацевич, Т. 1998. Поиск информации в реальной жизни: исследование пользовательских запросов в Интернете . Форум СИГИР, 32(1), 5–17.

[71] Янсен Б.Дж., Спинк А. и Сарацевич Т. 2000. Реальная жизнь, реальные пользователи и реальные потребности: исследование и анализ запросов пользователей в Интернете . Обработка информации и управление. 36(2), 207–227.

[72] Прити Шринивас Саджа; Раджендра Акеркар (2012). Интеллектуальные технологии для веб-приложений . Бока-Ратон: CRC Press. п. 85. ИСБН 978-1-4398-7162-1 . Проверено 3 июня 2014 г.

[73] Ли, Цзинцзин; Ларсен, Кай; Аббаси, Ахмед (01 декабря 2020 г.). «TheoryOn: структура проектирования и система для раскрытия поведенческих знаний посредством обучения онтологии» . МИС Ежеквартально . 44 (4): 1733–1772. дои : 10.25300/MISQ/2020/15323 . S2CID 219401379 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

v т и Интернет-поиск
Types	Web search engine (List) Metasearch engine Multimedia search Collaborative search engine Cross-language search Local search Vertical search Social search Image search Audio search Video search engine Enterprise search Semantic search Natural language search engine Voice search
Tools	Cross-language information retrieval Search by sound Search engine marketing Search engine optimization Evaluation measures Search oriented architecture Selection-based search Document retrieval Text mining Web crawler Multisearch Federated search Search aggregator Index/Web indexing Focused crawler Spider trap Robots exclusion standard Distributed web crawling Web archiving Website mirroring software Web query Web query classification
Protocols and standards	Z39.50 Search/Retrieve Web Service Search/Retrieve via URL OpenSearch Representational State Transfer Wide area information server
See also	Search engine Desktop search Online search