Jump to content

Поисковая система (компьютерная)

(Перенаправлено из поиска по ключевым словам )

В вычислительной технике поисковая система это программная система поиска информации, предназначенная для помощи в поиске информации, хранящейся в одной или нескольких компьютерных системах . Поисковые системы обнаруживают, сканируют, преобразуют и сохраняют информацию для поиска и представления в ответ на запросы пользователей. Результаты поиска обычно представлены в виде списка и обычно называются хитами . Наиболее широко используемым типом поисковой системы является веб-поисковик , который осуществляет поиск информации во Всемирной паутине .

Поисковая система обычно состоит из четырех компонентов: поискового интерфейса, сканера (также известного как паук или бот), индексатора и базы данных. Сканер просматривает коллекцию документов, деконструирует текст документа и назначает суррогаты для хранения в индексе поисковой системы. Поисковые системы онлайн хранят изображения, данные ссылок и метаданные документа.

Как работают поисковые системы

[ редактировать ]

Поисковые системы предоставляют интерфейс для группы элементов, который позволяет пользователям указывать критерии интересующего элемента и заставлять систему находить соответствующие элементы. Критерии называются поисковым запросом . В случае текстовых поисковых систем поисковый запрос обычно выражается как набор слов, которые идентифицируют желаемую концепцию , которую может содержать один или несколько документов . [1] Существует несколько стилей синтаксиса поисковых запросов , которые различаются по строгости. Он также может переключать имена в поисковых системах с предыдущих сайтов. В то время как некоторые системы текстового поиска требуют от пользователей ввода двух или трех слов, разделенных пробелами , другие поисковые системы могут позволять пользователям указывать целые документы, изображения, звуки и различные формы естественного языка . Некоторые поисковые системы вносят улучшения в поисковые запросы, чтобы повысить вероятность предоставления качественного набора элементов посредством процесса, известного как расширение запроса . Методы понимания запросов могут использоваться в качестве стандартизированного языка запросов.

Индексная поисковая система

Список элементов, соответствующих критериям, указанным в запросе, обычно сортируется или ранжируется. Ранжирование элементов по релевантности (от самого высокого к самому низкому) сокращает время, необходимое для поиска нужной информации. Вероятностные поисковые системы ранжируют элементы на основе показателей сходства (между каждым элементом и запросом, обычно по шкале от 1 до 0, где 1 соответствует наиболее близкому сходству), а иногда и популярности или авторитета (см. Библиометрия ) или используют обратную связь по релевантности . Логические поисковые системы обычно возвращают только те элементы, которые точно совпадают, независимо от порядка, хотя термин «логическая поисковая система» может просто относиться к использованию логического синтаксиса (использование операторов AND , OR , NOT и XOR ) в вероятностном контексте. .

Чтобы быстро предоставить набор совпадающих элементов, которые быстро сортируются по некоторым критериям, поисковая система обычно заранее собирает метаданные о группе рассматриваемых элементов с помощью процесса, называемого индексированием . Индекс обычно требует меньшего объема памяти компьютера , поэтому некоторые поисковые системы хранят только индексированную информацию, а не полное содержимое каждого элемента, и вместо этого предоставляют метод навигации к элементам на странице результатов поисковой системы . В качестве альтернативы поисковая система может хранить копию каждого элемента в кэше , чтобы пользователи могли видеть состояние элемента на момент его индексации или в целях архивирования, или чтобы повторяющиеся процессы работали более эффективно и быстро. [2]

Другие типы поисковых систем не хранят индекс. Краулер или поисковые системы типа «паук» (поисковые системы реального времени) могут собирать и оценивать элементы во время поискового запроса, динамически рассматривая дополнительные элементы на основе содержимого начального элемента (известного как начальное значение или начальный URL-адрес в случай с интернет-сканером). Метапоисковые системы не хранят ни индекс, ни кеш, а вместо этого просто повторно используют индекс или результаты одной или нескольких других поисковых систем для предоставления агрегированного окончательного набора результатов.

Размер базы данных, который был важной маркетинговой особенностью в начале 2000-х годов, также был заменен акцентом на ранжировании по релевантности — методе, с помощью которого поисковые системы пытаются сначала отсортировать лучшие результаты. Рейтинг релевантности впервые стал серьезной проблемой c. 1996 г. , когда стало очевидно, что рассматривать полные списки результатов нецелесообразно. Следовательно, алгоритмы ранжирования релевантности постоянно совершенствуются. Метод Google PageRank для упорядочивания результатов получил наибольшее распространение в прессе, но все основные поисковые системы постоянно совершенствуют свои методологии ранжирования с целью улучшения порядка результатов. По состоянию на 2006 год рейтинг в поисковых системах стал более важным, чем когда-либо, настолько, что возникла отрасль (« оптимизаторы поисковых систем », или «SEO»), помогающая веб-разработчикам улучшить свой рейтинг в поисковых системах, а также целый ряд прецедентного права. развивалась вокруг вопросов, влияющих на рейтинг в поисковых системах, таких как использование товарных знаков в метатегах . Продажа поисковых рейтингов некоторыми поисковыми системами также вызвала разногласия среди библиотекарей и защитников прав потребителей. [3]

«Панель знаний» Google. Именно так информация из Knowledge Graph представляется пользователям.

Опыт поисковых систем для пользователей продолжает улучшаться. Добавление компанией Google Google Knowledge Graph имело более широкие последствия для Интернета, возможно, даже ограничивая трафик определенных веб-сайтов, например Википедии. Некоторые утверждают, что получение информации и ее размещение на странице Google может негативно повлиять на другие сайты. Однако серьезных опасений не возникло. [4]

Категории поисковых систем

[ редактировать ]

Поисковые системы в Интернете

[ редактировать ]

Поисковые системы, специально предназначенные для поиска веб-страниц, документов и изображений, были разработаны для облегчения поиска в большом, туманном скоплении неструктурированных ресурсов. Они спроектированы так, чтобы следовать многоэтапному процессу: сканировать бесконечные запасы страниц и документов, чтобы снять образную пену с их содержания, индексировать пену/модные словечки в своего рода полуструктурированной форме (база данных или что-то в этом роде) и, наконец, , разрешая записи/запросы пользователей, чтобы возвращать наиболее релевантные результаты и ссылки на просматриваемые документы или страницы из реестра.

В случае полностью текстового поиска первым шагом в классификации веб-страниц является поиск «элемента индекса», который может явно относиться к «поисковому термину». Раньше поисковые системы начинали с небольшого списка URL-адресов в качестве так называемого начального списка, извлекали контент и анализировали ссылки на этих страницах на наличие соответствующей информации, которая впоследствии предоставляла новые ссылки. Этот процесс был очень цикличным и продолжался до тех пор, пока не было найдено достаточно страниц для использования поисковиком.В наши дни используется метод непрерывного сканирования, а не случайное обнаружение на основе исходного списка. Метод сканирования является расширением вышеупомянутого метода обнаружения.

Большинство поисковых систем используют сложные алгоритмы планирования, чтобы «решить», когда следует повторно посетить определенную страницу, чтобы привлечь внимание к ее релевантности. Эти алгоритмы варьируются от постоянного интервала посещения с более высоким приоритетом для более часто меняющихся страниц до адаптивного интервала посещения, основанного на нескольких критериях, таких как частота изменений, популярность и общее качество сайта. Также учитываются скорость веб-сервера, на котором работает страница, а также ограничения ресурсов, такие как количество оборудования или пропускная способность.

[ редактировать ]

Страницы, обнаруженные при сканировании веб-страниц, часто распространяются и передаются на другой компьютер, который создает карту обнаруженных ресурсов. Громкая кластерная масса немного похожа на граф, на котором различные страницы представлены в виде небольших узлов, соединенных ссылками между страницами. Избыток данных хранится в нескольких структурах данных, которые обеспечивают быстрый доступ к указанным данным с помощью определенных алгоритмов, которые вычисляют рейтинг популярности страниц в Интернете на основе того, сколько ссылок указывают на определенную веб-страницу, и именно так люди могут получить доступ к любому количеству ресурсов, связанных с диагностикой психоза. Другим примером может служить доступность/рейтинг веб-страниц, содержащих информацию о Мухаммеде Мурси, по сравнению с лучшими достопримечательностями Каира, которые стоит посетить, после простого ввода слова «Египет» в качестве поискового запроса. Один из таких алгоритмов, PageRank , предложенный основателями Google Ларри Пейджем и Сергеем Брином, хорошо известен и привлек большое внимание, поскольку он подчеркивает повторяющуюся обыденность веб-поиска со стороны студентов, которые не знают, как правильно исследовать предметы в Google.

Идея анализа ссылок для расчета рейтинга популярности старше, чем PageRank. Однако в октябре 2014 года Джон Мюллер из Google подтвердил, что Google не собирается обновлять его (рейтинг страницы) в будущем. В настоящее время используются и другие варианты той же идеи: школьники выполняют такие же вычисления, выбирая команды по кикболу. Эти идеи можно разделить на три основные категории: рейтинг отдельных страниц и характер контента веб-сайта. Поисковые системы часто различают внутренние ссылки и внешние ссылки, поскольку создателям веб-контента не чужды бесстыдная самореклама. Структуры данных карты ссылок обычно также хранят текст привязки, встроенный в ссылки, поскольку текст привязки часто может обеспечить «очень хорошее качество» сводки содержимого веб-страницы.

Поисковые системы баз данных

[ редактировать ]

Поиск текстового контента в базах данных представляет собой несколько особых проблем, благодаря которым процветает ряд специализированных поисковых систем. Базы данных могут работать медленно при решении сложных запросов (с несколькими логическими или строковыми аргументами). Базы данных допускают псевдологические запросы, которые не используются при полнотекстовом поиске. Для базы данных сканирование не требуется, поскольку данные уже структурированы. Однако часто бывает необходимо индексировать данные в более экономичной форме, чтобы обеспечить более быстрый поиск.

Смешанные поисковые системы

[ редактировать ]

Иногда искомые данные содержат как содержимое базы данных, так и веб-страницы или документы. Технология поисковых систем была разработана с учетом обоих наборов требований. Большинство смешанных поисковых систем — это крупные поисковые системы, такие как Google. Они осуществляют поиск как по структурированным, так и по неструктурированным источникам данных . Возьмем, к примеру, слово «мяч». Проще говоря, он возвращает более 40 вариантов одной только Википедии. Вы имели в виду бал, например, собрание/танец? Футбольный мяч? Подушечка стопы? Страницы и документы сканируются и индексируются в отдельном индексе. Базы данных индексируются также из различных источников. Затем результаты поиска генерируются для пользователей путем параллельного запроса этих нескольких индексов и объединения результатов в соответствии с «правилами».

История поисковых технологий

[ редактировать ]

Концепция гипертекста и расширения памяти берет свое начало из статьи , опубликованной в The Atlantic Monthly в июле 1945 года Ванневара Буша и озаглавленной « Как мы можем думать ». В этой статье Ванневар призвал ученых работать вместе, чтобы помочь создать совокупность знаний для всего человечества. Затем он предложил идею практически безграничной, быстрой, надежной, расширяемой, ассоциативной системы хранения и поиска информации в памяти. Он назвал это устройство мемексом . [5]

Буш считал идею «ассоциативной индексации» своим ключевым концептуальным вкладом. Как он пояснил, это «положение, согласно которому любой элемент может по своему желанию немедленно и автоматически выбрать другой. Это основная особенность мемекса. Очень важен процесс соединения двух предметов вместе. [6]

Все документы, используемые в мемексе, будут иметь форму микрофильмов, приобретенных как таковые, или, в случае личных записей, преобразованных в микрофильмы самой машиной. Memex также будет использовать новые методы поиска, основанные на новом виде ассоциативного индексирования, основная идея которого заключается в том, что любой элемент может по своему желанию немедленно и автоматически выбирать другой для создания личных «следов» через связанные документы. Новые процедуры, которые, как ожидал Буш, облегчат хранение и поиск информации, приведут к разработке совершенно новых форм энциклопедии.

Важнейшим механизмом, задуманным Бушем, является ассоциативный след. Это был бы способ создать новую линейную последовательность кадров микрофильма в любой произвольной последовательности кадров микрофильма путем создания цепочки ссылок только что описанным способом вместе с личными комментариями и побочными следами.

В 1965 году Буш принял участие в проекте INTREX Массачусетского технологического института по разработке технологии механизации обработки информации для библиотечного использования. В своем эссе 1967 года под названием «Возвращение к Memex» он отметил, что развитие цифрового компьютера, транзистора, видео и других подобных устройств повысило осуществимость такой механизации, но затраты задержат ее достижение. [7]

Джерард Солтон, умерший 28 августа 1995 года, был отцом современной поисковой технологии. Его команды в Гарварде и Корнелле разработали информационно-поисковую систему SMART. Волшебный автоматический поиск текста Солтона включал в себя такие важные концепции, как модель векторного пространства , обратная частота документа (IDF), частота терминов (TF), значения дискриминации терминов и механизмы обратной связи по релевантности.

Он написал 56-страничную книгу под названием «Теория индексирования» , в которой объяснил многие из своих тестов, на которых до сих пор во многом основан поиск.

Строковые поисковые системы

[ редактировать ]

В 1987 году была опубликована статья, в которой подробно описывалась разработка системы поиска символьных строк (SSE) для быстрого поиска текста на двухметаллической твердотельной КМОП-схеме с n-лунками толщиной 1,6 мкм и 217 600 транзисторами, расположенной на пластине размером 8,62x12,76. - мм площадь матрицы. В SSE реализована новая архитектура поиска строк, которая сочетает в себе 512-ступенчатую логику конечного автомата (FSA) с адресуемой по содержимому памятью (CAM) для достижения приблизительного сравнения строк со скоростью 80 миллионов строк в секунду. Ячейка CAM состояла из четырех обычных ячеек статического ОЗУ (SRAM) и схемы чтения/записи. Одновременное сравнение 64 сохраненных строк переменной длины было достигнуто за 50 нс для входного текстового потока со скоростью 10 миллионов символов/с, что позволило обеспечить производительность, несмотря на наличие ошибок в виде отдельных символов в виде кодов символов. Кроме того, чип позволял осуществлять поиск строк без привязки и поиск строк переменной длины (VLDC). [8]

См. также

[ редактировать ]

По источнику

[ редактировать ]

По типу контента

[ редактировать ]

По интерфейсу

[ редактировать ]
  1. ^ Вурхис, EM Обработка естественного языка и поиск информации [ постоянная мертвая ссылка ] . Национальный институт стандартов и технологий. Март 2000 года.
  2. ^ «Основы Интернета: использование поисковых систем» . GCFGlobal.org . Проверено 11 июля 2022 г.
  3. ^ Стросс, Рэндалл (22 сентября 2009 г.). Планета Google: смелый план одной компании по организации всего, что мы знаем . Саймон и Шустер. ISBN  978-1-4165-4696-2 . Проверено 9 декабря 2012 года .
  4. ^ «Что мы делаем с падением посещаемости Википедии?» . Ежедневная точка . 8 января 2014 г. Проверено 1 ноября 2020 г.
  5. ^ Йео, Ричард (30 января 2007 г.). «До Memex: Роберт Гук, Джон Локк и Ванневар Буш о внешней памяти». Наука в контексте . 20 (1): 21. дои : 10.1017/S0269889706001128 . hdl : 10072/15207 . S2CID   2378301 .
  6. ^ Йео, Ричард (30 января 2007 г.). «До Memex: Роберт Гук, Джон Локк и Ванневар Буш о внешней памяти». Наука в контексте . 20 (1): 21–47. дои : 10.1017/S0269889706001128 . hdl : 10072/15207 . S2CID   2378301 Пример, который приводит Буш, представляет собой попытку найти информацию об относительных достоинствах турецкого короткого лука и английского длинного лука в крестовых походах. {{cite journal}}: CS1 maint: постскриптум ( ссылка )
  7. ^ «MEMEX Ванневара Буша» . 4 января 2021 года. Архивировано из оригинала 7 января 2021 года . Проверено 12 августа 2023 г.
  8. ^ Ямада, Х.; Хирата, М.; Нагай, Х.; Такахаши, К. (октябрь 1987 г.). «Высокоскоростная строковая поисковая машина». Журнал IEEE твердотельных схем . 22 (5). ИИЭР: 829–834. Бибкод : 1987IJSSC..22..829Y . дои : 10.1109/JSSC.1987.1052819 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 23083fdf0759eb5bf724679c732c2a32__1720712100
URL1:https://arc.ask3.ru/arc/aa/23/32/23083fdf0759eb5bf724679c732c2a32.html
Заголовок, (Title) документа по адресу, URL1:
Search engine (computing) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)