Jump to content

Метапоисковые системы

(Перенаправлено из метапоисковых систем )
Архитектура метапоисковой системы

Метапоисковая система (или поисковый агрегатор ) — это онлайн- инструмент поиска информации , который использует данные веб-поисковой системы для получения собственных результатов. [1] [2] Метапоисковые системы принимают данные пользователя и немедленно отправляют запрос поисковым системам. [3] для результатов. Собирается достаточное количество данных , ранжируется и представляется пользователям.

Такие проблемы, как рассылка спама, снижают точность и достоверность результатов. [4] Процесс слияния направлен на улучшение разработки метапоисковой системы. [5]

Примеры метапоисковых систем включают Skyscanner и Kayak.com , которые объединяют результаты поиска онлайн-турагентств и веб-сайтов поставщиков, а также Searx , бесплатную поисковую систему с открытым исходным кодом , которая объединяет результаты поисковых систем Интернета.

Первым, кто внедрил идею метапоиска, был Дэниел Драйлингер из Университета штата Колорадо . Он разработал SearchSavvy, который позволяет пользователям осуществлять поиск в 20 различных поисковых системах и каталогах одновременно. Несмотря на свою скорость, поисковая система была ограничена простым поиском и поэтому не была надежной. Студент Вашингтонского университета Эрик Сельберг выпустил более «обновленную» версию под названием MetaCrawler . Эта поисковая система улучшила точность SearchSavvy, добавив собственный синтаксис поиска и сопоставив его с синтаксисом поисковых систем, которые она проверяла. Metacrawler сократил количество запросов к поисковым системам до 6, но, хотя он давал более точные результаты, он все равно не считался таким же точным, как поиск по запросу в отдельной системе. [6]

20 мая 1996 года HotBot , тогда принадлежавший Wired , представлял собой поисковую систему, результаты поиска которой поступали из баз данных Inktomi и Direct Hit. Он был известен своими быстрыми результатами и поисковой системой с возможностью поиска в результатах поиска. После покупки Lycos в 1998 году развитие поисковой системы застопорилось, и ее доля на рынке резко упала. После внесения нескольких изменений дизайн HotBot был преобразован в упрощенный интерфейс поиска, а его функции были включены в редизайн веб-сайта Lycos. [7]

Метапоисковая система под названием Anvish была разработана Бо Шу и Субхашем Как в 1999 году; результаты поиска сортировались с помощью мгновенно обучаемых нейронных сетей . [8] Позже это было включено в другую метапоисковую систему под названием Solosearch. [9]

В августе 2000 года в Индии появилась первая метапоисковая система, когда был запущен HumHaiIndia.com. [10] Его разработал тогдашний 16-летний Сумит Ламба. [11] Позже сайт был переименован в Tazaa.com. [12]

Ixquick  — поисковая система, известная своей политикой конфиденциальности. Разработанный и запущенный в 1998 году Дэвидом Бодником, он принадлежит Surfboard Holding BV. В июне 2006 года Ixquick начал удалять личные данные своих пользователей, следуя той же процедуре, что и Scroogle . Политика конфиденциальности Ixquick не предусматривает никаких записей IP-адресов пользователей, идентификационных файлов cookie, сбора личных данных и передачи личных данных третьим лицам. [13] Он также использует уникальную систему ранжирования, в которой результат оценивается по звездам. Чем больше звезд в результате, тем больше поисковых систем согласны с ним.

В апреле 2005 года компания Dogpile , которая тогда принадлежала и управлялась InfoSpace , Inc., в сотрудничестве с исследователями из Университета Питтсбурга и Университета штата Пенсильвания, чтобы измерить совпадение и различия в ранжировании ведущих поисковых систем в Интернете, чтобы оценить преимущества использования метапоиска. движок для поиска в сети. что из 10 316 случайных пользовательских запросов из Google Yahoo! Результаты показали , и Ask Jeeves , только 3,2% результатов поиска на первой странице были одинаковыми в этих поисковых системах по данному запросу. Другое исследование, проведенное позднее в том же году, использовало 12 570 случайных пользовательских запросов из Google , Yahoo! , MSN Search и Ask Jeeves обнаружили, что только 1,1% результатов поиска на первой странице были одинаковыми в этих поисковых системах по данному запросу. [14]

Преимущества

[ редактировать ]

Отправка нескольких запросов в несколько других поисковых систем расширяет охват данных по теме и позволяет найти больше информации. Они используют индексы, созданные другими поисковыми системами, агрегируя и часто обрабатывая результаты уникальными способами. Метапоисковая система имеет преимущество перед одиночной поисковой системой, поскольку можно получить больше результатов при тех же усилиях. [2] Это также избавляет пользователей от необходимости индивидуально вводить поисковые запросы из разных систем для поиска ресурсов. [2]

Метапоиск также является полезным подходом, если цель поиска пользователя — получить обзор темы или получить быстрые ответы. Вместо того, чтобы проходить через несколько поисковых систем, таких как Yahoo! или Google и сравнивая результаты, метапоисковые системы способны быстро компилировать и объединять результаты. Они могут сделать это либо путем перечисления результатов каждого запрошенного механизма без дополнительной постобработки (Dogpile), либо путем анализа результатов и ранжирования их по своим собственным правилам (IxQuick, Metacrawler и Vivismo).

Метапоисковая система также может скрывать IP-адрес искателя от запрашиваемых поисковых систем, обеспечивая тем самым конфиденциальность поиска.

Недостатки

[ редактировать ]

Метапоисковые системы не способны анализировать формы запросов или полностью переводить синтаксис запросов . Количество гиперссылок, генерируемых метапоисковиками, ограничено и поэтому не предоставляет пользователю полные результаты запроса. [15]

Большинство метапоисковых систем не предоставляют более десяти связанных файлов из одной поисковой системы и, как правило, не взаимодействуют с более крупными поисковыми системами для получения результатов. Ссылки с оплатой за клик имеют приоритет и обычно отображаются первыми. [16]

Метапоиск также создает иллюзию большего охвата запрашиваемой темы, особенно если пользователь ищет популярную или банальную информацию. Обычно в результате от запрошенных механизмов выдается несколько одинаковых результатов. Пользователям также сложнее выполнять поиск с использованием синтаксиса расширенного поиска, который будет отправлен вместе с запросом, поэтому результаты могут быть не такими точными, как когда пользователь использует интерфейс расширенного поиска в конкретной системе. Это приводит к тому, что многие метапоисковые системы используют простой поиск. [17]

Операция

[ редактировать ]

один поисковый запрос Метапоисковая система принимает от пользователя . Этот поисковый запрос затем передается в базу данных другой поисковой системы . Метапоисковая система не создает базу данных веб-страниц , а создает систему объединенных баз данных для интеграции данных из нескольких источников. [18] [19] [20]

Поскольку каждая поисковая система уникальна и имеет разные алгоритмы генерации ранжированных данных, поэтому также будут создаваться дубликаты. Для удаления дубликатов метапоисковик обрабатывает эти данные и применяет собственный алгоритм. Пересмотренный список создается в качестве вывода для пользователя. [ нужна ссылка ] Когда метапоисковая система связывается с другими поисковыми системами, эти поисковые системы реагируют тремя способами:

  • Они будут сотрудничать и предоставлять полный доступ к интерфейсу метапоисковой системы, включая частный доступ к базе данных индексов, а также информировать метапоисковую систему о любых изменениях, внесенных в базу данных индексов;
  • Поисковые системы могут вести себя несотрудничающе: они не будут отказывать или предоставлять доступ к интерфейсам;
  • Поисковая система может быть полностью враждебной и отказать метапоисковой системе в полном доступе к своей базе данных, а в серьезных обстоятельствах - путем поиска законных методов. [21]

Архитектура ранжирования

[ редактировать ]

Веб-страницы, которые высоко оцениваются во многих поисковых системах, вероятно, будут более релевантными для предоставления полезной информации. [21] Однако все поисковые системы имеют разные оценки рейтинга для каждого веб-сайта, и в большинстве случаев эти оценки не одинаковы. Это связано с тем, что поисковые системы отдают приоритет различным критериям и методам оценки, поэтому веб-сайт может иметь высокий рейтинг в одной поисковой системе и низкий рейтинг в другой. Это проблема, поскольку метапоисковые системы в значительной степени полагаются на согласованность этих данных для создания надежных учетных записей. [21]

Модель объединения данных

Метапоисковая система использует процесс Fusion для фильтрации данных для получения более эффективных результатов. Два основных используемых метода объединения: объединение коллекций и объединение данных.

  • Collection Fusion: также известный как распределенный поиск, касается исключительно поисковых систем, индексирующих несвязанные данные. Чтобы определить, насколько ценны эти источники, Collection Fusion просматривает контент, а затем ранжирует данные о том, насколько вероятно, что он предоставит релевантную информацию в отношении запроса. Из того, что генерируется, Collection Fusion может выбрать лучшие ресурсы из ранга. Эти выбранные ресурсы затем объединяются в список. [21]
  • Data Fusion: имеет дело с информацией, полученной из поисковых систем, которая индексирует общие наборы данных. Процесс очень похож. Исходные ранговые оценки данных объединяются в единый список, после чего анализируются исходные ранги каждого из этих документов. Данные с высокими оценками указывают на высокий уровень релевантности конкретному запросу и поэтому отбираются. Чтобы составить список, оценки необходимо нормализовать с помощью таких алгоритмов, как CombSum. Это связано с тем, что поисковые системы применяют разные политики алгоритмов, в результате чего полученные оценки становятся несравнимыми. [22] [23]

Спамдексинг

[ редактировать ]

Спамдексирование – это преднамеренное манипулирование индексами поисковых систем. Он использует ряд методов для манипулирования релевантностью или известностью ресурсов, индексированных способом, не соответствующим намерениям системы индексирования. Спамдексирование может быть очень неприятным для пользователей и проблематичным для поисковых систем, поскольку возвращаемое содержимое результатов поиска имеет низкую точность. [ нужна ссылка ] В конечном итоге это приведет к тому, что поисковая система станет ненадежной и ненадежной для пользователя. Для борьбы со спамдексированием алгоритмы поисковых роботов усложняются и изменяются почти каждый день, чтобы устранить проблему. [24]

Это серьезная проблема для метапоисковых систем, поскольку она вмешивается в критерии индексирования веб-сканера , на которые в значительной степени полагаются при форматировании списков ранжирования. Спамдексирование манипулирует естественной системой ранжирования поисковой системы и размещает веб-сайты в рейтинге выше, чем они могли бы быть размещены естественным путем. [25] Для этого используются три основных метода:

Контентный спам

[ редактировать ]

Контентный спам — это методы, которые изменяют логическое представление, которое поисковая система имеет о содержимом страницы. Методы включают в себя:

  • Наполнение ключевыми словами — рассчитанное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы.
  • Скрытый/невидимый текст — несвязанный текст, замаскированный путем придания ему того же цвета, что и фон, с использованием крошечного размера шрифта или сокрытия его в HTML-коде.
  • Наполнение метатегами — повторение ключевых слов в метатегах и/или использование ключевых слов, не связанных с содержимым сайта.
  • Дорвейные страницы — веб-страницы низкого качества с небольшим содержанием, но релевантными ключевыми словами или фразами.
  • Сайты-скребки — программы, которые позволяют веб-сайтам копировать контент с других веб-сайтов и создавать контент для веб-сайта.
  • Раскрутка статей — переписывание существующих статей вместо копирования контента с других сайтов.
  • Машинный перевод — использует машинный перевод для переписывания контента на несколько разных языков, в результате чего текст становится неразборчивым.
[ редактировать ]

Ссылочный спам — это ссылки между страницами, созданные по причинам, не связанным с заслугами. Методы включают в себя:

  • Программное обеспечение для построения ссылок — автоматизация процесса поисковой оптимизации (SEO).
  • Ссылочные фермы — страницы, которые ссылаются друг на друга (также известные как общества взаимного восхищения).
  • Скрытые ссылки — размещение гиперссылок там, где посетители их не увидят или не смогут увидеть.
  • Атака Сибиллы – подделка нескольких личностей со злым умыслом
  • Спам-блоги — блоги, созданные исключительно для коммерческого продвижения и передачи ссылок на целевые сайты.
  • Перехват страницы — создание копии популярного веб-сайта с похожим содержанием, но перенаправление веб-пользователей на несвязанные или даже вредоносные веб-сайты.
  • Покупка доменов с истекающим сроком действия. Покупка доменов с истекающим сроком действия и замена страниц ссылками на несвязанные веб-сайты.
  • Наполнение файлами cookie — размещение файлов cookie партнерского отслеживания на компьютере посетителя веб-сайта без его ведома.
  • Форумный спам — веб-сайты, которые пользователи могут редактировать для вставки ссылок на спам-сайты.

Маскировка

[ редактировать ]

Это метод SEO, при котором различные материалы и информация передаются веб-сканеру и веб-браузеру . [26] Он обычно используется в качестве метода спамдексинга, поскольку может заставить поисковые системы либо посетить сайт, который существенно отличается от описания поисковой системы, либо дать определенному сайту более высокий рейтинг.

См. также

[ редактировать ]
  1. ^ Бергер, Сэнди (2005). «Великий путеводитель по Интернету Сэнди Бергер» (Документ). Издательство Que. ISBN   0-7897-3442-7 .
  2. ^ Перейти обратно: а б с «Архитектура метапоисковой системы, поддерживающей информационные потребности пользователей» . 1999.
  3. ^ Езди, Лук (2021). «Как работают поисковые системы» . луковая поездка.
  4. ^ Лоуренс, Стивен Р.; Ли Джайлз, К. (10 октября 1997 г.). «Патент US6999959 — Метапоисковая система» — через Google Книги .
  5. ^ Вурхис, Эллен М .; Гупта, Нарендра; Джонсон-Лэрд, Бен (апрель 2000 г.). «Проблема объединения коллекций» .
  6. ^ «Метапоиск — История поисковой системы» . Архивировано из оригинала 30 января 2020 г. Проверено 2 декабря 2014 г.
  7. ^ «Рейтинги в поисковых системах HotBot: краткая история поисковой системы HotBot» .
  8. ^ Шу, Бо; Как, Субхаш (1999). «Интеллектуальная метапоисковая система на основе нейронных сетей». Информационные науки . 120 (4): 1–11. CiteSeerX   10.1.1.84.6837 . дои : 10.1016/S0020-0255(99)00062-6 .
  9. ^ Как, Субхаш (ноябрь 1999 г.). «Улучшение поиска и прогнозирования в Интернете с помощью мгновенно обучаемых нейронных сетей» (PDF) . Интеллектуальные системы IEEE.
  10. ^ «Новенький в городе» . Индия сегодня . 6 июля 2012 года . Проверено 14 марта 2024 г.
  11. ^ «Что такое метапоисковая система?» . Гики для Гиков . 01.08.2020 . Проверено 14 марта 2024 г.
  12. ^ «www.metaseek.nl» . www.metaseek.nl . Проверено 14 марта 2024 г.
  13. ^ «О НАС – Наша история» .
  14. ^ Спинк, Аманда; Янсен, Бернард Дж.; Катурия, Виниш; Кошман, Шерри (2006). «Совпадение основных поисковых систем в Интернете» (PDF) . Изумруд.
  15. ^ «Кафедра информатики» . Университет Фрибура .
  16. ^ «Интеллектуальное использование Интернета» (PDF) . 2002.
  17. ^ ХЕННЕГАР, ЭНН (16 сентября 2009 г.). «Метапоисковые системы расширяют ваш кругозор» .
  18. ^ МЭН, ВЕЙИ (5 мая 2008 г.). «Метапоисковые системы» (PDF) .
  19. ^ Сельберг, Эрик; Эциони, Орен (1997). «Архитектура MetaCrawler для агрегирования ресурсов в Интернете» . Эксперт IEEE. стр. 11–14.
  20. ^ Манодж, М; Джейкоб, Элизабет (июль 2013 г.). «Проектирование и разработка программируемой метапоисковой системы» (PDF) . Фонд компьютерных наук. стр. 6–11.
  21. ^ Перейти обратно: а б с д Манодж, М.; Джейкоб, Элизабет (октябрь 2008 г.). «Поиск информации в Интернете с помощью метапоисковых систем: обзор» (PDF) . Совет научных и промышленных исследований .
  22. ^ Ву, Шэнли; Крестани, Фабио; Би, Яксин (2006). «Оценка методов нормализации оценок при объединении данных». Информационно-поисковая технология . Конспекты лекций по информатике. Том. 4182. стр. 642–648. CiteSeerX   10.1.1.103.295 . дои : 10.1007/11880592_57 . ISBN  978-3-540-45780-0 .
  23. ^ Манмата, Р.; Север, Х. (2014). «Формальный подход к нормализации оценок для метапоиска» (PDF) . Архивировано из оригинала (PDF) 30 сентября 2019 г. Проверено 27 октября 2014 г.
  24. ^ Найорк, Марк (2014). «Обнаружение веб-спама» . Майкрософт .
  25. ^ Вандендрише, Геррит (февраль 2009 г.). «Несколько юридических комментариев по поводу спамдексинга» .
  26. ^ Ван, И-Мин; Ма, Мин; Ню, Юань; Чен, Хао (8 мая 2007 г.). «Связь веб-спамеров с рекламодателями» (PDF) .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f32de757ffa329b762194f166713e478__1717918860
URL1:https://arc.ask3.ru/arc/aa/f3/78/f32de757ffa329b762194f166713e478.html
Заголовок, (Title) документа по адресу, URL1:
Metasearch engine - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)