Метапоисковые системы

Метапоисковая система (или поисковый агрегатор ) — это онлайн- инструмент поиска информации , который использует данные веб-поисковой системы для получения собственных результатов. [1] [2] Метапоисковые системы принимают данные пользователя и немедленно отправляют запрос поисковым системам. [3] для результатов. Собирается достаточное количество данных , ранжируется и представляется пользователям.
Такие проблемы, как рассылка спама, снижают точность и достоверность результатов. [4] Процесс слияния направлен на улучшение разработки метапоисковой системы. [5]
Примеры метапоисковых систем включают Skyscanner и Kayak.com , которые объединяют результаты поиска онлайн-турагентств и веб-сайтов поставщиков, а также Searx , бесплатную поисковую систему с открытым исходным кодом , которая объединяет результаты поисковых систем Интернета.
История
[ редактировать ]Первым, кто внедрил идею метапоиска, был Дэниел Драйлингер из Университета штата Колорадо . Он разработал SearchSavvy, который позволяет пользователям осуществлять поиск в 20 различных поисковых системах и каталогах одновременно. Несмотря на свою скорость, поисковая система была ограничена простым поиском и поэтому не была надежной. Студент Вашингтонского университета Эрик Сельберг выпустил более «обновленную» версию под названием MetaCrawler . Эта поисковая система улучшила точность SearchSavvy, добавив собственный синтаксис поиска и сопоставив его с синтаксисом поисковых систем, которые она проверяла. Metacrawler сократил количество запросов к поисковым системам до 6, но, хотя он давал более точные результаты, он все равно не считался таким же точным, как поиск по запросу в отдельной системе. [6]
20 мая 1996 года HotBot , тогда принадлежавший Wired , представлял собой поисковую систему, результаты поиска которой поступали из баз данных Inktomi и Direct Hit. Он был известен своими быстрыми результатами и поисковой системой с возможностью поиска в результатах поиска. После покупки Lycos в 1998 году развитие поисковой системы застопорилось, и ее доля на рынке резко упала. После внесения нескольких изменений дизайн HotBot был преобразован в упрощенный интерфейс поиска, а его функции были включены в редизайн веб-сайта Lycos. [7]
Метапоисковая система под названием Anvish была разработана Бо Шу и Субхашем Как в 1999 году; результаты поиска сортировались с помощью мгновенно обучаемых нейронных сетей . [8] Позже это было включено в другую метапоисковую систему под названием Solosearch. [9]
В августе 2000 года в Индии появилась первая метапоисковая система, когда был запущен HumHaiIndia.com. [10] Его разработал тогдашний 16-летний Сумит Ламба. [11] Позже сайт был переименован в Tazaa.com. [12]
Ixquick — поисковая система, известная своей политикой конфиденциальности. Разработанный и запущенный в 1998 году Дэвидом Бодником, он принадлежит Surfboard Holding BV. В июне 2006 года Ixquick начал удалять личные данные своих пользователей, следуя той же процедуре, что и Scroogle . Политика конфиденциальности Ixquick не предусматривает никаких записей IP-адресов пользователей, идентификационных файлов cookie, сбора личных данных и передачи личных данных третьим лицам. [13] Он также использует уникальную систему ранжирования, в которой результат оценивается по звездам. Чем больше звезд в результате, тем больше поисковых систем согласны с ним.
В апреле 2005 года компания Dogpile , которая тогда принадлежала и управлялась InfoSpace , Inc., в сотрудничестве с исследователями из Университета Питтсбурга и Университета штата Пенсильвания, чтобы измерить совпадение и различия в ранжировании ведущих поисковых систем в Интернете, чтобы оценить преимущества использования метапоиска. движок для поиска в сети. что из 10 316 случайных пользовательских запросов из Google Yahoo! Результаты показали , и Ask Jeeves , только 3,2% результатов поиска на первой странице были одинаковыми в этих поисковых системах по данному запросу. Другое исследование, проведенное позднее в том же году, использовало 12 570 случайных пользовательских запросов из Google , Yahoo! , MSN Search и Ask Jeeves обнаружили, что только 1,1% результатов поиска на первой странице были одинаковыми в этих поисковых системах по данному запросу. [14]
Преимущества
[ редактировать ]Отправка нескольких запросов в несколько других поисковых систем расширяет охват данных по теме и позволяет найти больше информации. Они используют индексы, созданные другими поисковыми системами, агрегируя и часто обрабатывая результаты уникальными способами. Метапоисковая система имеет преимущество перед одиночной поисковой системой, поскольку можно получить больше результатов при тех же усилиях. [2] Это также избавляет пользователей от необходимости индивидуально вводить поисковые запросы из разных систем для поиска ресурсов. [2]
Метапоиск также является полезным подходом, если цель поиска пользователя — получить обзор темы или получить быстрые ответы. Вместо того, чтобы проходить через несколько поисковых систем, таких как Yahoo! или Google и сравнивая результаты, метапоисковые системы способны быстро компилировать и объединять результаты. Они могут сделать это либо путем перечисления результатов каждого запрошенного механизма без дополнительной постобработки (Dogpile), либо путем анализа результатов и ранжирования их по своим собственным правилам (IxQuick, Metacrawler и Vivismo).
Метапоисковая система также может скрывать IP-адрес искателя от запрашиваемых поисковых систем, обеспечивая тем самым конфиденциальность поиска.
Недостатки
[ редактировать ]Метапоисковые системы не способны анализировать формы запросов или полностью переводить синтаксис запросов . Количество гиперссылок, генерируемых метапоисковиками, ограничено и поэтому не предоставляет пользователю полные результаты запроса. [15]
Большинство метапоисковых систем не предоставляют более десяти связанных файлов из одной поисковой системы и, как правило, не взаимодействуют с более крупными поисковыми системами для получения результатов. Ссылки с оплатой за клик имеют приоритет и обычно отображаются первыми. [16]
Метапоиск также создает иллюзию большего охвата запрашиваемой темы, особенно если пользователь ищет популярную или банальную информацию. Обычно в результате от запрошенных механизмов выдается несколько одинаковых результатов. Пользователям также сложнее выполнять поиск с использованием синтаксиса расширенного поиска, который будет отправлен вместе с запросом, поэтому результаты могут быть не такими точными, как когда пользователь использует интерфейс расширенного поиска в конкретной системе. Это приводит к тому, что многие метапоисковые системы используют простой поиск. [17]
Операция
[ редактировать ]один поисковый запрос Метапоисковая система принимает от пользователя . Этот поисковый запрос затем передается в базу данных другой поисковой системы . Метапоисковая система не создает базу данных веб-страниц , а создает систему объединенных баз данных для интеграции данных из нескольких источников. [18] [19] [20]
Поскольку каждая поисковая система уникальна и имеет разные алгоритмы генерации ранжированных данных, поэтому также будут создаваться дубликаты. Для удаления дубликатов метапоисковик обрабатывает эти данные и применяет собственный алгоритм. Пересмотренный список создается в качестве вывода для пользователя. [ нужна ссылка ] Когда метапоисковая система связывается с другими поисковыми системами, эти поисковые системы реагируют тремя способами:
- Они будут сотрудничать и предоставлять полный доступ к интерфейсу метапоисковой системы, включая частный доступ к базе данных индексов, а также информировать метапоисковую систему о любых изменениях, внесенных в базу данных индексов;
- Поисковые системы могут вести себя несотрудничающе: они не будут отказывать или предоставлять доступ к интерфейсам;
- Поисковая система может быть полностью враждебной и отказать метапоисковой системе в полном доступе к своей базе данных, а в серьезных обстоятельствах - путем поиска законных методов. [21]
Архитектура ранжирования
[ редактировать ]Веб-страницы, которые высоко оцениваются во многих поисковых системах, вероятно, будут более релевантными для предоставления полезной информации. [21] Однако все поисковые системы имеют разные оценки рейтинга для каждого веб-сайта, и в большинстве случаев эти оценки не одинаковы. Это связано с тем, что поисковые системы отдают приоритет различным критериям и методам оценки, поэтому веб-сайт может иметь высокий рейтинг в одной поисковой системе и низкий рейтинг в другой. Это проблема, поскольку метапоисковые системы в значительной степени полагаются на согласованность этих данных для создания надежных учетных записей. [21]
Слияние
[ редактировать ]
Метапоисковая система использует процесс Fusion для фильтрации данных для получения более эффективных результатов. Два основных используемых метода объединения: объединение коллекций и объединение данных.
- Collection Fusion: также известный как распределенный поиск, касается исключительно поисковых систем, индексирующих несвязанные данные. Чтобы определить, насколько ценны эти источники, Collection Fusion просматривает контент, а затем ранжирует данные о том, насколько вероятно, что он предоставит релевантную информацию в отношении запроса. Из того, что генерируется, Collection Fusion может выбрать лучшие ресурсы из ранга. Эти выбранные ресурсы затем объединяются в список. [21]
- Data Fusion: имеет дело с информацией, полученной из поисковых систем, которая индексирует общие наборы данных. Процесс очень похож. Исходные ранговые оценки данных объединяются в единый список, после чего анализируются исходные ранги каждого из этих документов. Данные с высокими оценками указывают на высокий уровень релевантности конкретному запросу и поэтому отбираются. Чтобы составить список, оценки необходимо нормализовать с помощью таких алгоритмов, как CombSum. Это связано с тем, что поисковые системы применяют разные политики алгоритмов, в результате чего полученные оценки становятся несравнимыми. [22] [23]
Спамдексинг
[ редактировать ]![]() | Было предложено объединить этот раздел с разделом «Спамдексинг» . ( Обсудить ) Предлагается с мая 2024 г. |
![]() | В этом разделе могут содержаться материалы, не относящиеся к теме статьи . ( Май 2024 г. ) |
Спамдексирование – это преднамеренное манипулирование индексами поисковых систем. Он использует ряд методов для манипулирования релевантностью или известностью ресурсов, индексированных способом, не соответствующим намерениям системы индексирования. Спамдексирование может быть очень неприятным для пользователей и проблематичным для поисковых систем, поскольку возвращаемое содержимое результатов поиска имеет низкую точность. [ нужна ссылка ] В конечном итоге это приведет к тому, что поисковая система станет ненадежной и ненадежной для пользователя. Для борьбы со спамдексированием алгоритмы поисковых роботов усложняются и изменяются почти каждый день, чтобы устранить проблему. [24]
Это серьезная проблема для метапоисковых систем, поскольку она вмешивается в критерии индексирования веб-сканера , на которые в значительной степени полагаются при форматировании списков ранжирования. Спамдексирование манипулирует естественной системой ранжирования поисковой системы и размещает веб-сайты в рейтинге выше, чем они могли бы быть размещены естественным путем. [25] Для этого используются три основных метода:
Контентный спам
[ редактировать ]Контентный спам — это методы, которые изменяют логическое представление, которое поисковая система имеет о содержимом страницы. Методы включают в себя:
- Наполнение ключевыми словами — рассчитанное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы.
- Скрытый/невидимый текст — несвязанный текст, замаскированный путем придания ему того же цвета, что и фон, с использованием крошечного размера шрифта или сокрытия его в HTML-коде.
- Наполнение метатегами — повторение ключевых слов в метатегах и/или использование ключевых слов, не связанных с содержимым сайта.
- Дорвейные страницы — веб-страницы низкого качества с небольшим содержанием, но релевантными ключевыми словами или фразами.
- Сайты-скребки — программы, которые позволяют веб-сайтам копировать контент с других веб-сайтов и создавать контент для веб-сайта.
- Раскрутка статей — переписывание существующих статей вместо копирования контента с других сайтов.
- Машинный перевод — использует машинный перевод для переписывания контента на несколько разных языков, в результате чего текст становится неразборчивым.
Ссылочный спам
[ редактировать ]Ссылочный спам — это ссылки между страницами, созданные по причинам, не связанным с заслугами. Методы включают в себя:
- Программное обеспечение для построения ссылок — автоматизация процесса поисковой оптимизации (SEO).
- Ссылочные фермы — страницы, которые ссылаются друг на друга (также известные как общества взаимного восхищения).
- Скрытые ссылки — размещение гиперссылок там, где посетители их не увидят или не смогут увидеть.
- Атака Сибиллы – подделка нескольких личностей со злым умыслом
- Спам-блоги — блоги, созданные исключительно для коммерческого продвижения и передачи ссылок на целевые сайты.
- Перехват страницы — создание копии популярного веб-сайта с похожим содержанием, но перенаправление веб-пользователей на несвязанные или даже вредоносные веб-сайты.
- Покупка доменов с истекающим сроком действия. Покупка доменов с истекающим сроком действия и замена страниц ссылками на несвязанные веб-сайты.
- Наполнение файлами cookie — размещение файлов cookie партнерского отслеживания на компьютере посетителя веб-сайта без его ведома.
- Форумный спам — веб-сайты, которые пользователи могут редактировать для вставки ссылок на спам-сайты.
Маскировка
[ редактировать ]Это метод SEO, при котором различные материалы и информация передаются веб-сканеру и веб-браузеру . [26] Он обычно используется в качестве метода спамдексинга, поскольку может заставить поисковые системы либо посетить сайт, который существенно отличается от описания поисковой системы, либо дать определенному сайту более высокий рейтинг.
См. также
[ редактировать ]- Федеративный поиск
- Список метапоисковых систем
- Метабраузер
- Мультипоиск
- Поисковый агрегатор
- Поисковая оптимизация
Ссылки
[ редактировать ]- ^ Бергер, Сэнди (2005). «Великий путеводитель по Интернету Сэнди Бергер» (Документ). Издательство Que. ISBN 0-7897-3442-7 .
- ^ Перейти обратно: а б с «Архитектура метапоисковой системы, поддерживающей информационные потребности пользователей» . 1999.
- ^ Езди, Лук (2021). «Как работают поисковые системы» . луковая поездка.
- ^ Лоуренс, Стивен Р.; Ли Джайлз, К. (10 октября 1997 г.). «Патент US6999959 — Метапоисковая система» — через Google Книги .
- ^ Вурхис, Эллен М .; Гупта, Нарендра; Джонсон-Лэрд, Бен (апрель 2000 г.). «Проблема объединения коллекций» .
- ^ «Метапоиск — История поисковой системы» . Архивировано из оригинала 30 января 2020 г. Проверено 2 декабря 2014 г.
- ^ «Рейтинги в поисковых системах HotBot: краткая история поисковой системы HotBot» .
- ^ Шу, Бо; Как, Субхаш (1999). «Интеллектуальная метапоисковая система на основе нейронных сетей». Информационные науки . 120 (4): 1–11. CiteSeerX 10.1.1.84.6837 . дои : 10.1016/S0020-0255(99)00062-6 .
- ^ Как, Субхаш (ноябрь 1999 г.). «Улучшение поиска и прогнозирования в Интернете с помощью мгновенно обучаемых нейронных сетей» (PDF) . Интеллектуальные системы IEEE.
- ^ «Новенький в городе» . Индия сегодня . 6 июля 2012 года . Проверено 14 марта 2024 г.
- ^ «Что такое метапоисковая система?» . Гики для Гиков . 01.08.2020 . Проверено 14 марта 2024 г.
- ^ «www.metaseek.nl» . www.metaseek.nl . Проверено 14 марта 2024 г.
- ^ «О НАС – Наша история» .
- ^ Спинк, Аманда; Янсен, Бернард Дж.; Катурия, Виниш; Кошман, Шерри (2006). «Совпадение основных поисковых систем в Интернете» (PDF) . Изумруд.
- ^ «Кафедра информатики» . Университет Фрибура .
- ^ «Интеллектуальное использование Интернета» (PDF) . 2002.
- ^ ХЕННЕГАР, ЭНН (16 сентября 2009 г.). «Метапоисковые системы расширяют ваш кругозор» .
- ^ МЭН, ВЕЙИ (5 мая 2008 г.). «Метапоисковые системы» (PDF) .
- ^ Сельберг, Эрик; Эциони, Орен (1997). «Архитектура MetaCrawler для агрегирования ресурсов в Интернете» . Эксперт IEEE. стр. 11–14.
- ^ Манодж, М; Джейкоб, Элизабет (июль 2013 г.). «Проектирование и разработка программируемой метапоисковой системы» (PDF) . Фонд компьютерных наук. стр. 6–11.
- ^ Перейти обратно: а б с д Манодж, М.; Джейкоб, Элизабет (октябрь 2008 г.). «Поиск информации в Интернете с помощью метапоисковых систем: обзор» (PDF) . Совет научных и промышленных исследований .
- ^ Ву, Шэнли; Крестани, Фабио; Би, Яксин (2006). «Оценка методов нормализации оценок при объединении данных». Информационно-поисковая технология . Конспекты лекций по информатике. Том. 4182. стр. 642–648. CiteSeerX 10.1.1.103.295 . дои : 10.1007/11880592_57 . ISBN 978-3-540-45780-0 .
- ^ Манмата, Р.; Север, Х. (2014). «Формальный подход к нормализации оценок для метапоиска» (PDF) . Архивировано из оригинала (PDF) 30 сентября 2019 г. Проверено 27 октября 2014 г.
- ^ Найорк, Марк (2014). «Обнаружение веб-спама» . Майкрософт .
- ^ Вандендрише, Геррит (февраль 2009 г.). «Несколько юридических комментариев по поводу спамдексинга» .
- ^ Ван, И-Мин; Ма, Мин; Ню, Юань; Чен, Хао (8 мая 2007 г.). «Связь веб-спамеров с рекламодателями» (PDF) .