Вертикальный поиск
Эта статья , возможно, содержит оригинальные исследования . ( сентябрь 2012 г. ) |
Вертикальная поисковая система отличается от обычной поисковой системы в Интернете тем, что она фокусируется на определенном сегменте онлайн-контента. Их еще называют специализированными или тематическими поисковыми системами. Область вертикального контента может основываться на актуальности, типе медиа или жанре контента. Общие вертикали включают шоппинг, автомобильную промышленность, юридическую информацию, медицинскую информацию, научную литературу, поиск работы и путешествия. Примеры систем вертикального поиска включают Библиотеку Конгресса , Mocavo , Nuroa , Trulia и Yelp .
В отличие от обычных поисковых систем, которые пытаются индексировать большие части Всемирной паутины с помощью веб-сканера , вертикальные поисковые системы обычно используют целенаправленный сканер , который пытается индексировать только релевантные веб-страницы по заранее определенной теме или набору тем. . Некоторые сайты вертикального поиска ориентированы на отдельные вертикали, в то время как другие сайты включают несколько вертикальных поисков в рамках одной поисковой системы.
Преимущества
[ редактировать ]Вертикальный поиск предлагает несколько потенциальных преимуществ по сравнению с обычными поисковыми системами:
- Более высокая точность из-за ограниченного объема,
- Используйте знания предметной области, включая таксономии и онтологии ,
- Поддержка конкретных уникальных пользовательских задач.
Вертикальный поиск можно рассматривать как аналог корпоративного поиска , где предметом внимания является предприятие, например компания, правительство или другая организация. В 2013 году веб-сайты сравнения потребительских цен со встроенными системами вертикального поиска, такие как FindTheBest, привлекли крупные раунды венчурного финансирования, что указывает на тенденцию роста этих приложений технологии вертикального поиска. [1] [2]
Поиск по конкретному домену
[ редактировать ]Вертикали, специфичные для предметной области, фокусируются на конкретной теме. Джон Баттел описывает это в своей книге «Поиск» (2005):
Решения для поиска, специфичные для предметной области, фокусируются на одной области знаний, создавая индивидуальный поиск, который из-за ограниченного корпуса предметной области и четких связей между понятиями обеспечивает чрезвычайно релевантные результаты для поисковиков. [3]
Любая универсальная поисковая система будет индексировать все страницы и выполнять поиск в ширину для сбора документов. Поиск в специализированных поисковых системах более эффективно выполняет поиск в небольшом подмножестве документов, фокусируясь на определенном наборе. Было обнаружено, что спайдеринг, осуществляемый с помощью системы обучения с подкреплением, в три раза более эффективен, чем поиск в ширину . [4]
Программа Memex DARPA
[ редактировать ]В начале 2014 года Агентство перспективных исследовательских проектов Министерства обороны США ( DARPA ) опубликовало на своем веб-сайте заявление, в котором излагаются предварительные детали «программы Memex», целью которой является разработка новых поисковых технологий, преодолевающих некоторые ограничения текстового поиска. [5] DARPA хочет, чтобы технология Memex, разработанная в ходе этого исследования, могла использоваться поисковыми системами, которые могут искать информацию в Deep Web – той части Интернета, которая в значительной степени недоступна для коммерческих поисковых систем, таких как Google или Yahoo . На веб-сайте DARPA говорится: «Цель состоит в том, чтобы изобрести более эффективные методы взаимодействия и обмена информацией, чтобы пользователи могли быстро и тщательно организовывать и искать подмножества информации, соответствующие их индивидуальным интересам». [6] Как сообщалось в статье Wired за 2015 год , технология поиска, разрабатываемая в рамках программы Memex, «направлена на то, чтобы пролить свет на темную сеть и выявить закономерности и взаимосвязи в онлайн-данных, чтобы помочь правоохранительным органам и другим лицам отслеживать незаконную деятельность». [7] DARPA намерено, чтобы программа заменила централизованные процедуры, используемые коммерческими поисковыми системами, заявляя, что «создание новой парадигмы индексирования и поиска для конкретной предметной области предоставит механизмы для улучшения обнаружения контента, извлечения информации, поиска информации, сотрудничества пользователей и расширения возможностей». текущих возможностей поиска в глубокой сети, даркнете и нетрадиционном (например, мультимедийном) контенте». [8] В описании программы DARPA объясняет название программы как дань уважения оригинальному изобретению Буша Memex, которое послужило источником вдохновения. [5]
В апреле 2015 года было объявлено, что исходный код некоторых частей Memex будет открытым. [9] Модули были доступны для скачивания. [8]
Ссылки
[ редактировать ]- ^ Рао, Лина (5 марта 2013 г.). «Платформа для сравнения цен на основе данных FindTheBest привлекла 11 миллионов долларов от компаний New World, Kleiner Perkins и других» . TechCrunch. Архивировано из оригинала 1 июня 2013 года . Проверено 27 мая 2013 г.
- ^ ХО, ВИКТОРИЯ (11 мая 2013 г.). «Азиатский сайт сравнения цен Save 22 получил ангельский раунд «среднешестизначных цифр» » . Архивировано из оригинала 7 июня 2013 года . Проверено 27 мая 2013 г.
- ^ Баттель, Джон (2005). Поиск: как Google и его конкуренты переписали правила бизнеса и изменили нашу культуру . Нью-Йорк: Портфолио.
- ^ МакКаллум, Эндрю (1999). «Подход машинного обучения к созданию доменно-ориентированных поисковых систем». ИДЖКАИ . 99 : 662–667. CiteSeerX 10.1.1.88.3818 .
- ^ Jump up to: а б «Memex стремится создать новую парадигму доменного поиска» (пресс-релиз). ДАРПА . 9 февраля 2014. Архивировано из оригинала 11 февраля 2015 года . Проверено 11 февраля 2015 г.
- ^ «Memex (поиск по конкретному домену)» . www.darpa.mil . Архивировано из оригинала 16 сентября 2016 г. Проверено 21 сентября 2016 г.
- ^ Ким Зеттер (2 февраля 2015 г.). «DARPA разрабатывает поисковую систему для даркнета» . Проводной . Архивировано из оригинала 29 июня 2023 года . Проверено 19 ноября 2020 г.
- ^ Jump up to: а б «Memex (поиск по конкретному домену)» . ДАРПА. Архивировано из оригинала 10 июня 2015 года . Проверено 20 апреля 2015 г.
- ^ Форбс (17 апреля 2015 г.). «Осторожно, Google, DARPA только что открыло исходный код всей этой поисковой технологии Swish в «темной паутине»» . Форбс . Архивировано из оригинала 20 апреля 2015 года . Проверено 20 апреля 2015 г.