Диппип
DeepPeep был поисковой системой , целью которой было сканирование и индексирование каждой базы данных в общедоступной сети. [1] [2] В отличие от традиционных поисковых систем, которые сканируют существующие веб-страницы и их гиперссылки, DeepPeep стремился обеспечить доступ к так называемому Deep Web , контенту Всемирной паутины, доступному только через, например, вводимые запросы в базы данных. [3] Проект стартовал в Университете Юты и курировался Джулианой Фрейре , доцентом группы WebDB Школы вычислительной техники университета. [4] [5] По словам Фрейре, целью было сделать 90% всего контента WWW доступным. [6] [7] Проект управлялся бета-поисковой системой и спонсировался Университетом Юты и грантом в размере 243 000 долларов от Национального научного фонда . [8] Это вызвало интерес во всем мире. [9] [10] [11] [12] [13]
Как это работает
[ редактировать ]Подобно Google , Yahoo и другим поисковым системам, DeepPeep позволяет пользователям вводить ключевое слово и возвращает список ссылок и баз данных с информацией о ключевом слове.
Однако DeepPeep и другие поисковые системы отличает то, что DeepPeep использует сканер ACHE, «Иерархическую идентификацию форм», «Контекстно-зависимую кластеризацию форм» и «LabelEx» для поиска, анализа и организации веб-форм, чтобы обеспечить легкий доступ к пользователям. [14]
ACHE Краулер
[ редактировать ]Искатель ACHE используется для сбора ссылок и использует стратегию обучения, которая увеличивает скорость сбора ссылок по мере того, как сканеры продолжают поиск. Что делает ACHE Crawler уникальным среди других сканеров, так это то, что другие сканеры являются специализированными сканерами, которые собирают веб-страницы, имеющие определенные свойства или ключевые слова. Вместо этого Ache Crawlers включает классификатор страниц, который позволяет отсортировать нерелевантные страницы домена, а также классификатор ссылок, который ранжирует ссылку по ее наибольшей релевантности теме. В результате ACHE Crawler сначала загружает веб-ссылки, которые имеют более высокую релевантность, и экономит ресурсы, не загружая ненужные данные. [15]
Иерархическая идентификация формы
[ редактировать ]Чтобы дополнительно исключить нерелевантные ссылки и результаты поиска, DeepPeep использует систему идентификации иерархической формы (HIFI), которая классифицирует ссылки и результаты поиска на основе структуры и содержания веб-сайта. [14] В отличие от других форм классификации, которые для организации используют исключительно метки веб-форм, HIFI использует для классификации как структуру, так и содержимое веб-формы. Используя эти два классификатора, HIFI организует веб-формы в иерархическом порядке, который ранжирует релевантность веб-формы целевому ключевому слову. [16]
Контекстно-зависимая кластеризация
[ редактировать ]Если интересующий домен отсутствует или указанный домен имеет несколько типов определения, DeepPeep должен разделить веб-форму и сгруппировать ее в похожие домены. Поисковая система использует контекстно-зависимую кластеризацию для группировки похожих ссылок в одном домене, моделируя веб-форму в наборы гиперссылок и используя ее контекст для сравнения. В отличие от других методов, которые требуют сложного извлечения меток и предварительной обработки веб-форм вручную, контекстно-зависимая кластеризация выполняется автоматически и использует метаданные для обработки веб-форм, которые содержат большое количество контента и содержат множество атрибутов. [14]
МеткаEx
[ редактировать ]DeepPeep дополнительно извлекает из этих страниц информацию, называемую метаданными , что позволяет лучше ранжировать ссылки и базы данных с использованием LabelEx — подхода для автоматического разложения и извлечения метаданных. Метаданные — это данные веб-ссылок, которые предоставляют информацию о других доменах. LabelEx определяет сопоставление элемента и метки и использует это сопоставление для точного извлечения метаданных в отличие от традиционных подходов, в которых используются правила извлечения, определяемые вручную. [14]
Рейтинг
[ редактировать ]Когда результаты поиска появляются после того, как пользователь ввел свое ключевое слово, DeepPeep ранжирует ссылки на основе трех характеристик: содержание термина, количество обратных ссылок . и рейтинг страницы . Во-первых, термин «контент» просто определяется содержанием веб-ссылки и ее релевантностью. Обратные ссылки — это гиперссылки или ссылки, которые направляют пользователя на другой веб-сайт. Pageranks — это рейтинг веб-сайтов в результатах поисковых систем, который основан на подсчете количества и качества ссылок на веб-сайт для определения его важности. Информация о рейтинге страницы и обратных ссылках получена из внешних источников, таких как Google , Yahoo и Bing . [14]
Бета-запуск
[ редактировать ]Бета-версия DeepPeep была запущена и охватывала только семь областей: автомобили, авиабилеты, биология, книги, гостиницы, работа и аренда. В рамках этих семи доменов DeepPeep предлагал доступ к 13 000 веб-форм. [17] Доступ к веб-сайту можно было получить по адресу deeppeep.org, но после закрытия бета-версии веб-сайт стал неактивным.
Ссылки
[ редактировать ]- ^ Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить» . Нью-Йорк Таймс . Проверено 23 февраля 2009 г.
- ^ Франке, Сюзанна (24 февраля 2009 г.). «DeepPeep: Исследователи хотят сделать скрытые базы данных доступными в сети » . Комп. февраля Проверено 25 2009 г. - через lanline.de.
- ^ Уорик, Мартин (25 февраля 2009 г.). «DeepPeep проливает свет на скрытую Сеть» . ТелекомТВ . Проверено 25 февраля 2009 г. [ постоянная мертвая ссылка ]
- ^ Савант, Нимиш (9 марта 2010 г.). «Полазить по глубокой паутине» . ЛайвМинт . Мята . Проверено 13 декабря 2010 г.
- ^ «Главная страница» . ВебБД . Школа вычислительной техники Университета Юты. 04.10.2008. Архивировано из оригинала 27 февраля 2009 г. Проверено 23 февраля 2009 г.
- ^ Пихлер, Томас (23 февраля 2009 г.). «Поисковые фразы проникают в глубины Интернета: исследование баз данных как важный шаг» (на немецком языке). Пресс-релиз . Проверено 23 февраля 2009 г.
- ^ "Suchansätze dringen in die Tiefen des Internets" [Поисковые фразы проникают в глубины Интернета]. nachrichten.ch (на немецком языке). 24 февраля 2009 г. Архивировано из оригинала 7 июля 2011 г. Проверено 13 декабря 2010 г.
- ^ «Резюме премии № 0713637: III-COR: обнаружение и организация источников скрытой сети» . Поиск наград NSF . Национальный научный фонд . Проверено 23 февраля 2009 г.
- ^ «Esplorando il DeepWeb , i Fondali della Rete Dove Google Non Arriva» [Исследование DeepWeb, глубин Сети, куда не приходит Google]. Liberta di Stampa Diritto all'Informazione (Это итальянский перевод статьи Алекса Райта «Исследование «глубинной паутины», которую Google не может охватить» в New York Times) (на итальянском языке). Италия. 05 апреля 2009 г. Проверено 5 марта 2009 г.
- ^ Шандор, Берта (24 февраля 2009 г.). «Интернет исследует глубины DeepPeep» [Интернет исследует глубины DeepPeep]. sg.hu (на венгерском языке). СГ (Венгрия) . Проверено 5 марта 2009 г.
- ^ «Niet alles is te vinden Met Google» [Не все можно найти в Google] (на голландском языке). Голландские ковбои. 04.03.2009 . Проверено 5 марта 2009 г.
- ^ «Исследование «глубинной сети», которую Google не может охватить » [Изучите «глубокую сеть», которую Google еще не доминирует] (Это перевод на китайский язык статьи New York Times «Исследование «глубокой сети», которую Google не может охватить»). » Алекса Райта) (на китайском языке). 03 марта 2006 г. Архивировано из оригинала 07 июля 2011 г. Проверено 5 марта 2009 г.
- ^ «Sfida al deep web: la Kosmix prova a svelare le pagine nascoste di Internet» [Вызов глубокой паутине: Kosmix пытается раскрыть скрытые страницы Интернета]. Сообщение. 23 февраля 2009 г. Архивировано из оригинала 4 августа 2012 г. Проверено 13 декабря 2010 г.
- ^ Jump up to: а б с д и Барбоза, Лучано; Нгуен, Хоа; Нгуен, Тхань; Пиннаманени, Рамеш; Фрейре, Юлиана (01 января 2010 г.). «Создание и изучение репозиториев веб-форм». Материалы Международной конференции ACM SIGMOD 2010 по управлению данными . СИГМОД '10. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 1175–1178. дои : 10.1145/1807167.1807311 . ISBN 9781450300322 . S2CID 15471440 .
- ^ «ВиДА-НЮ/боль» . Гитхаб . Проверено 6 ноября 2016 г.
- ^ Дуйгулу, Пинар (22 декабря 1999 г.). Лопрести, Дэниел П.; Чжоу, Цзянин (ред.). «Иерархическое представление форм документов для идентификации и поиска» . Труды SPIE . Распознавание и поиск документов VII. 3967 (1): 128. Бибкод : 1999SPIE.3967..128D . дои : 10.1117/12.373486 . ISSN 0277-786X . S2CID 28128295 .
- ^ Беккет, Энди (25 ноября 2009 г.). «Тёмная сторона Интернета» . Хранитель . ISSN 0261-3077 . Проверено 6 ноября 2016 г.
Внешние ссылки
[ редактировать ]- Сайт DeepPeep.org найден мертвым в ноябре 2016 года, при этом сайт появляется в связи с Register.com . Последний «DeepPeep: Откройте для себя скрытую сеть» . Архивировано из оригинала 9 мая 2012 г. Проверено 23 февраля 2009 г.
{{cite web}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) .