Jump to content

Диппип

DeepPeep был поисковой системой , целью которой было сканирование и индексирование каждой базы данных в общедоступной сети. [1] [2] В отличие от традиционных поисковых систем, которые сканируют существующие веб-страницы и их гиперссылки, DeepPeep стремился обеспечить доступ к так называемому Deep Web , контенту Всемирной паутины, доступному только через, например, вводимые запросы в базы данных. [3] Проект стартовал в Университете Юты и курировался Джулианой Фрейре , доцентом группы WebDB Школы вычислительной техники университета. [4] [5] По словам Фрейре, целью было сделать 90% всего контента WWW доступным. [6] [7] Проект управлялся бета-поисковой системой и спонсировался Университетом Юты и грантом в размере 243 000 долларов от Национального научного фонда . [8] Это вызвало интерес во всем мире. [9] [10] [11] [12] [13]

Как это работает

[ редактировать ]

Подобно Google , Yahoo и другим поисковым системам, DeepPeep позволяет пользователям вводить ключевое слово и возвращает список ссылок и баз данных с информацией о ключевом слове.

Однако DeepPeep и другие поисковые системы отличает то, что DeepPeep использует сканер ACHE, «Иерархическую идентификацию форм», «Контекстно-зависимую кластеризацию форм» и «LabelEx» для поиска, анализа и организации веб-форм, чтобы обеспечить легкий доступ к пользователям. [14]

ACHE Краулер

[ редактировать ]

Искатель ACHE используется для сбора ссылок и использует стратегию обучения, которая увеличивает скорость сбора ссылок по мере того, как сканеры продолжают поиск. Что делает ACHE Crawler уникальным среди других сканеров, так это то, что другие сканеры являются специализированными сканерами, которые собирают веб-страницы, имеющие определенные свойства или ключевые слова. Вместо этого Ache Crawlers включает классификатор страниц, который позволяет отсортировать нерелевантные страницы домена, а также классификатор ссылок, который ранжирует ссылку по ее наибольшей релевантности теме. В результате ACHE Crawler сначала загружает веб-ссылки, которые имеют более высокую релевантность, и экономит ресурсы, не загружая ненужные данные. [15]

Иерархическая идентификация формы

[ редактировать ]

Чтобы дополнительно исключить нерелевантные ссылки и результаты поиска, DeepPeep использует систему идентификации иерархической формы (HIFI), которая классифицирует ссылки и результаты поиска на основе структуры и содержания веб-сайта. [14] В отличие от других форм классификации, которые для организации используют исключительно метки веб-форм, HIFI использует для классификации как структуру, так и содержимое веб-формы. Используя эти два классификатора, HIFI организует веб-формы в иерархическом порядке, который ранжирует релевантность веб-формы целевому ключевому слову. [16]

Контекстно-зависимая кластеризация

[ редактировать ]

Если интересующий домен отсутствует или указанный домен имеет несколько типов определения, DeepPeep должен разделить веб-форму и сгруппировать ее в похожие домены. Поисковая система использует контекстно-зависимую кластеризацию для группировки похожих ссылок в одном домене, моделируя веб-форму в наборы гиперссылок и используя ее контекст для сравнения. В отличие от других методов, которые требуют сложного извлечения меток и предварительной обработки веб-форм вручную, контекстно-зависимая кластеризация выполняется автоматически и использует метаданные для обработки веб-форм, которые содержат большое количество контента и содержат множество атрибутов. [14]

DeepPeep дополнительно извлекает из этих страниц информацию, называемую метаданными , что позволяет лучше ранжировать ссылки и базы данных с использованием LabelEx — подхода для автоматического разложения и извлечения метаданных. Метаданные — это данные веб-ссылок, которые предоставляют информацию о других доменах. LabelEx определяет сопоставление элемента и метки и использует это сопоставление для точного извлечения метаданных в отличие от традиционных подходов, в которых используются правила извлечения, определяемые вручную. [14]

Когда результаты поиска появляются после того, как пользователь ввел свое ключевое слово, DeepPeep ранжирует ссылки на основе трех характеристик: содержание термина, количество обратных ссылок . и рейтинг страницы . Во-первых, термин «контент» просто определяется содержанием веб-ссылки и ее релевантностью. Обратные ссылки — это гиперссылки или ссылки, которые направляют пользователя на другой веб-сайт. Pageranks — это рейтинг веб-сайтов в результатах поисковых систем, который основан на подсчете количества и качества ссылок на веб-сайт для определения его важности. Информация о рейтинге страницы и обратных ссылках получена из внешних источников, таких как Google , Yahoo и Bing . [14]

Бета-запуск

[ редактировать ]

Бета-версия DeepPeep была запущена и охватывала только семь областей: автомобили, авиабилеты, биология, книги, гостиницы, работа и аренда. В рамках этих семи доменов DeepPeep предлагал доступ к 13 000 веб-форм. [17] Доступ к веб-сайту можно было получить по адресу deeppeep.org, но после закрытия бета-версии веб-сайт стал неактивным.

  1. ^ Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить» . Нью-Йорк Таймс . Проверено 23 февраля 2009 г.
  2. ^ Франке, Сюзанна (24 февраля 2009 г.). «DeepPeep: Исследователи хотят сделать скрытые базы данных доступными в сети » . Комп. февраля Проверено 25 2009 г. - через lanline.de.
  3. ^ Уорик, Мартин (25 февраля 2009 г.). «DeepPeep проливает свет на скрытую Сеть» . ТелекомТВ . Проверено 25 февраля 2009 г. [ постоянная мертвая ссылка ]
  4. ^ Савант, Нимиш (9 марта 2010 г.). «Полазить по глубокой паутине» . ЛайвМинт . Мята . Проверено 13 декабря 2010 г.
  5. ^ «Главная страница» . ВебБД . Школа вычислительной техники Университета Юты. 04.10.2008. Архивировано из оригинала 27 февраля 2009 г. Проверено 23 февраля 2009 г.
  6. ^ Пихлер, Томас (23 февраля 2009 г.). «Поисковые фразы проникают в глубины Интернета: исследование баз данных как важный шаг» (на немецком языке). Пресс-релиз . Проверено 23 февраля 2009 г.
  7. ^ "Suchansätze dringen in die Tiefen des Internets" [Поисковые фразы проникают в глубины Интернета]. nachrichten.ch (на немецком языке). 24 февраля 2009 г. Архивировано из оригинала 7 июля 2011 г. Проверено 13 декабря 2010 г.
  8. ^ «Резюме премии № 0713637: III-COR: обнаружение и организация источников скрытой сети» . Поиск наград NSF . Национальный научный фонд . Проверено 23 февраля 2009 г.
  9. ^ «Esplorando il DeepWeb , i Fondali della Rete Dove Google Non Arriva» [Исследование DeepWeb, глубин Сети, куда не приходит Google]. Liberta di Stampa Diritto all'Informazione (Это итальянский перевод статьи Алекса Райта «Исследование «глубинной паутины», которую Google не может охватить» в New York Times) (на итальянском языке). Италия. 05 апреля 2009 г. Проверено 5 марта 2009 г.
  10. ^ Шандор, Берта (24 февраля 2009 г.). «Интернет исследует глубины DeepPeep» [Интернет исследует глубины DeepPeep]. sg.hu (на венгерском языке). СГ (Венгрия) . Проверено 5 марта 2009 г.
  11. ^ «Niet alles is te vinden Met Google» [Не все можно найти в Google] (на голландском языке). Голландские ковбои. 04.03.2009 . Проверено 5 марта 2009 г.
  12. ^ «Исследование «глубинной сети», которую Google не может охватить » [Изучите «глубокую сеть», которую Google еще не доминирует] (Это перевод на китайский язык статьи New York Times «Исследование «глубокой сети», которую Google не может охватить»). » Алекса Райта) (на китайском языке). 03 марта 2006 г. Архивировано из оригинала 07 июля 2011 г. Проверено 5 марта 2009 г.
  13. ^ «Sfida al deep web: la Kosmix prova a svelare le pagine nascoste di Internet» [Вызов глубокой паутине: Kosmix пытается раскрыть скрытые страницы Интернета]. Сообщение. 23 февраля 2009 г. Архивировано из оригинала 4 августа 2012 г. Проверено 13 декабря 2010 г.
  14. ^ Jump up to: а б с д и Барбоза, Лучано; Нгуен, Хоа; Нгуен, Тхань; Пиннаманени, Рамеш; Фрейре, Юлиана (01 января 2010 г.). «Создание и изучение репозиториев веб-форм». Материалы Международной конференции ACM SIGMOD 2010 по управлению данными . СИГМОД '10. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 1175–1178. дои : 10.1145/1807167.1807311 . ISBN  9781450300322 . S2CID   15471440 .
  15. ^ «ВиДА-НЮ/боль» . Гитхаб . Проверено 6 ноября 2016 г.
  16. ^ Дуйгулу, Пинар (22 декабря 1999 г.). Лопрести, Дэниел П.; Чжоу, Цзянин (ред.). «Иерархическое представление форм документов для идентификации и поиска» . Труды SPIE . Распознавание и поиск документов VII. 3967 (1): 128. Бибкод : 1999SPIE.3967..128D . дои : 10.1117/12.373486 . ISSN   0277-786X . S2CID   28128295 .
  17. ^ Беккет, Энди (25 ноября 2009 г.). «Тёмная сторона Интернета» . Хранитель . ISSN   0261-3077 . Проверено 6 ноября 2016 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e9239ab99d2c8d531ecf7e9393390efd__1691327640
URL1:https://arc.ask3.ru/arc/aa/e9/fd/e9239ab99d2c8d531ecf7e9393390efd.html
Заголовок, (Title) документа по адресу, URL1:
DeepPeep - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)