Jump to content

Целенаправленный сканер

(Перенаправлено с поисковых роботов Focused )

Целенаправленный сканер — это веб-сканер , который собирает веб-страницы, которые удовлетворяют некоторым конкретным свойствам, путем тщательного определения приоритетов границ сканирования и управления процессом исследования гиперссылок. [ 1 ] Некоторые предикаты могут быть основаны на простых, детерминированных и поверхностных свойствах. Например, задачей сканера может быть сканирование страниц только из домена .jp. Другие предикаты могут быть более мягкими или сравнительными, например, «сканировать страницы о бейсболе» или «сканировать страницы с большим PageRank ». Важное свойство страницы относится к темам, что приводит к появлению «тематических сканеров». Например, можно использовать тематический сканер для сбора страниц о солнечной энергии, свином гриппе или даже более абстрактных понятиях, таких как полемика. [ 2 ] при этом минимизируя ресурсы, затрачиваемые на получение страниц по другим темам. Управление границами сканирования, возможно, не единственный инструмент, используемый целенаправленными сканерами; они могут использовать веб-каталог , текстовый веб-индекс , обратные ссылки или любой другой веб-артефакт.

Целенаправленный сканер должен предсказать вероятность того, что непосещенная страница будет релевантной, прежде чем фактическая загрузка страницы. [ 3 ] Возможным предиктором является якорный текст ссылок; именно такой подход использовал Пинкертон [ 4 ] в сканере, разработанном на заре Интернета. Тематическое сканирование было впервые предложено Филиппо Менцером . [ 5 ] [ 6 ] Чакрабарти и др. придумал термин «сфокусированный сканер» и использовал классификатор текста. [ 7 ] чтобы расставить приоритеты в границах сканирования. Эндрю МакКаллум и соавторы также использовали обучение с подкреплением. [ 8 ] [ 9 ] для фокусировки сканеров. Дилигенти и др. проследил граф контекста [ 10 ] ведущие к соответствующим страницам и их текстовому содержимому для обучения классификаторов. Для постоянного обучения использовалась форма онлайн-обучения с подкреплением, а также функции, извлеченные из дерева DOM и текста ссылающихся страниц. [ 11 ] классификаторы, которые направляют сканирование. В обзоре тематических алгоритмов сканирования Menczer et al. [ 12 ] показывают, что такие простые стратегии очень эффективны для коротких обходов, в то время как более сложные методы, такие как обучение с подкреплением и эволюционная адаптация, могут дать лучшую производительность при более длительных обходах. Было показано, что пространственная Информация важна для классификации веб-документов. [ 13 ]

Другой тип специализированных сканеров — это семантически ориентированный сканер, который использует онтологии предметной области для представления тематических карт и связывания веб-страниц с соответствующими онтологическими концепциями для целей выбора и категоризации. [ 14 ] Кроме того, онтологии могут автоматически обновляться в процессе сканирования. Донг и др. [ 15 ] представила такой сканер на основе обучения онтологии, использующий машину опорных векторов для обновления содержания онтологических концепций при сканировании веб-страниц.

Поисковые роботы также сосредоточены на свойствах страниц, помимо тем. Чо и др. [ 16 ] изучите различные политики определения приоритетов сканирования и их влияние на популярность ссылок на просматриваемые страницы. Найорк и Вайнер [ 17 ] покажите, что сканирование в ширину , начиная с популярных исходных страниц, приводит к сбору страниц с высоким PageRank на ранних этапах сканирования. Об усовершенствованиях, связанных с обнаружением устаревших (плохо поддерживаемых) страниц, сообщили Eiron et al. [ 18 ] Своего рода семантически ориентированный сканер, использующий идею обучения с подкреплением, был предложен Мейзелем и др. [ 19 ] использование онлайн-алгоритмов классификации в сочетании со стратегией бандитского отбора для эффективного сканирования страниц с такими языками разметки, как RDFa , Microformats и Microdata .

Производительность целенаправленного сканера зависит от количества ссылок по конкретной искомой теме, а целенаправленное сканирование обычно опирается на общую поисковую систему в Интернете в качестве отправной точки. Дэвисон [ 20 ] представил исследования веб-ссылок и текста, которые объясняют, почему целенаправленное сканирование является успешным по широким темам; аналогичные исследования были представлены Chakrabarti et al. [ 21 ] Выбор семян может иметь важное значение для целеустремленных гусениц и существенно влиять на эффективность сканирования. [ 22 ] Стратегия белого списка заключается в том, чтобы начать сканирование со списка высококачественных начальных URL-адресов и ограничить область сканирования доменами этих URL-адресов. Эти высококачественные исходные данные следует выбирать на основе списка потенциальных URL-адресов , который накапливается за достаточно длительный период общего сканирования веб-страниц. следует Белый список периодически обновлять после его создания.

  1. ^ Сумен Чакрабарти, Целенаправленное веб-сканирование , в Энциклопедии систем баз данных .
  2. ^ Спорные темы
  3. ^ Улучшение производительности целевых веб-сканеров [1] , Сотирис Басакис, Еврипид Г.М. Петракис, Евангелос Милиос, 9 апреля 2012 г.
  4. ^ Пинкертон, Б. (1994). Находим то, что хотят люди: опыт работы с WebCrawler . В материалах первой конференции World Wide Web, Женева, Швейцария.
  5. ^ Менцер, Ф. (1997). Паукообразные: адаптивные поисковые агенты, выбирающие эвристические окрестности для обнаружения информации. Архивировано 21 декабря 2012 г. в Wayback Machine . В изд. Д. Фишера, Материалы 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.
  6. ^ Менцер, Ф. и Белью, РК (1998). Адаптивные информационные агенты в распределенных текстовых средах. Архивировано 21 декабря 2012 г. в Wayback Machine . В К. Сикара и М. Вулдридж (ред.) Материалы 2-й Международной конференции по автономным агентам (Агенты '98). АКМ Пресс.
  7. ^ Целенаправленное сканирование: новый подход к обнаружению веб-ресурсов по конкретной теме , Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.
  8. ^ Подход машинного обучения к созданию специализированных поисковых систем , Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI, 1999.
  9. ^ Использование обучения с подкреплением для эффективной работы в сети , Джейсон Ренни и Эндрю МакКаллум, ICML 1999.
  10. ^ Дилигенти, М., Кутзи, Ф., Лоуренс, С., Джайлз, К.Л., и Гори, М. (2000). Целенаправленное сканирование с использованием контекстных графов. Архивировано 7 марта 2008 г. на Wayback Machine . В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527–534, Каир, Египет.
  11. ^ Ускоренное целенаправленное сканирование посредством обратной связи по релевантности в Интернете , Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.
  12. ^ Менцер Ф., Пант Г. и Шринивасан П. (2004). Тематические веб-краулеры: оценка адаптивных алгоритмов . АКМ Транс. по Интернет-технологиям 4 (4): 378–419.
  13. ^ Распознавание общих областей веб-страницы с использованием визуальной информации: возможное применение в классификации страниц , Милош Ковачевич, Микеланджело Дилигенти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.
  14. ^ Донг, Х., Хуссейн, Ф.К., Чанг, Э.: Современное состояние сканеров, ориентированных на семантику . Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924.
  15. ^ Донг, Х., Хусейн, ФК: SOF: полуконтролируемый сканер, основанный на обучении онтологии. Параллелизм и вычисления: практика и опыт. 25(12) (август 2013 г.), стр. 1623–1812.
  16. ^ Чонху Чо, Гектор Гарсиа-Молина, Лоуренс Пейдж: Эффективное сканирование посредством упорядочения URL-адресов . Компьютерные сети 30 (1–7): 161–172 (1998).
  17. ^ Марк Найорк, Джанет Л. Винер: Сканирование в ширину позволяет получить страницы высокого качества . WWW 2001: 114–118.
  18. ^ Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Рейтинг границ Интернета . WWW 2004: 309-318.
  19. ^ Мейзель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных . Международная конференция ACM по управлению информацией и знаниями, страницы 1039–1048.
  20. ^ Брайан Д. Дэвисон: Актуальное место в Интернете . СИГИР 2000: 272-279.
  21. ^ Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в Интернете . WWW 2002: 251-262.
  22. ^ Цзян Ву, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуйи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для поисковой системы академических документов: белые и черные списки , В материалах 3-й ежегодной веб-научной конференции ACM Страницы 340–343, Эванстон, Иллинойс, США, июнь 2012 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d74ff8a4d0d4ac3e47477d9c832186a0__1684343340
URL1:https://arc.ask3.ru/arc/aa/d7/a0/d74ff8a4d0d4ac3e47477d9c832186a0.html
Заголовок, (Title) документа по адресу, URL1:
Focused crawler - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)