Целенаправленный сканер
Целенаправленный сканер — это веб-сканер , который собирает веб-страницы, которые удовлетворяют некоторым конкретным свойствам, путем тщательного определения приоритетов границ сканирования и управления процессом исследования гиперссылок. [1] Некоторые предикаты могут быть основаны на простых, детерминированных и поверхностных свойствах. Например, задачей сканера может быть сканирование страниц только из домена .jp. Другие предикаты могут быть более мягкими или сравнительными, например, «сканировать страницы о бейсболе» или «сканировать страницы с большим PageRank ». Важное свойство страницы относится к темам, что приводит к появлению «тематических сканеров». Например, можно использовать тематический сканер для сбора страниц о солнечной энергии, свином гриппе или даже более абстрактных понятиях, таких как полемика. [2] минимизируя при этом ресурсы, затрачиваемые на получение страниц по другим темам. Управление границами сканирования, возможно, не единственный инструмент, используемый целенаправленными сканерами; они могут использовать веб-каталог , текстовый веб-индекс , обратные ссылки или любой другой веб-артефакт.
Целенаправленный сканер должен предсказать вероятность того, что непосещенная страница будет релевантной, прежде чем фактическая загрузка страницы. [3] Возможным предиктором является якорный текст ссылок; именно такой подход использовал Пинкертон [4] в сканере, разработанном на заре Интернета. Тематическое сканирование было впервые предложено Филиппо Менцером . [5] [6] Чакрабарти и др. придумал термин «сфокусированный сканер» и использовал классификатор текста. [7] чтобы расставить приоритеты в границах сканирования. Эндрю МакКаллум и соавторы также использовали обучение с подкреплением. [8] [9] для фокусировки сканеров. Дилигенти и др. проследил граф контекста [10] ведущие к соответствующим страницам и их текстовому содержимому для обучения классификаторов. Для постоянного обучения использовалась форма онлайн-обучения с подкреплением, а также функции, извлеченные из дерева DOM и текста ссылающихся страниц. [11] классификаторы, которые направляют сканирование. В обзоре тематических алгоритмов сканирования Menczer et al. [12] показывают, что такие простые стратегии очень эффективны для коротких обходов, в то время как более сложные методы, такие как обучение с подкреплением и эволюционная адаптация, могут дать лучшую производительность при более длительных обходах. Было показано, что пространственнаяИнформация важна для классификации веб-документов. [13]
Другой тип специализированных сканеров — это семантически ориентированный сканер, который использует онтологии предметной области для представления тематических карт и связывания веб-страниц с соответствующими онтологическими концепциями для целей выбора и категоризации. [14] Кроме того, онтологии могут автоматически обновляться в процессе сканирования. Донг и др. [15] представила такой сканер на основе обучения онтологии, использующий машину опорных векторов для обновления содержания онтологических концепций при сканировании веб-страниц.
Поисковые роботы также сосредоточены на свойствах страниц, помимо тем. Чо и др. [16] изучите различные политики определения приоритетов сканирования и их влияние на популярность ссылок на просматриваемые страницы. Найорк и Вайнер [17] покажите, что сканирование в ширину , начиная с популярных начальных страниц, приводит к сбору страниц с высоким PageRank на ранних этапах сканирования. Об усовершенствованиях, связанных с обнаружением устаревших (плохо поддерживаемых) страниц, сообщили Eiron et al. [18] Своего рода семантически ориентированный сканер, использующий идею обучения с подкреплением, был предложен Мейзелем и др. [19] использование онлайн-алгоритмов классификации в сочетании со стратегией бандитского отбора для эффективного сканирования страниц с такими языками разметки, как RDFa , Microformats и Microdata .
Производительность целенаправленного сканера зависит от количества ссылок по конкретной искомой теме, а целенаправленное сканирование обычно опирается на общую поисковую систему в Интернете в качестве отправной точки. Дэвисон [20] представил исследования веб-ссылок и текста, которые объясняют, почему целенаправленное сканирование является успешным по широким темам; аналогичные исследования были представлены Chakrabarti et al. [21] Выбор семян может иметь важное значение для целенаправленных гусениц и существенно влиять на эффективность сканирования. [22] Стратегия белого списка заключается в том, чтобы начать сканирование со списка высококачественных начальных URL-адресов и ограничить область сканирования доменами этих URL-адресов. Эти высококачественные исходные данные следует выбирать на основе списка потенциальных URL-адресов , который накапливается за достаточно длительный период общего сканирования веб-страниц. следует Белый список периодически обновлять после его создания.
Ссылки
[ редактировать ]- ^ Сумен Чакрабарти, Целенаправленное веб-сканирование , в Энциклопедии систем баз данных .
- ^ Спорные темы
- ^ Улучшение производительности целевых веб-сканеров [1] , Сотирис Басакис, Еврипид Г.М. Петракис, Евангелос Милиос, 9 апреля 2012 г.
- ^ Пинкертон, Б. (1994). Находим то, что хотят люди: опыт работы с WebCrawler . В материалах первой конференции World Wide Web, Женева, Швейцария.
- ^ Менцер, Ф. (1997). Паукообразные: адаптивные поисковые агенты, выбирающие эвристические окрестности для обнаружения информации. Архивировано 21 декабря 2012 г. в Wayback Machine . В изд. Д. Фишера, Материалы 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.
- ^ Менцер, Ф. и Белью, РК (1998). Адаптивные информационные агенты в распределенных текстовых средах. Архивировано 21 декабря 2012 г. в Wayback Machine . В К. Сикара и М. Вулдридж (ред.) Материалы 2-й Международной конференции по автономным агентам (Агенты '98). АКМ Пресс.
- ^ Целенаправленное сканирование: новый подход к обнаружению веб-ресурсов по конкретной теме , Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.
- ^ Подход машинного обучения к созданию специализированных поисковых систем , Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI, 1999.
- ^ Использование обучения с подкреплением для эффективной работы в сети , Джейсон Ренни и Эндрю МакКаллум, ICML 1999.
- ^ Дилигенти М., Кутзи Ф., Лоуренс С., Джайлз К.Л. и Гори М. (2000). Целенаправленное сканирование с использованием контекстных графов. Архивировано 7 марта 2008 г. на Wayback Machine . В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527–534, Каир, Египет.
- ^ Ускоренное целенаправленное сканирование посредством обратной связи по релевантности в Интернете , Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.
- ^ Менцер Ф., Пант Г. и Шринивасан П. (2004). Тематические веб-краулеры: оценка адаптивных алгоритмов . АКМ Транс. по Интернет-технологиям 4 (4): 378–419.
- ^ Распознавание общих областей на веб-странице с использованием визуальной информации: возможное применение в классификации страниц , Милош Ковачевич, Микеланджело Дилигенти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.
- ^ Донг, Х., Хуссейн, Ф.К., Чанг, Э.: Современное состояние сканеров, ориентированных на семантику . Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924.
- ^ Донг, Х., Хуссейн, ФК: SOF: полуконтролируемый сканер, основанный на обучении онтологии. Параллелизм и вычисления: практика и опыт. 25(12) (август 2013 г.), стр. 1623–1812.
- ^ Чонху Чо, Гектор Гарсиа-Молина, Лоуренс Пейдж: Эффективное сканирование посредством упорядочения URL-адресов . Компьютерные сети 30 (1–7): 161–172 (1998).
- ^ Марк Найорк, Джанет Л. Винер: Сканирование в ширину позволяет получить страницы высокого качества . WWW 2001: 114–118.
- ^ Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Рейтинг границ Интернета . WWW 2004: 309-318.
- ^ Мейзель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных . Международная конференция ACM по управлению информацией и знаниями, страницы 1039–1048.
- ^ Брайан Д. Дэвисон: Актуальное место в Интернете . СИГИР 2000: 272-279.
- ^ Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в Интернете . WWW 2002: 251-262.
- ^ Цзян Ву, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для поисковой системы академических документов: белые и черные списки , В материалах 3-й ежегодной веб-научной конференции ACM Страницы 340–343, Эванстон, Иллинойс, США, июнь 2012 г.