Целенаправленный сканер
Целенаправленный сканер — это веб-сканер , который собирает веб-страницы, которые удовлетворяют некоторым конкретным свойствам, путем тщательного определения приоритетов границ сканирования и управления процессом исследования гиперссылок. [ 1 ] Некоторые предикаты могут быть основаны на простых, детерминированных и поверхностных свойствах. Например, задачей сканера может быть сканирование страниц только из домена .jp. Другие предикаты могут быть более мягкими или сравнительными, например, «сканировать страницы о бейсболе» или «сканировать страницы с большим PageRank ». Важное свойство страницы относится к темам, что приводит к появлению «тематических сканеров». Например, можно использовать тематический сканер для сбора страниц о солнечной энергии, свином гриппе или даже более абстрактных понятиях, таких как полемика. [ 2 ] при этом минимизируя ресурсы, затрачиваемые на получение страниц по другим темам. Управление границами сканирования, возможно, не единственный инструмент, используемый целенаправленными сканерами; они могут использовать веб-каталог , текстовый веб-индекс , обратные ссылки или любой другой веб-артефакт.
Целенаправленный сканер должен предсказать вероятность того, что непосещенная страница будет релевантной, прежде чем фактическая загрузка страницы. [ 3 ] Возможным предиктором является якорный текст ссылок; именно такой подход использовал Пинкертон [ 4 ] в сканере, разработанном на заре Интернета. Тематическое сканирование было впервые предложено Филиппо Менцером . [ 5 ] [ 6 ] Чакрабарти и др. придумал термин «сфокусированный сканер» и использовал классификатор текста. [ 7 ] чтобы расставить приоритеты в границах сканирования. Эндрю МакКаллум и соавторы также использовали обучение с подкреплением. [ 8 ] [ 9 ] для фокусировки сканеров. Дилигенти и др. проследил граф контекста [ 10 ] ведущие к соответствующим страницам и их текстовому содержимому для обучения классификаторов. Для постоянного обучения использовалась форма онлайн-обучения с подкреплением, а также функции, извлеченные из дерева DOM и текста ссылающихся страниц. [ 11 ] классификаторы, которые направляют сканирование. В обзоре тематических алгоритмов сканирования Menczer et al. [ 12 ] показывают, что такие простые стратегии очень эффективны для коротких обходов, в то время как более сложные методы, такие как обучение с подкреплением и эволюционная адаптация, могут дать лучшую производительность при более длительных обходах. Было показано, что пространственная Информация важна для классификации веб-документов. [ 13 ]
Другой тип специализированных сканеров — это семантически ориентированный сканер, который использует онтологии предметной области для представления тематических карт и связывания веб-страниц с соответствующими онтологическими концепциями для целей выбора и категоризации. [ 14 ] Кроме того, онтологии могут автоматически обновляться в процессе сканирования. Донг и др. [ 15 ] представила такой сканер на основе обучения онтологии, использующий машину опорных векторов для обновления содержания онтологических концепций при сканировании веб-страниц.
Поисковые роботы также сосредоточены на свойствах страниц, помимо тем. Чо и др. [ 16 ] изучите различные политики определения приоритетов сканирования и их влияние на популярность ссылок на просматриваемые страницы. Найорк и Вайнер [ 17 ] покажите, что сканирование в ширину , начиная с популярных исходных страниц, приводит к сбору страниц с высоким PageRank на ранних этапах сканирования. Об усовершенствованиях, связанных с обнаружением устаревших (плохо поддерживаемых) страниц, сообщили Eiron et al. [ 18 ] Своего рода семантически ориентированный сканер, использующий идею обучения с подкреплением, был предложен Мейзелем и др. [ 19 ] использование онлайн-алгоритмов классификации в сочетании со стратегией бандитского отбора для эффективного сканирования страниц с такими языками разметки, как RDFa , Microformats и Microdata .
Производительность целенаправленного сканера зависит от количества ссылок по конкретной искомой теме, а целенаправленное сканирование обычно опирается на общую поисковую систему в Интернете в качестве отправной точки. Дэвисон [ 20 ] представил исследования веб-ссылок и текста, которые объясняют, почему целенаправленное сканирование является успешным по широким темам; аналогичные исследования были представлены Chakrabarti et al. [ 21 ] Выбор семян может иметь важное значение для целеустремленных гусениц и существенно влиять на эффективность сканирования. [ 22 ] Стратегия белого списка заключается в том, чтобы начать сканирование со списка высококачественных начальных URL-адресов и ограничить область сканирования доменами этих URL-адресов. Эти высококачественные исходные данные следует выбирать на основе списка потенциальных URL-адресов , который накапливается за достаточно длительный период общего сканирования веб-страниц. следует Белый список периодически обновлять после его создания.
Ссылки
[ редактировать ]- ^ Сумен Чакрабарти, Целенаправленное веб-сканирование , в Энциклопедии систем баз данных .
- ^ Спорные темы
- ^ Улучшение производительности целевых веб-сканеров [1] , Сотирис Басакис, Еврипид Г.М. Петракис, Евангелос Милиос, 9 апреля 2012 г.
- ^ Пинкертон, Б. (1994). Находим то, что хотят люди: опыт работы с WebCrawler . В материалах первой конференции World Wide Web, Женева, Швейцария.
- ^ Менцер, Ф. (1997). Паукообразные: адаптивные поисковые агенты, выбирающие эвристические окрестности для обнаружения информации. Архивировано 21 декабря 2012 г. в Wayback Machine . В изд. Д. Фишера, Материалы 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.
- ^ Менцер, Ф. и Белью, РК (1998). Адаптивные информационные агенты в распределенных текстовых средах. Архивировано 21 декабря 2012 г. в Wayback Machine . В К. Сикара и М. Вулдридж (ред.) Материалы 2-й Международной конференции по автономным агентам (Агенты '98). АКМ Пресс.
- ^ Целенаправленное сканирование: новый подход к обнаружению веб-ресурсов по конкретной теме , Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.
- ^ Подход машинного обучения к созданию специализированных поисковых систем , Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI, 1999.
- ^ Использование обучения с подкреплением для эффективной работы в сети , Джейсон Ренни и Эндрю МакКаллум, ICML 1999.
- ^ Дилигенти, М., Кутзи, Ф., Лоуренс, С., Джайлз, К.Л., и Гори, М. (2000). Целенаправленное сканирование с использованием контекстных графов. Архивировано 7 марта 2008 г. на Wayback Machine . В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527–534, Каир, Египет.
- ^ Ускоренное целенаправленное сканирование посредством обратной связи по релевантности в Интернете , Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.
- ^ Менцер Ф., Пант Г. и Шринивасан П. (2004). Тематические веб-краулеры: оценка адаптивных алгоритмов . АКМ Транс. по Интернет-технологиям 4 (4): 378–419.
- ^ Распознавание общих областей веб-страницы с использованием визуальной информации: возможное применение в классификации страниц , Милош Ковачевич, Микеланджело Дилигенти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.
- ^ Донг, Х., Хуссейн, Ф.К., Чанг, Э.: Современное состояние сканеров, ориентированных на семантику . Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924.
- ^ Донг, Х., Хусейн, ФК: SOF: полуконтролируемый сканер, основанный на обучении онтологии. Параллелизм и вычисления: практика и опыт. 25(12) (август 2013 г.), стр. 1623–1812.
- ^ Чонху Чо, Гектор Гарсиа-Молина, Лоуренс Пейдж: Эффективное сканирование посредством упорядочения URL-адресов . Компьютерные сети 30 (1–7): 161–172 (1998).
- ^ Марк Найорк, Джанет Л. Винер: Сканирование в ширину позволяет получить страницы высокого качества . WWW 2001: 114–118.
- ^ Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Рейтинг границ Интернета . WWW 2004: 309-318.
- ^ Мейзель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных . Международная конференция ACM по управлению информацией и знаниями, страницы 1039–1048.
- ^ Брайан Д. Дэвисон: Актуальное место в Интернете . СИГИР 2000: 272-279.
- ^ Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в Интернете . WWW 2002: 251-262.
- ^ Цзян Ву, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуйи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для поисковой системы академических документов: белые и черные списки , В материалах 3-й ежегодной веб-научной конференции ACM Страницы 340–343, Эванстон, Иллинойс, США, июнь 2012 г.