Целенаправленный сканер

Целенаправленный сканер — это веб-сканер , который собирает веб-страницы, которые удовлетворяют некоторым конкретным свойствам, путем тщательного определения приоритетов границ сканирования и управления процессом исследования гиперссылок. ^{[ 1 ]} Некоторые предикаты могут быть основаны на простых, детерминированных и поверхностных свойствах. Например, задачей сканера может быть сканирование страниц только из домена .jp. Другие предикаты могут быть более мягкими или сравнительными, например, «сканировать страницы о бейсболе» или «сканировать страницы с большим PageRank ». Важное свойство страницы относится к темам, что приводит к появлению «тематических сканеров». Например, можно использовать тематический сканер для сбора страниц о солнечной энергии, свином гриппе или даже более абстрактных понятиях, таких как полемика. ^{[ 2 ]} при этом минимизируя ресурсы, затрачиваемые на получение страниц по другим темам. Управление границами сканирования, возможно, не единственный инструмент, используемый целенаправленными сканерами; они могут использовать веб-каталог , текстовый веб-индекс , обратные ссылки или любой другой веб-артефакт.

Целенаправленный сканер должен предсказать вероятность того, что непосещенная страница будет релевантной, прежде чем фактическая загрузка страницы. ^{[ 3 ]} Возможным предиктором является якорный текст ссылок; именно такой подход использовал Пинкертон ^{[ 4 ]} в сканере, разработанном на заре Интернета. Тематическое сканирование было впервые предложено Филиппо Менцером . ^{[ 5 ]}^{[ 6 ]} Чакрабарти и др. придумал термин «сфокусированный сканер» и использовал классификатор текста. ^{[ 7 ]} чтобы расставить приоритеты в границах сканирования. Эндрю МакКаллум и соавторы также использовали обучение с подкреплением. ^{[ 8 ]}^{[ 9 ]} для фокусировки сканеров. Дилигенти и др. проследил граф контекста ^{[ 10 ]} ведущие к соответствующим страницам и их текстовому содержимому для обучения классификаторов. Для постоянного обучения использовалась форма онлайн-обучения с подкреплением, а также функции, извлеченные из дерева DOM и текста ссылающихся страниц. ^{[ 11 ]} классификаторы, которые направляют сканирование. В обзоре тематических алгоритмов сканирования Menczer et al. ^{[ 12 ]} показывают, что такие простые стратегии очень эффективны для коротких обходов, в то время как более сложные методы, такие как обучение с подкреплением и эволюционная адаптация, могут дать лучшую производительность при более длительных обходах. Было показано, что пространственная Информация важна для классификации веб-документов. ^{[ 13 ]}

Другой тип специализированных сканеров — это семантически ориентированный сканер, который использует онтологии предметной области для представления тематических карт и связывания веб-страниц с соответствующими онтологическими концепциями для целей выбора и категоризации. ^{[ 14 ]} Кроме того, онтологии могут автоматически обновляться в процессе сканирования. Донг и др. ^{[ 15 ]} представила такой сканер на основе обучения онтологии, использующий машину опорных векторов для обновления содержания онтологических концепций при сканировании веб-страниц.

Поисковые роботы также сосредоточены на свойствах страниц, помимо тем. Чо и др. ^{[ 16 ]} изучите различные политики определения приоритетов сканирования и их влияние на популярность ссылок на просматриваемые страницы. Найорк и Вайнер ^{[ 17 ]} покажите, что сканирование в ширину , начиная с популярных исходных страниц, приводит к сбору страниц с высоким PageRank на ранних этапах сканирования. Об усовершенствованиях, связанных с обнаружением устаревших (плохо поддерживаемых) страниц, сообщили Eiron et al. ^{[ 18 ]} Своего рода семантически ориентированный сканер, использующий идею обучения с подкреплением, был предложен Мейзелем и др. ^{[ 19 ]} использование онлайн-алгоритмов классификации в сочетании со стратегией бандитского отбора для эффективного сканирования страниц с такими языками разметки, как RDFa , Microformats и Microdata .

Производительность целенаправленного сканера зависит от количества ссылок по конкретной искомой теме, а целенаправленное сканирование обычно опирается на общую поисковую систему в Интернете в качестве отправной точки. Дэвисон ^{[ 20 ]} представил исследования веб-ссылок и текста, которые объясняют, почему целенаправленное сканирование является успешным по широким темам; аналогичные исследования были представлены Chakrabarti et al. ^{[ 21 ]} Выбор семян может иметь важное значение для целеустремленных гусениц и существенно влиять на эффективность сканирования. ^{[ 22 ]} Стратегия белого списка заключается в том, чтобы начать сканирование со списка высококачественных начальных URL-адресов и ограничить область сканирования доменами этих URL-адресов. Эти высококачественные исходные данные следует выбирать на основе списка потенциальных URL-адресов , который накапливается за достаточно длительный период общего сканирования веб-страниц. следует Белый список периодически обновлять после его создания.

Ссылки

^ Сумен Чакрабарти, Целенаправленное веб-сканирование , в Энциклопедии систем баз данных .
^ Спорные темы
^ Улучшение производительности целевых веб-сканеров [1] , Сотирис Басакис, Еврипид Г.М. Петракис, Евангелос Милиос, 9 апреля 2012 г.
^ Пинкертон, Б. (1994). Находим то, что хотят люди: опыт работы с WebCrawler . В материалах первой конференции World Wide Web, Женева, Швейцария.
^ Менцер, Ф. (1997). Паукообразные: адаптивные поисковые агенты, выбирающие эвристические окрестности для обнаружения информации. Архивировано 21 декабря 2012 г. в Wayback Machine . В изд. Д. Фишера, Материалы 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.
^ Менцер, Ф. и Белью, РК (1998). Адаптивные информационные агенты в распределенных текстовых средах. Архивировано 21 декабря 2012 г. в Wayback Machine . В К. Сикара и М. Вулдридж (ред.) Материалы 2-й Международной конференции по автономным агентам (Агенты '98). АКМ Пресс.
^ Целенаправленное сканирование: новый подход к обнаружению веб-ресурсов по конкретной теме , Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.
^ Подход машинного обучения к созданию специализированных поисковых систем , Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI, 1999.
^ Использование обучения с подкреплением для эффективной работы в сети , Джейсон Ренни и Эндрю МакКаллум, ICML 1999.
^ Дилигенти, М., Кутзи, Ф., Лоуренс, С., Джайлз, К.Л., и Гори, М. (2000). Целенаправленное сканирование с использованием контекстных графов. Архивировано 7 марта 2008 г. на Wayback Machine . В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527–534, Каир, Египет.
^ Ускоренное целенаправленное сканирование посредством обратной связи по релевантности в Интернете , Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.
^ Менцер Ф., Пант Г. и Шринивасан П. (2004). Тематические веб-краулеры: оценка адаптивных алгоритмов . АКМ Транс. по Интернет-технологиям 4 (4): 378–419.
^ Распознавание общих областей веб-страницы с использованием визуальной информации: возможное применение в классификации страниц , Милош Ковачевич, Микеланджело Дилигенти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.
^ Донг, Х., Хуссейн, Ф.К., Чанг, Э.: Современное состояние сканеров, ориентированных на семантику . Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924.
^ Донг, Х., Хусейн, ФК: SOF: полуконтролируемый сканер, основанный на обучении онтологии. Параллелизм и вычисления: практика и опыт. 25(12) (август 2013 г.), стр. 1623–1812.
^ Чонху Чо, Гектор Гарсиа-Молина, Лоуренс Пейдж: Эффективное сканирование посредством упорядочения URL-адресов . Компьютерные сети 30 (1–7): 161–172 (1998).
^ Марк Найорк, Джанет Л. Винер: Сканирование в ширину позволяет получить страницы высокого качества . WWW 2001: 114–118.
^ Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Рейтинг границ Интернета . WWW 2004: 309-318.
^ Мейзель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных . Международная конференция ACM по управлению информацией и знаниями, страницы 1039–1048.
^ Брайан Д. Дэвисон: Актуальное место в Интернете . СИГИР 2000: 272-279.
^ Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в Интернете . WWW 2002: 251-262.
^ Цзян Ву, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуйи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для поисковой системы академических документов: белые и черные списки , В материалах 3-й ежегодной веб-научной конференции ACM Страницы 340–343, Эванстон, Иллинойс, США, июнь 2012 г.

[1] Сумен Чакрабарти, Целенаправленное веб-сканирование , в Энциклопедии систем баз данных .

[2] Спорные темы

[3] Улучшение производительности целевых веб-сканеров [1] , Сотирис Басакис, Еврипид Г.М. Петракис, Евангелос Милиос, 9 апреля 2012 г.

[4] Пинкертон, Б. (1994). Находим то, что хотят люди: опыт работы с WebCrawler . В материалах первой конференции World Wide Web, Женева, Швейцария.

[5] Менцер, Ф. (1997). Паукообразные: адаптивные поисковые агенты, выбирающие эвристические окрестности для обнаружения информации. Архивировано 21 декабря 2012 г. в Wayback Machine . В изд. Д. Фишера, Материалы 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.

[6] Менцер, Ф. и Белью, РК (1998). Адаптивные информационные агенты в распределенных текстовых средах. Архивировано 21 декабря 2012 г. в Wayback Machine . В К. Сикара и М. Вулдридж (ред.) Материалы 2-й Международной конференции по автономным агентам (Агенты '98). АКМ Пресс.

[7] Целенаправленное сканирование: новый подход к обнаружению веб-ресурсов по конкретной теме , Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.

[8] Подход машинного обучения к созданию специализированных поисковых систем , Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI, 1999.

[9] Использование обучения с подкреплением для эффективной работы в сети , Джейсон Ренни и Эндрю МакКаллум, ICML 1999.

[10] Дилигенти, М., Кутзи, Ф., Лоуренс, С., Джайлз, К.Л., и Гори, М. (2000). Целенаправленное сканирование с использованием контекстных графов. Архивировано 7 марта 2008 г. на Wayback Machine . В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527–534, Каир, Египет.

[11] Ускоренное целенаправленное сканирование посредством обратной связи по релевантности в Интернете , Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.

[12] Менцер Ф., Пант Г. и Шринивасан П. (2004). Тематические веб-краулеры: оценка адаптивных алгоритмов . АКМ Транс. по Интернет-технологиям 4 (4): 378–419.

[13] Распознавание общих областей веб-страницы с использованием визуальной информации: возможное применение в классификации страниц , Милош Ковачевич, Микеланджело Дилигенти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.

[14] Донг, Х., Хуссейн, Ф.К., Чанг, Э.: Современное состояние сканеров, ориентированных на семантику . Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924.

[15] Донг, Х., Хусейн, ФК: SOF: полуконтролируемый сканер, основанный на обучении онтологии. Параллелизм и вычисления: практика и опыт. 25(12) (август 2013 г.), стр. 1623–1812.

[16] Чонху Чо, Гектор Гарсиа-Молина, Лоуренс Пейдж: Эффективное сканирование посредством упорядочения URL-адресов . Компьютерные сети 30 (1–7): 161–172 (1998).

[17] Марк Найорк, Джанет Л. Винер: Сканирование в ширину позволяет получить страницы высокого качества . WWW 2001: 114–118.

[18] Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Рейтинг границ Интернета . WWW 2004: 309-318.

[19] Мейзель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных . Международная конференция ACM по управлению информацией и знаниями, страницы 1039–1048.

[20] Брайан Д. Дэвисон: Актуальное место в Интернете . СИГИР 2000: 272-279.

[21] Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в Интернете . WWW 2002: 251-262.

[22] Цзян Ву, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуйи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для поисковой системы академических документов: белые и черные списки , В материалах 3-й ежегодной веб-научной конференции ACM Страницы 340–343, Эванстон, Иллинойс, США, июнь 2012 г.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

v т и Интернет-поиск
Types	Web search engine (List) Metasearch engine Multimedia search Collaborative search engine Cross-language search Local search Vertical search Social search Image search Audio search Video search engine Enterprise search Semantic search Natural language search engine Voice search
Tools	Cross-language information retrieval Search by sound Search engine marketing Search engine optimization Evaluation measures Search oriented architecture Selection-based search Document retrieval Text mining Web crawler Multisearch Federated search Search aggregator Index/Web indexing Focused crawler Spider trap Robots exclusion standard Distributed web crawling Web archiving Website mirroring software Web query Web query classification
Protocols and standards	Z39.50 Search/Retrieve Web Service Search/Retrieve via URL OpenSearch Representational State Transfer Wide area information server
See also	Search engine Desktop search Online search

v т и Веб-сканеры
Internet bots designed for Web crawling and Web indexing
Active	80legs bingbot Crawljax Fetcher Googlebot Heritrix HTTrack PowerMapper Wget
Discontinued	FAST Crawler msnbot RBSE TkWWW robot Twiceler
Types	Distributed web crawler Focused crawler