Jump to content

Глубокая паутина

(Перенаправлено из Deep Web (поисковая индексация) )

Глубокая паутина , [1] невидимая паутина , [2] или скрытая сеть [3] являются частью Всемирной паутины , содержимое которой не индексируется стандартными программами поисковых систем . Это отличие от « поверхностной сети », которая доступна каждому, кто пользуется Интернетом. [4] Ученому-компьютерщику Майклу К. Бергману приписывают изобретение этого термина в 2001 году в качестве термина для индексации поиска. [5]

Доступ к сайтам Deep Web можно получить по прямому URL-адресу или IP-адресу , но для доступа к реальному контенту может потребоваться ввод пароля или другой информации безопасности. [6] [7] Сайты глубокой паутины включают в себя веб-почту , онлайн-банкинг , облачные хранилища с ограниченным доступом в социальных сетях , страницы и профили , а также веб-форумы , которые требуют регистрации для просмотра контента. Сюда также входят платные услуги, такие как видео по запросу , а также некоторые онлайн-журналы и газеты.

Терминология [ править ]

Первое объединение терминов «глубокая сеть» и « даркнет » произошло в 2009 году, когда терминология поиска в глубокой сети обсуждалась вместе с незаконной деятельностью, происходящей во Freenet и даркнете . [8] Эта преступная деятельность включает торговлю личными паролями, фальшивыми документами, удостоверяющими личность , наркотиками, огнестрельным оружием и детской порнографией . [9]

С тех пор, после их использования в репортажах СМИ о сайте черного рынка Silk Road , средства массовой информации обычно используют термин «глубокая паутина» как синоним даркнета . или даркнета , сравнение, которое некоторые отвергают как неточное [10] и, следовательно, стал постоянным источником путаницы. [11] Wired Репортеры Ким Зеттер [12] и Энди Гринберг [13] рекомендуют использовать эти термины по-разному. В то время как «глубокая сеть» — это ссылка на любой сайт, к которому не может получить доступ традиционная поисковая система, «даркнет» — это часть глубокой сети, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. [14] [15] [16] [17] [18] [ чрезмерное цитирование ]

Неиндексированный контент [ править ]

Бергман в статье о глубокой сети, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсуорт использовала термин «Невидимая сеть» в 1994 году для обозначения веб-сайтов, которые не были зарегистрированы ни в одной поисковой системе. [19] Бергман процитировал статью Фрэнка Гарсии, опубликованную в январе 1996 года: [20]

Это был бы сайт, который, возможно, был бы разумно спроектирован, но его не удосужились зарегистрировать ни в одной поисковой системе. Значит, их никто не найдет! Вы скрыты. Я называю это невидимой паутиной.

Другое раннее использование термина « Невидимая паутина» было осуществлено Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании программы Deep Web № 1, найденном в пресс-релизе от декабря 1996 года. [21]

Первое использование термина « глубокая паутина» , ныне общепринятого, произошло в вышеупомянутом исследовании Бергмана 2001 года. [19]

Методы индексации [ править ]

Методы, предотвращающие индексацию веб-страниц традиционными поисковыми системами, можно отнести к одной или нескольким из следующих категорий:

  1. Контекстная сеть : страницы с содержимым, различным для разных контекстов доступа (например, диапазонов IP-адресов клиентов или предыдущей последовательности навигации).
  2. Динамический контент : динамические страницы , которые возвращаются в ответ на отправленный запрос или доступны только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких областях трудно ориентироваться без знания предметной области .
  3. Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническим способом (например, с помощью стандарта исключения роботов или CAPTCHA или директивы no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии). [22] Сайты могут иметь внутреннюю поисковую систему для изучения таких страниц. [23] [24]
  4. Не-HTML/текстовый контент : текстовый контент, закодированный в мультимедийных файлах (изображения или видео) или в определенных форматах файлов, не распознаваемых поисковыми системами.
  5. Частный Интернет : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
  6. Скриптовый контент : страницы, доступные только по ссылкам, созданным с помощью JavaScript , а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax .
  7. Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета и доступен только с помощью специального программного обеспечения, такого как Tor , I2P или другого программного обеспечения даркнета. Например, Tor позволяет пользователям анонимно получать доступ к веб-сайтам, используя адрес сервера .onion , скрывая свой IP-адрес.
  8. Несвязанный контент : страницы, на которые нет ссылок с других страниц, что может помешать программам веб-сканирования получить доступ к контенту. Этот контент называется страницами без обратных ссылок (также называемыми входными ссылками). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с искомых веб-страниц.
  9. Веб-архивы . Службы веб-архивирования, такие как Wayback Machine, позволяют пользователям просматривать архивные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступны и не индексируются поисковыми системами, такими как Google. Wayback Machine можно назвать программой для просмотра глубокой сети, поскольку веб-архивы, созданные не в настоящем, не могут быть проиндексированы, поскольку прошлые версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты время от времени обновляются, поэтому веб-архивы считаются контентом Deep Web. [25]

Типы контента [ править ]

Хотя не всегда возможно напрямую обнаружить содержимое конкретного веб-сервера для его индексации, доступ к сайту потенциально возможен косвенный (из-за уязвимостей компьютера ).

Чтобы обнаружить контент в Интернете, поисковые системы используют веб-сканеры , которые переходят по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеально подходит для поиска контента в поверхностной сети, но часто неэффективен при поиске контента в глубокой сети. Например, эти сканеры не пытаются найти динамические страницы, являющиеся результатом запросов к базе данных, из-за неопределенного количества возможных запросов. [26] Было отмечено, что это можно преодолеть (частично), предоставив ссылки на результаты запроса, но это может непреднамеренно повысить популярность сайта в глубокой сети.

DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi — это несколько поисковых систем, которые получили доступ к глубокой сети. У Intute закончилось финансирование, и по состоянию на июль 2011 года он представляет собой временный статический архив. [27] Сайрус ушел на пенсию в конце января 2013 года. [28]

Исследователи изучают, как можно автоматически сканировать глубокую сеть, включая контент, доступ к которому возможен только с помощью специального программного обеспечения, такого как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсиа-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) [29] [30] представил архитектурную модель сканера скрытой сети, который использовал важные термины, предоставленные пользователями или собранные из интерфейсов запросов, для запроса веб-формы и сканирования содержимого глубокой сети. Александрос Нтулас, Петрос Зерфос и Чонху Чо из Калифорнийского университета в Лос-Анджелесе создали сканер скрытой сети, который автоматически генерирует осмысленные запросы для обработки поисковых форм. [31] Несколько языков запросов форм (например, DEQUEL [32] ) были предложены, которые, помимо выдачи запроса, также позволяют извлекать структурированные данные из страниц результатов. Еще одним проектом является DeepPeep, проект Университета Юты , спонсируемый Национальным научным фондом , который собрал скрытые веб-источники (веб-формы) в различных областях на основе новых специализированных методов сканирования. [33] [34]

Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой сети. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой сети на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать доступные по ним URL-адреса, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностной сетью. Система глубокого веб-интерфейса Google вычисляет отправку для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Обнаруженные результаты составляют тысячу запросов в секунду к контенту глубокой сети. [35] В этой системе предварительный подсчет заявок осуществляется с использованием трех алгоритмов:

  1. выбор входных значений для входных данных текстового поиска, которые принимают ключевые слова,
  2. определение входных данных, которые принимают только значения определенного типа (например, дата) и
  3. выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.

В 2008 году, чтобы облегчить пользователям скрытых сервисов Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web — прокси-приложение, способное обеспечивать доступ посредством обычных веб-браузеров. [36] В этом приложении ссылки на глубокий веб-сайт отображаются в виде случайной последовательности букв, за которой следует домен верхнего уровня .onion .

См. также [ править ]

Ссылки [ править ]

  1. ^ Гамильтон, Найджел (2019–2020). «Механика метапоисковой системы Deep Net» . В Исайасе, Педро; Пальма душ Рейс, Антониу (ред.). Материалы Международной конференции IADIS по электронному обществу . стр. 1034–6. CiteSeerX   10.1.1.90.5847 . ISBN  978-972-98947-0-1 .
  2. ^ Дивайн, Джейн; Эггер-Сидер, Франсин (август 2021 г.). «За пределами Google: невидимая сеть в академической библиотеке». Журнал академического библиотечного дела . 30 (4): 265–269. дои : 10.1016/j.acalib.2004.04.010 .
  3. ^ Рагхаван, Шрирам; Гарсиа-Молина, Гектор (11–14 сентября 2001 г.). «Полазить по скрытой паутине» . 27-я Международная конференция по очень большим базам данных .
  4. ^ «Поверхностная сеть» . Компьютерная надежда . Проверено 20 июня 2018 г.
  5. ^ Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить» . Нью-Йорк Таймс . Проверено 2 сентября 2019 г. [...] Майк Бергман, ученый-компьютерщик и консультант, которому приписывают создание термина Deep Web.
  6. ^ Мадхаван Дж., Ко Д., Кот Л., Ганапати В., Расмуссен А. и Халеви А. (2008). Поиск в глубокой сети Google. Труды Фонда VLDB, 1 (2), 1241–52.
  7. ^ Шедден, Сэм (8 июня 2014 г.). «Как вы хотите, чтобы я это сделал? Должно ли это выглядеть как несчастный случай? - Убийца, продающий хит в сети; обнаружен в глубокой паутине» . Воскресная почта . Архивировано из оригинала 1 марта 2020 года.
  8. ^ Беккет, Энди (26 ноября 2009 г.). «Тёмная сторона Интернета» . Проверено 9 августа 2015 г.
  9. ^ Д. Дэй. Самый простой улов: не будьте еще одной рыбой в темной сети . Университет Уэйк Форест: выступления TEDx . Архивировано из оригинала 13 ноября 2021 года.
  10. ^ «Разъяснение путаницы: глубокая паутина против темной паутины» . Яркая Планета. 27 марта 2014 г.
  11. ^ Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной паутины» . Проверено 26 мая 2015 г.
  12. ^ Сотрудники НПР (25 мая 2014 г.). «Темнота: Интернет за Интернетом» . Проверено 29 мая 2015 г.
  13. ^ Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое даркнет?» . Проверено 6 июня 2015 г.
  14. ^ «Влияние даркнета на управление Интернетом и кибербезопасность» (PDF) . 20 января 2014 г. Архивировано из оригинала (PDF) 16 января 2017 г. . Проверено 15 января 2017 г.
  15. ^ Лам, Квок-Ян; Чи, Чи-Хун; Цин, Сихан (23 ноября 2016 г.). Информационная и коммуникационная безопасность: 18-я Международная конференция ICICS 2016, Сингапур, Сингапур, 29 ноября – 2 декабря 2016 г., Труды . Спрингер. ISBN  9783319500119 . Проверено 15 января 2017 г.
  16. ^ «Глубокая паутина против темной паутины | Блог Dictionary.com» . Словарный блог. 6 мая 2015 года . Проверено 15 января 2017 г.
  17. ^ Ахгар, Бабак; Байерл, П. Саския; Сэмпсон, Фрейзер (1 января 2017 г.). Разведывательное расследование с открытым исходным кодом: от стратегии к реализации . Спрингер. ISBN  9783319476711 . Проверено 15 января 2017 г.
  18. ^ «Что такое даркнет и кто его использует?» . Глобус и почта . Проверено 15 января 2017 г.
  19. Перейти обратно: Перейти обратно: а б Бергман, Майкл К. (август 2001 г.). «Глубокая паутина: обнаружение скрытой ценности» . Журнал электронного издательства . 7 (1). дои : 10.3998/3336451.0007.104 . hdl : 2027/spo.3336451.0007.104 .
  20. ^ Гарсия, Фрэнк (январь 1996 г.). «Бизнес и маркетинг в Интернете» . Заголовок . 15 (1). Архивировано из оригинала 5 декабря 1996 года . Проверено 24 февраля 2009 г.
  21. ^ @1 начинался с 5,7 терабайт контента, что, по оценкам, в 30 раз превышает размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, а @1 была заброшена. «PLS представляет AT1, первую службу поиска в Интернете второго поколения» (пресс-релиз). Программное обеспечение для личной библиотеки. Декабрь 1996. Архивировано из оригинала 21 октября 1997 года . Проверено 24 февраля 2009 г.
  22. ^ Филдинг, Р.; Ноттингем, М.; Решке, Дж. (2014). Филдинг, Р.; Ноттингем, М.; Решке, Дж. (ред.). «Протокол передачи гипертекста (HTTP/1.1): Кэширование» . Рабочая группа по интернет-инжинирингу . дои : 10.17487/RFC7234 . Проверено 30 июля 2014 г.
  23. ^ Специальное предложение: Поиск
  24. ^ «Поиск в интернет-архиве» .
  25. ^ Винер-Броннер, Даниэль (10 июня 2015 г.). «НАСА индексирует «глубокую паутину», чтобы показать человечеству то, чего не сделает Google» . Слияние. Архивировано из оригинала 30 июня 2015 года . Проверено 27 июня 2015 г. Уже доступны другие более простые версии Memex. «Если вы когда-либо использовали Wayback Machine Интернет-архива», которая дает вам прошлые версии веб-сайта, недоступные через Google, то технически вы осуществляли поиск в Deep Web, — сказал Крис Мэттманн .
  26. ^ Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить» . Нью-Йорк Таймс . Проверено 23 февраля 2009 г.
  27. ^ «Часто задаваемые вопросы по Intute, мертвая ссылка» . Проверено 13 октября 2012 г.
  28. ^ «Elsevier упразднит научно-популярную поисковую систему» ​​. библиотека.bldrdoc.gov . Декабрь 2013. Архивировано из оригинала 23 июня 2015 года . Проверено 22 июня 2015 г. К концу января 2014 года Elsevier прекратит поддержку Scirus, своей бесплатной научной поисковой системы. Scirus представляет собой широкомасштабный исследовательский инструмент: для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предпечатные статьи, патенты и репозитории.
  29. ^ Шрирам Рагхаван; Гарсиа-Молина, Гектор (2000). «Полазить по скрытой паутине» (PDF) . Технический отчет Стэнфордских цифровых библиотек. Архивировано из оригинала (PDF) 8 мая 2018 года . Проверено 27 декабря 2008 г.
  30. ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Полазить по скрытой паутине» (PDF) . Материалы 27-й Международной конференции по очень большим базам данных (VLDB) . стр. 129–38.
  31. ^ Александрос, Нтулас; Зерфос, Петрос; Чо, Чонху (2005). «Загрузка скрытого веб-контента» (PDF) . Калифорнийского университета в Лос-Анджелесе Информатика . Проверено 24 февраля 2009 г.
  32. ^ Шестаков, Денис; Бхоумик, Сурав С.; Лим, И-Пэн (2005). «DEQUE: Запросы в глубокую сеть» (PDF) . Инженерия данных и знаний . 52 (3): 273–311. дои : 10.1016/S0169-023X(04)00107-7 .
  33. ^ Барбоза, Лучано; Фрейре, Юлиана (2007). Адаптивный сканер для поиска точек входа в скрытую сеть (PDF) . WWW Conference 2007. Архивировано из оригинала (PDF) 5 июня 2011 года . Проверено 20 марта 2009 г.
  34. ^ Барбоза, Лучано; Фрейре, Юлиана (2005). Поиск баз данных в скрытой сети (PDF) . WebDB 2005. Архивировано из оригинала (PDF) 5 июня 2011 года . Проверено 20 марта 2009 г.
  35. ^ Мадхаван, Джаянт; Ко, Дэвид; Кот, Люция; Ганапати, Виньеш; Расмуссен, Алекс; Халеви, Алон (2008). Глубокое сканирование Google (PDF) . PVLDB '08, 23-28 августа 2008 г., Окленд, Новая Зеландия. Фонд ВЛДБ, ACM. Архивировано из оригинала (PDF) 16 сентября 2012 года . Проверено 17 апреля 2009 г.
  36. ^ Аарон, Шварц. «В защиту анонимности» . Проверено 4 февраля 2014 г.

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e622dad6aed16c4f2b96cee272f67270__1718959740
URL1:https://arc.ask3.ru/arc/aa/e6/70/e622dad6aed16c4f2b96cee272f67270.html
Заголовок, (Title) документа по адресу, URL1:
Deep web - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)