Глубокая паутина
Глубокая паутина , [1] невидимая паутина , [2] или скрытая сеть [3] являются частью Всемирной паутины , содержимое которой не индексируется стандартными программами поисковых систем . Это отличие от « поверхностной сети », которая доступна каждому, кто пользуется Интернетом. [4] Ученому-компьютерщику Майклу К. Бергману приписывают изобретение этого термина в 2001 году в качестве термина для индексации поиска. [5]
Доступ к сайтам Deep Web можно получить по прямому URL-адресу или IP-адресу , но для доступа к реальному контенту может потребоваться ввод пароля или другой информации безопасности. [6] [7] Сайты глубокой паутины включают в себя веб-почту , онлайн-банкинг , облачные хранилища с ограниченным доступом в социальных сетях , страницы и профили , а также веб-форумы , которые требуют регистрации для просмотра контента. Сюда также входят платные услуги, такие как видео по запросу , а также некоторые онлайн-журналы и газеты.
Терминология [ править ]
Первое объединение терминов «глубокая сеть» и « даркнет » произошло в 2009 году, когда терминология поиска в глубокой сети обсуждалась вместе с незаконной деятельностью, происходящей во Freenet и даркнете . [8] Эта преступная деятельность включает торговлю личными паролями, фальшивыми документами, удостоверяющими личность , наркотиками, огнестрельным оружием и детской порнографией . [9]
С тех пор, после их использования в репортажах СМИ о сайте черного рынка Silk Road , средства массовой информации обычно используют термин «глубокая паутина» как синоним даркнета . или даркнета , сравнение, которое некоторые отвергают как неточное [10] и, следовательно, стал постоянным источником путаницы. [11] Wired Репортеры Ким Зеттер [12] и Энди Гринберг [13] рекомендуют использовать эти термины по-разному. В то время как «глубокая сеть» — это ссылка на любой сайт, к которому не может получить доступ традиционная поисковая система, «даркнет» — это часть глубокой сети, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. [14] [15] [16] [17] [18] [ чрезмерное цитирование ]
Неиндексированный контент [ править ]
Бергман в статье о глубокой сети, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсуорт использовала термин «Невидимая сеть» в 1994 году для обозначения веб-сайтов, которые не были зарегистрированы ни в одной поисковой системе. [19] Бергман процитировал статью Фрэнка Гарсии, опубликованную в январе 1996 года: [20]
Это был бы сайт, который, возможно, был бы разумно спроектирован, но его не удосужились зарегистрировать ни в одной поисковой системе. Значит, их никто не найдет! Вы скрыты. Я называю это невидимой паутиной.
Другое раннее использование термина « Невидимая паутина» было осуществлено Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании программы Deep Web № 1, найденном в пресс-релизе от декабря 1996 года. [21]
Первое использование термина « глубокая паутина» , ныне общепринятого, произошло в вышеупомянутом исследовании Бергмана 2001 года. [19]
Методы индексации [ править ]
Методы, предотвращающие индексацию веб-страниц традиционными поисковыми системами, можно отнести к одной или нескольким из следующих категорий:
- Контекстная сеть : страницы с содержимым, различным для разных контекстов доступа (например, диапазонов IP-адресов клиентов или предыдущей последовательности навигации).
- Динамический контент : динамические страницы , которые возвращаются в ответ на отправленный запрос или доступны только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких областях трудно ориентироваться без знания предметной области .
- Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническим способом (например, с помощью стандарта исключения роботов или CAPTCHA или директивы no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии). [22] Сайты могут иметь внутреннюю поисковую систему для изучения таких страниц. [23] [24]
- Не-HTML/текстовый контент : текстовый контент, закодированный в мультимедийных файлах (изображения или видео) или в определенных форматах файлов, не распознаваемых поисковыми системами.
- Частный Интернет : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
- Скриптовый контент : страницы, доступные только по ссылкам, созданным с помощью JavaScript , а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax .
- Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета и доступен только с помощью специального программного обеспечения, такого как Tor , I2P или другого программного обеспечения даркнета. Например, Tor позволяет пользователям анонимно получать доступ к веб-сайтам, используя адрес сервера .onion , скрывая свой IP-адрес.
- Несвязанный контент : страницы, на которые нет ссылок с других страниц, что может помешать программам веб-сканирования получить доступ к контенту. Этот контент называется страницами без обратных ссылок (также называемыми входными ссылками). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с искомых веб-страниц.
- Веб-архивы . Службы веб-архивирования, такие как Wayback Machine, позволяют пользователям просматривать архивные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступны и не индексируются поисковыми системами, такими как Google. Wayback Machine можно назвать программой для просмотра глубокой сети, поскольку веб-архивы, созданные не в настоящем, не могут быть проиндексированы, поскольку прошлые версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты время от времени обновляются, поэтому веб-архивы считаются контентом Deep Web. [25]
Типы контента [ править ]
Хотя не всегда возможно напрямую обнаружить содержимое конкретного веб-сервера для его индексации, доступ к сайту потенциально возможен косвенный (из-за уязвимостей компьютера ).
Чтобы обнаружить контент в Интернете, поисковые системы используют веб-сканеры , которые переходят по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеально подходит для поиска контента в поверхностной сети, но часто неэффективен при поиске контента в глубокой сети. Например, эти сканеры не пытаются найти динамические страницы, являющиеся результатом запросов к базе данных, из-за неопределенного количества возможных запросов. [26] Было отмечено, что это можно преодолеть (частично), предоставив ссылки на результаты запроса, но это может непреднамеренно повысить популярность сайта в глубокой сети.
DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi — это несколько поисковых систем, которые получили доступ к глубокой сети. У Intute закончилось финансирование, и по состоянию на июль 2011 года он представляет собой временный статический архив. [27] Сайрус ушел на пенсию в конце января 2013 года. [28]
Исследователи изучают, как можно автоматически сканировать глубокую сеть, включая контент, доступ к которому возможен только с помощью специального программного обеспечения, такого как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсиа-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) [29] [30] представил архитектурную модель сканера скрытой сети, который использовал важные термины, предоставленные пользователями или собранные из интерфейсов запросов, для запроса веб-формы и сканирования содержимого глубокой сети. Александрос Нтулас, Петрос Зерфос и Чонху Чо из Калифорнийского университета в Лос-Анджелесе создали сканер скрытой сети, который автоматически генерирует осмысленные запросы для обработки поисковых форм. [31] Несколько языков запросов форм (например, DEQUEL [32] ) были предложены, которые, помимо выдачи запроса, также позволяют извлекать структурированные данные из страниц результатов. Еще одним проектом является DeepPeep, проект Университета Юты , спонсируемый Национальным научным фондом , который собрал скрытые веб-источники (веб-формы) в различных областях на основе новых специализированных методов сканирования. [33] [34]
Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой сети. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой сети на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать доступные по ним URL-адреса, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностной сетью. Система глубокого веб-интерфейса Google вычисляет отправку для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Обнаруженные результаты составляют тысячу запросов в секунду к контенту глубокой сети. [35] В этой системе предварительный подсчет заявок осуществляется с использованием трех алгоритмов:
- выбор входных значений для входных данных текстового поиска, которые принимают ключевые слова,
- определение входных данных, которые принимают только значения определенного типа (например, дата) и
- выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.
В 2008 году, чтобы облегчить пользователям скрытых сервисов Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web — прокси-приложение, способное обеспечивать доступ посредством обычных веб-браузеров. [36] В этом приложении ссылки на глубокий веб-сайт отображаются в виде случайной последовательности букв, за которой следует домен верхнего уровня .onion .
См. также [ править ]
- Клирнет (сети)
- Программа Memex DARPA
- Глубокие ссылки
- Глубокие веб-технологии
- Интеллектуальная даркнет
- Рынок даркнета
- Даркнет
- Даркнет
- Тор (сеть)
- Список луковых сервисов Tor
Ссылки [ править ]
- ^ Гамильтон, Найджел (2019–2020). «Механика метапоисковой системы Deep Net» . В Исайасе, Педро; Пальма душ Рейс, Антониу (ред.). Материалы Международной конференции IADIS по электронному обществу . стр. 1034–6. CiteSeerX 10.1.1.90.5847 . ISBN 978-972-98947-0-1 .
- ^ Дивайн, Джейн; Эггер-Сидер, Франсин (август 2021 г.). «За пределами Google: невидимая сеть в академической библиотеке». Журнал академического библиотечного дела . 30 (4): 265–269. дои : 10.1016/j.acalib.2004.04.010 .
- ^ Рагхаван, Шрирам; Гарсиа-Молина, Гектор (11–14 сентября 2001 г.). «Полазить по скрытой паутине» . 27-я Международная конференция по очень большим базам данных .
- ^ «Поверхностная сеть» . Компьютерная надежда . Проверено 20 июня 2018 г.
- ^ Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить» . Нью-Йорк Таймс . Проверено 2 сентября 2019 г.
[...] Майк Бергман, ученый-компьютерщик и консультант, которому приписывают создание термина Deep Web.
- ^ Мадхаван Дж., Ко Д., Кот Л., Ганапати В., Расмуссен А. и Халеви А. (2008). Поиск в глубокой сети Google. Труды Фонда VLDB, 1 (2), 1241–52.
- ^ Шедден, Сэм (8 июня 2014 г.). «Как вы хотите, чтобы я это сделал? Должно ли это выглядеть как несчастный случай? - Убийца, продающий хит в сети; обнаружен в глубокой паутине» . Воскресная почта . Архивировано из оригинала 1 марта 2020 года.
- ^ Беккет, Энди (26 ноября 2009 г.). «Тёмная сторона Интернета» . Проверено 9 августа 2015 г.
- ^ Д. Дэй. Самый простой улов: не будьте еще одной рыбой в темной сети . Университет Уэйк Форест: выступления TEDx . Архивировано из оригинала 13 ноября 2021 года.
- ^ «Разъяснение путаницы: глубокая паутина против темной паутины» . Яркая Планета. 27 марта 2014 г.
- ^ Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной паутины» . Проверено 26 мая 2015 г.
- ^ Сотрудники НПР (25 мая 2014 г.). «Темнота: Интернет за Интернетом» . Проверено 29 мая 2015 г.
- ^ Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое даркнет?» . Проверено 6 июня 2015 г.
- ^ «Влияние даркнета на управление Интернетом и кибербезопасность» (PDF) . 20 января 2014 г. Архивировано из оригинала (PDF) 16 января 2017 г. . Проверено 15 января 2017 г.
- ^ Лам, Квок-Ян; Чи, Чи-Хун; Цин, Сихан (23 ноября 2016 г.). Информационная и коммуникационная безопасность: 18-я Международная конференция ICICS 2016, Сингапур, Сингапур, 29 ноября – 2 декабря 2016 г., Труды . Спрингер. ISBN 9783319500119 . Проверено 15 января 2017 г.
- ^ «Глубокая паутина против темной паутины | Блог Dictionary.com» . Словарный блог. 6 мая 2015 года . Проверено 15 января 2017 г.
- ^ Ахгар, Бабак; Байерл, П. Саския; Сэмпсон, Фрейзер (1 января 2017 г.). Разведывательное расследование с открытым исходным кодом: от стратегии к реализации . Спрингер. ISBN 9783319476711 . Проверено 15 января 2017 г.
- ^ «Что такое даркнет и кто его использует?» . Глобус и почта . Проверено 15 января 2017 г.
- ↑ Перейти обратно: Перейти обратно: а б Бергман, Майкл К. (август 2001 г.). «Глубокая паутина: обнаружение скрытой ценности» . Журнал электронного издательства . 7 (1). дои : 10.3998/3336451.0007.104 . hdl : 2027/spo.3336451.0007.104 .
- ^ Гарсия, Фрэнк (январь 1996 г.). «Бизнес и маркетинг в Интернете» . Заголовок . 15 (1). Архивировано из оригинала 5 декабря 1996 года . Проверено 24 февраля 2009 г.
- ^ @1 начинался с 5,7 терабайт контента, что, по оценкам, в 30 раз превышает размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, а @1 была заброшена. «PLS представляет AT1, первую службу поиска в Интернете второго поколения» (пресс-релиз). Программное обеспечение для личной библиотеки. Декабрь 1996. Архивировано из оригинала 21 октября 1997 года . Проверено 24 февраля 2009 г.
- ^ Филдинг, Р.; Ноттингем, М.; Решке, Дж. (2014). Филдинг, Р.; Ноттингем, М.; Решке, Дж. (ред.). «Протокол передачи гипертекста (HTTP/1.1): Кэширование» . Рабочая группа по интернет-инжинирингу . дои : 10.17487/RFC7234 . Проверено 30 июля 2014 г.
- ^ Специальное предложение: Поиск
- ^ «Поиск в интернет-архиве» .
- ^ Винер-Броннер, Даниэль (10 июня 2015 г.). «НАСА индексирует «глубокую паутину», чтобы показать человечеству то, чего не сделает Google» . Слияние. Архивировано из оригинала 30 июня 2015 года . Проверено 27 июня 2015 г.
Уже доступны другие более простые версии Memex. «Если вы когда-либо использовали Wayback Machine Интернет-архива», которая дает вам прошлые версии веб-сайта, недоступные через Google, то технически вы осуществляли поиск в Deep Web, — сказал Крис Мэттманн .
- ^ Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить» . Нью-Йорк Таймс . Проверено 23 февраля 2009 г.
- ^ «Часто задаваемые вопросы по Intute, мертвая ссылка» . Проверено 13 октября 2012 г.
- ^ «Elsevier упразднит научно-популярную поисковую систему» . библиотека.bldrdoc.gov . Декабрь 2013. Архивировано из оригинала 23 июня 2015 года . Проверено 22 июня 2015 г.
К концу января 2014 года Elsevier прекратит поддержку Scirus, своей бесплатной научной поисковой системы. Scirus представляет собой широкомасштабный исследовательский инструмент: для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предпечатные статьи, патенты и репозитории.
- ^ Шрирам Рагхаван; Гарсиа-Молина, Гектор (2000). «Полазить по скрытой паутине» (PDF) . Технический отчет Стэнфордских цифровых библиотек. Архивировано из оригинала (PDF) 8 мая 2018 года . Проверено 27 декабря 2008 г.
- ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Полазить по скрытой паутине» (PDF) . Материалы 27-й Международной конференции по очень большим базам данных (VLDB) . стр. 129–38.
- ^ Александрос, Нтулас; Зерфос, Петрос; Чо, Чонху (2005). «Загрузка скрытого веб-контента» (PDF) . Калифорнийского университета в Лос-Анджелесе Информатика . Проверено 24 февраля 2009 г.
- ^ Шестаков, Денис; Бхоумик, Сурав С.; Лим, И-Пэн (2005). «DEQUE: Запросы в глубокую сеть» (PDF) . Инженерия данных и знаний . 52 (3): 273–311. дои : 10.1016/S0169-023X(04)00107-7 .
- ^ Барбоза, Лучано; Фрейре, Юлиана (2007). Адаптивный сканер для поиска точек входа в скрытую сеть (PDF) . WWW Conference 2007. Архивировано из оригинала (PDF) 5 июня 2011 года . Проверено 20 марта 2009 г.
- ^ Барбоза, Лучано; Фрейре, Юлиана (2005). Поиск баз данных в скрытой сети (PDF) . WebDB 2005. Архивировано из оригинала (PDF) 5 июня 2011 года . Проверено 20 марта 2009 г.
- ^ Мадхаван, Джаянт; Ко, Дэвид; Кот, Люция; Ганапати, Виньеш; Расмуссен, Алекс; Халеви, Алон (2008). Глубокое сканирование Google (PDF) . PVLDB '08, 23-28 августа 2008 г., Окленд, Новая Зеландия. Фонд ВЛДБ, ACM. Архивировано из оригинала (PDF) 16 сентября 2012 года . Проверено 17 апреля 2009 г.
- ^ Аарон, Шварц. «В защиту анонимности» . Проверено 4 февраля 2014 г.
Дальнейшее чтение [ править ]
- Баркер, Джо (январь 2004 г.). «Невидимая паутина: что это такое, почему она существует, как ее найти и присущая ей двусмысленность» . Калифорнийский университет, Беркли, Интернет-семинары обучающей библиотеки. Архивировано из оригинала 29 июля 2005 года . Проверено 26 июля 2011 г. .
- Басу, Сайкат (14 марта 2010 г.). «10 поисковых систем для исследования невидимой сети» . MakeUseOf.com. .
- Озкан, Акин (ноябрь 2014 г.). «Глубокая паутина/Дерин Интернет» . Архивировано из оригинала 8 ноября 2014 года . Проверено 6 ноября 2014 г. .
- Гручавка, Стив (июнь 2006 г.). «Практическое руководство по глубокой сети» . Архивировано из оригинала 5 января 2014 года . Проверено 28 февраля 2007 г. .
- Гамильтон, Найджел (2003). «Механика метапоисковой системы Deep Net» . 12-я конференция Всемирной паутины. .
- Он, Бин; Чанг, Кевин Чен-Чуан (2003). «Сопоставление статистических схем в интерфейсах веб-запросов» (PDF) . Материалы Международной конференции ACM SIGMOD 2003 г. по управлению данными . Архивировано из оригинала (PDF) 20 июля 2011 года.
- Хауэлл О'Нил, Патрик (октябрь 2013 г.). «Как искать в глубокой сети» . Ежедневная точка . .
- Ипейротис, Панайотис Г.; Гравано, Луис; Сахами, Мехран (2001). «Исследовать, подсчитывать и классифицировать: категоризация баз данных в скрытой сети» (PDF) . Материалы Международной конференции ACM SIGMOD 2001 года по управлению данными . стр. 67–78. Архивировано из оригинала (PDF) 12 сентября 2006 г. Проверено 26 сентября 2006 г.
- Кинг, Джон Д.; Ли, Юэфэн; Тао, Дэниел; Наяк, Ричи (ноябрь 2007 г.). «Знания о мире горнодобывающей промышленности для анализа контента поисковых систем» (PDF) . Веб-аналитика и агентские системы . 5 (3): 233–53. Архивировано из оригинала (PDF) 3 декабря 2008 г. Проверено 26 июля 2011 г.
- МакКаун, Фрэнк; Лю, Сяомин; Нельсон, Майкл Л.; Зубайр, Мохаммад (март – апрель 2006 г.). «Покрытие корпуса OAI-PMH поисковыми системами» (PDF) . IEEE Интернет-вычисления . 10 (2): 66–73. дои : 10.1109/MIC.2006.41 . S2CID 15511914 .
- Прайс, Гэри; Шерман, Крис (июль 2001 г.). Невидимая паутина: раскрытие источников информации, которые поисковые системы не видят . Книги КиберЭйджа. ISBN 978-0-910965-51-4 .
- Шестаков, Денис (июнь 2008 г.). Интерфейсы поиска в Интернете: запросы и характеристики . Докторские диссертации TUCS 104, Университет Турку
- Вориски, Питер (11 декабря 2008 г.). «Фирмы стремятся сделать федеральную сеть более доступной для поиска» . Вашингтон Пост . п. Д01.
- Райт, Алекс (март 2004 г.). «В поисках глубокой паутины» . Салон . Архивировано из оригинала 9 марта 2007 года .
- Ученые, обнаженные (декабрь 2014 г.). «Интернет: хорошее, плохое и ужасное – углубленное исследование Интернета и даркнета голыми учёными Кембриджского университета» (подкаст).
Внешние ссылки [ править ]
СМИ, связанные с глубокой паутиной, на Викискладе?
Словарное определение глубокой сети в Викисловаре