Обычное сканирование

Обычное сканирование
Тип бизнеса	501(c)(3) некоммерческая организация
Основан	2007
Штаб-квартира	Сан-Франциско, Калифорния ; Лос-Анджелес, Калифорния , США
Основатель(и)	Гил Эльбаз
Ключевые люди	Питер Норвиг , Рич Скрента , Ева Хо
URL-адрес	обычное сканирование .org

Common Crawl — это некоммерческая организация, подпадающая под действие 501(c)(3) , которая сканирует Интернет и бесплатно предоставляет публике свои архивы и наборы данных. ^[1]^[2] Common Crawl Веб-архив состоит из петабайт данных, собранных с 2008 года. ^[3] Обычно он завершает сканирование каждый месяц. ^[4]

Common Crawl был основан Гилем Эльбазом . ^[5] В число советников некоммерческой организации входят Питер Норвиг и Джой Ито . ^[6] Сканеры организации соблюдают политики nofollow и robots.txt . Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает работы, защищенные авторским правом, и распространяется из США на условиях добросовестного использования . Исследователи в других странах использовали такие методы, как перетасовка предложений или обращение к общему набору данных, чтобы обойти закон об авторском праве в других правовых юрисдикциях . ^[7]

По состоянию на март 2023 года в самой последней версии набора данных Common Crawl в 46% документов английский был основным языком (за ним следовали немецкий, русский, японский, французский, испанский и китайский, все менее 6%). ^[8]

История

Amazon Web Services начала размещать архив Common Crawl в рамках своей программы наборов общедоступных данных в 2012 году. ^[9]

Организация начала публиковать файлы метаданных и текстовый вывод сканеров вместе с файлами .arc в июле 2012 года. ^[10] Раньше архивы Common Crawl включали только файлы .arc. ^[10]

В декабре 2012 года blekko передал метаданные поисковой системы Common Crawl , собранные в результате сканирования, проведенного с февраля по октябрь 2012 года. ^[11] Пожертвованные данные помогли Common Crawl «улучшить сканирование, избегая при этом спама, порнографии и влияния чрезмерного SEO ». ^[11]

В 2013 году Common Crawl начал использовать Apache Software Foundation от веб-сканер Nutch вместо специального сканера. ^[12] Common Crawl перешел с использования файлов .arc на файлы .warc при сканировании в ноябре 2013 года. ^[13]

Отфильтрованная версия Common Crawl использовалась для обучения языковой модели OpenAI GPT-3 , анонсированной в 2020 году. ^[14]

Хронология данных общего сканирования

Следующие данные были собраны из официального блога Common Crawl. ^[15]и API Common Crawl. ^[16]

Дата сканирования	Размер в ТиБ	Миллиарды страниц	Комментарии
апрель 2024 г.	386	2.7	Сканирование проводилось с 12 по 24 апреля 2024 г.
февраль/март 2024 г.	425	3.16	Сканирование проводилось с 20 февраля по 5 марта 2024 г.
декабрь 2023 г.	454	3.35	Сканирование проводилось с 28 ноября по 12 декабря 2023 г.
июнь 2023 г.	390	3.1	Сканирование проводилось с 27 мая по 11 июня 2023 г.
апрель 2023 г.	400	3.1	Сканирование проводилось с 20 марта по 2 апреля 2023 г.
февраль 2023 г.	400	3.15	Сканирование проводилось с 26 января по 9 февраля 2023 г.
декабрь 2022 г.	420	3.35	Сканирование проводилось с 26 ноября по 10 декабря 2022 г.
Октябрь 2022 г.	380	3.15	Сканирование проводилось в сентябре и октябре 2022 г.
апрель 2021 г.	320	3.1
ноябрь 2018 г.	220	2.6
Октябрь 2018 г.	240	3.0
Сентябрь 2018 г.	220	2.8
август 2018 г.	220	2.65
июль 2018 г.	255	3.25
июнь 2018 г.	235	3.05
май 2018 г.	215	2.75
апрель 2018 г.	230	3.1
март 2018 г.	250	3.2
февраль 2018 г.	270	3.4
январь 2018 г.	270	3.4
декабрь 2017 г.	240	2.9
ноябрь 2017 г.	260	3.2
Октябрь 2017 г.	300	3.65
Сентябрь 2017 г.	250	3.01
август 2017 г.	280	3.28
июль 2017 г.	240	2.89
июнь 2017 г.	260	3.16
май 2017 г.	250	2.96
апрель 2017 г.	250	2.94
Март 2017 г.	250	3.07
февраль 2017 г.	250	3.08
Январь 2017 г.	250	3.14
декабрь 2016 г.	—	2.85
Октябрь 2016 г.	—	3.25
Сентябрь 2016 г.	—	1.72
август 2016 г.	—	1.61
июль 2016 г.	—	1.73
июнь 2016 г.	—	1.23
май 2016 г.	—	1.46
апрель 2016 г.	—	1.33
февраль 2016 г.	—	1.73
ноябрь 2015 г.	151	1.82
Сентябрь 2015 г.	106	1.32
август 2015 г.	149	1.84
июль 2015 г.	145	1.81
июнь 2015 г.	131	1.67
май 2015 г.	159	2.05
апрель 2015 г.	168	2.11
Март 2015 г.	124	1.64
февраль 2015 г.	145	1.9
Январь 2015 г.	139	1.82
декабрь 2014 г.	160	2.08
ноябрь 2014 г.	135	1.95
Октябрь 2014 г.	254	3.7
Сентябрь 2014 г.	220	2.8
август 2014 г.	200	2.8
июль 2014 г.	266	3.6
апрель 2014 г.	183	2.6
Март 2014 г.	223	2.8	Первое сканирование натчей
Зима 2013 г.	148	2.3	Сканирование проводилось с 4 по 22 декабря 2013 г.
Лето 2013 г.	?	?	Сканирование проводилось с мая 2013 г. по июнь 2013 г. Первое сканирование WARC
2012	?	?	Сканирование проводилось с января 2012 г. по июнь 2012 г. Окончательное сканирование ARC.
2009-2010	?	?	Сканирование проводилось с июля 2009 г. по сентябрь 2010 г.
2008-2009	?	?	Сканирование проводилось с мая 2008 г. по январь 2009 г.

Премия Норвига в области веб-данных в области науки о данных

При поддержке SURFsara компания Common Crawl спонсирует премию Norvig Web Data Science Award, конкурс, открытый для студентов и исследователей в странах Бенилюкса . ^[17]^[18] Премия названа в честь Питера Норвига , который также возглавляет судейскую комиссию. ^[17]

Колоссальный чистый просканированный корпус Google

Версия Common Crawl от Google называется Colossal Clean Crawled Corpus, или сокращенно C4. ^[19]^[20]

Ссылки

^ Розанна Ся (5 февраля 2012 г.). «Технологический предприниматель Гил Эльбаз добился успеха в Лос-Анджелесе» Los Angeles Times . Проверено 31 июля 2014 г.
^ «Гил Эльбаз и обыкновенное ползание» . Новости Эн-Би-Си . 4 апреля 2013 года . Проверено 31 июля 2014 г.
^ «Итак, вы готовы начать» . Обычное сканирование . Проверено 9 июня 2023 г.
^ Лиза Грин (8 января 2014 г.). «Данные сканирования за зиму 2013 г. уже доступны» . Проверено 2 июня 2018 г.
^ «Стартапы — Гил Эльбаз и Нова Спивак из Common Crawl — TWiST #222». Эта неделя в стартапах. 10 января 2012 г.
^ Том Симонайт (23 января 2013 г.). «Бесплатная база данных всей сети может породить следующий Google» . Обзор технологий MIT. Архивировано из оригинала 26 июня 2014 года . Проверено 31 июля 2014 г.
^ Шефер, Роланд (май 2016 г.). «CommonCOW: огромная веб-корпорация на основе данных CommonCrawl и метод их свободного распространения в соответствии с ограничительными законами ЕС об авторском праве» . Материалы Десятой Международной конференции по языковым ресурсам и оценке (LREC'16) . Порторож, Словения: Европейская ассоциация языковых ресурсов (ELRA): 4501.
^ «Статистика ежемесячных архивов Common Crawl от commoncrawl» . commoncrawl.github.io . Проверено 2 апреля 2023 г.
^ Дженнифер Заино (13 марта 2012 г.). «Обычное сканирование для добавления новых данных в корзину веб-служб Amazon» . Семантическая сеть. Архивировано из оригинала 1 июля 2014 года . Проверено 31 июля 2014 г.
^ Перейти обратно: ^а ^б Дженнифер Заино (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для изучения пользователями» . Семантическая сеть. Архивировано из оригинала 12 августа 2014 года . Проверено 31 июля 2014 г.
^ Перейти обратно: ^а ^б Дженнифер Заино (18 декабря 2012 г.). «Передача данных Blekko — большая польза для общего сканирования» . Семантическая сеть. Архивировано из оригинала 12 августа 2014 года . Проверено 31 июля 2014 г.
^ Джордан Мендельсон (20 февраля 2014 г.). «Переход обычного ползания в натч» . Обычное сканирование . Проверено 31 июля 2014 г.
^ Джордан Мендельсон (27 ноября 2013 г.). «Доступны новые данные сканирования!» . Обычное сканирование . Проверено 31 июля 2014 г.
^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01 июня 2020 г.). «Языковые модели мало кто изучает». п. 14. arXiv : 2005.14165 [ cs.CL ]. большая часть наших данных получена из необработанных данных Common Crawl с фильтрацией только на основе качества.
^ «Блог – Common Crawl» .
^ «Информация о коллекции — Common Crawl» .
^ Перейти обратно: ^а ^б Лиза Грин (15 ноября 2012 г.). «Премия Норвига в области веб-данных» . Обычное сканирование . Проверено 31 июля 2014 г.
^ «Премия Norvig Web Data Science 2014» . Голландский технический центр наук о жизни. Архивировано из оригинала 15 августа 2014 года . Проверено 31 июля 2014 г.
^ «Google достигает высочайшего уровня производительности НЛП благодаря огромной языковой модели и набору данных» . ВенчурБит . 24.10.2019 . Проверено 21 апреля 2023 г.
^ Херн, Алекс (20 апреля 2023 г.). «Новые опасения возникли по поводу источников учебных материалов для систем искусственного интеллекта» . Хранитель . ISSN 0261-3077 . Проверено 21 апреля 2023 г.

Внешние ссылки

Обычное сканирование в Калифорнии, США
Репозиторий Common Crawl GitHub с сканером, библиотеками и примером кода.
Общая группа обсуждения сканирования
Общий блог сканирования

[latimes-1] Розанна Ся (5 февраля 2012 г.). «Технологический предприниматель Гил Эльбаз добился успеха в Лос-Анджелесе» Los Angeles Times . Проверено 31 июля 2014 г.

[pressheretv-2] «Гил Эльбаз и обыкновенное ползание» . Новости Эн-Би-Си . 4 апреля 2013 года . Проверено 31 июля 2014 г.

[ready-3] «Итак, вы готовы начать» . Обычное сканирование . Проверено 9 июня 2023 г.

[theverge-4] Лиза Грин (8 января 2014 г.). «Данные сканирования за зиму 2013 г. уже доступны» . Проверено 2 июня 2018 г.

[twist-5] «Стартапы — Гил Эльбаз и Нова Спивак из Common Crawl — TWiST #222». Эта неделя в стартапах. 10 января 2012 г.

[technologyreview-6] Том Симонайт (23 января 2013 г.). «Бесплатная база данных всей сети может породить следующий Google» . Обзор технологий MIT. Архивировано из оригинала 26 июня 2014 года . Проверено 31 июля 2014 г.

[7] Шефер, Роланд (май 2016 г.). «CommonCOW: огромная веб-корпорация на основе данных CommonCrawl и метод их свободного распространения в соответствии с ограничительными законами ЕС об авторском праве» . Материалы Десятой Международной конференции по языковым ресурсам и оценке (LREC'16) . Порторож, Словения: Европейская ассоциация языковых ресурсов (ELRA): 4501.

[8] «Статистика ежемесячных архивов Common Crawl от commoncrawl» . commoncrawl.github.io . Проверено 2 апреля 2023 г.

[semanticweb_1-9] Дженнифер Заино (13 марта 2012 г.). «Обычное сканирование для добавления новых данных в корзину веб-служб Amazon» . Семантическая сеть. Архивировано из оригинала 1 июля 2014 года . Проверено 31 июля 2014 г.

[semanticweb_2-10] Перейти обратно: ^а ^б Дженнифер Заино (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для изучения пользователями» . Семантическая сеть. Архивировано из оригинала 12 августа 2014 года . Проверено 31 июля 2014 г.

[semanticweb_3-11] Перейти обратно: ^а ^б Дженнифер Заино (18 декабря 2012 г.). «Передача данных Blekko — большая польза для общего сканирования» . Семантическая сеть. Архивировано из оригинала 12 августа 2014 года . Проверено 31 июля 2014 г.

[ccnutch-12] Джордан Мендельсон (20 февраля 2014 г.). «Переход обычного ползания в натч» . Обычное сканирование . Проверено 31 июля 2014 г.

[ccnov2013-13] Джордан Мендельсон (27 ноября 2013 г.). «Доступны новые данные сканирования!» . Обычное сканирование . Проверено 31 июля 2014 г.

[14] Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01 июня 2020 г.). «Языковые модели мало кто изучает». п. 14. arXiv : 2005.14165 [ cs.CL ]. большая часть наших данных получена из необработанных данных Common Crawl с фильтрацией только на основе качества.

[15] «Блог – Common Crawl» .

[16] «Информация о коллекции — Common Crawl» .

[ccaward-17] Перейти обратно: ^а ^б Лиза Грин (15 ноября 2012 г.). «Премия Норвига в области веб-данных» . Обычное сканирование . Проверено 31 июля 2014 г.

[dtlsaward-18] «Премия Norvig Web Data Science 2014» . Голландский технический центр наук о жизни. Архивировано из оригинала 15 августа 2014 года . Проверено 31 июля 2014 г.

[19] «Google достигает высочайшего уровня производительности НЛП благодаря огромной языковой модели и набору данных» . ВенчурБит . 24.10.2019 . Проверено 21 апреля 2023 г.

[20] Херн, Алекс (20 апреля 2023 г.). «Новые опасения возникли по поводу источников учебных материалов для систем искусственного интеллекта» . Хранитель . ISSN 0261-3077 . Проверено 21 апреля 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]