Обычное сканирование
Тип бизнеса | 501(c)(3) некоммерческая организация |
---|---|
Основан | 2007 |
Штаб-квартира | Сан-Франциско, Калифорния ; Лос-Анджелес, Калифорния , США |
Основатель(и) | Гил Эльбаз |
Ключевые люди | Питер Норвиг , Рич Скрента , Ева Хо |
URL-адрес | обычное сканирование |
Common Crawl — это некоммерческая организация, подпадающая под действие 501(c)(3) , которая сканирует Интернет и бесплатно предоставляет публике свои архивы и наборы данных. [1] [2] Common Crawl Веб-архив состоит из петабайт данных, собранных с 2008 года. [3] Обычно он завершает сканирование каждый месяц. [4]
Common Crawl был основан Гилем Эльбазом . [5] В число советников некоммерческой организации входят Питер Норвиг и Джой Ито . [6] Сканеры организации соблюдают политики nofollow и robots.txt . Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.
Набор данных Common Crawl включает работы, защищенные авторским правом, и распространяется из США на условиях добросовестного использования . Исследователи в других странах использовали такие методы, как перетасовка предложений или обращение к общему набору данных, чтобы обойти закон об авторском праве в других правовых юрисдикциях . [7]
По состоянию на март 2023 года в самой последней версии набора данных Common Crawl в 46% документов английский был основным языком (за ним следовали немецкий, русский, японский, французский, испанский и китайский, все менее 6%). [8]
История
[ редактировать ]Amazon Web Services начала размещать архив Common Crawl в рамках своей программы наборов общедоступных данных в 2012 году. [9]
Организация начала публиковать файлы метаданных и текстовый вывод сканеров вместе с файлами .arc в июле 2012 года. [10] Раньше архивы Common Crawl включали только файлы .arc. [10]
В декабре 2012 года blekko передал метаданные поисковой системы Common Crawl , собранные в результате сканирования, проведенного с февраля по октябрь 2012 года. [11] Пожертвованные данные помогли Common Crawl «улучшить сканирование, избегая при этом спама, порнографии и влияния чрезмерного SEO ». [11]
В 2013 году Common Crawl начал использовать Apache Software Foundation от веб-сканер Nutch вместо специального сканера. [12] Common Crawl перешел с использования файлов .arc на файлы .warc при сканировании в ноябре 2013 года. [13]
Отфильтрованная версия Common Crawl использовалась для обучения языковой модели OpenAI GPT-3 , анонсированной в 2020 году. [14]
Хронология данных общего сканирования
[ редактировать ]Следующие данные были собраны из официального блога Common Crawl. [15] и API Common Crawl. [16]
Дата сканирования | Размер в ТиБ | Миллиарды страниц | Комментарии |
---|---|---|---|
апрель 2024 г. | 386 | 2.7 | Сканирование проводилось с 12 по 24 апреля 2024 г. |
февраль/март 2024 г. | 425 | 3.16 | Сканирование проводилось с 20 февраля по 5 марта 2024 г. |
декабрь 2023 г. | 454 | 3.35 | Сканирование проводилось с 28 ноября по 12 декабря 2023 г. |
июнь 2023 г. | 390 | 3.1 | Сканирование проводилось с 27 мая по 11 июня 2023 г. |
апрель 2023 г. | 400 | 3.1 | Сканирование проводилось с 20 марта по 2 апреля 2023 г. |
февраль 2023 г. | 400 | 3.15 | Сканирование проводилось с 26 января по 9 февраля 2023 г. |
декабрь 2022 г. | 420 | 3.35 | Сканирование проводилось с 26 ноября по 10 декабря 2022 г. |
Октябрь 2022 г. | 380 | 3.15 | Сканирование проводилось в сентябре и октябре 2022 г. |
апрель 2021 г. | 320 | 3.1 | |
ноябрь 2018 г. | 220 | 2.6 | |
Октябрь 2018 г. | 240 | 3.0 | |
Сентябрь 2018 г. | 220 | 2.8 | |
август 2018 г. | 220 | 2.65 | |
июль 2018 г. | 255 | 3.25 | |
июнь 2018 г. | 235 | 3.05 | |
май 2018 г. | 215 | 2.75 | |
апрель 2018 г. | 230 | 3.1 | |
март 2018 г. | 250 | 3.2 | |
февраль 2018 г. | 270 | 3.4 | |
январь 2018 г. | 270 | 3.4 | |
декабрь 2017 г. | 240 | 2.9 | |
ноябрь 2017 г. | 260 | 3.2 | |
Октябрь 2017 г. | 300 | 3.65 | |
Сентябрь 2017 г. | 250 | 3.01 | |
август 2017 г. | 280 | 3.28 | |
июль 2017 г. | 240 | 2.89 | |
июнь 2017 г. | 260 | 3.16 | |
май 2017 г. | 250 | 2.96 | |
апрель 2017 г. | 250 | 2.94 | |
Март 2017 г. | 250 | 3.07 | |
февраль 2017 г. | 250 | 3.08 | |
Январь 2017 г. | 250 | 3.14 | |
декабрь 2016 г. | — | 2.85 | |
Октябрь 2016 г. | — | 3.25 | |
Сентябрь 2016 г. | — | 1.72 | |
август 2016 г. | — | 1.61 | |
июль 2016 г. | — | 1.73 | |
июнь 2016 г. | — | 1.23 | |
май 2016 г. | — | 1.46 | |
апрель 2016 г. | — | 1.33 | |
февраль 2016 г. | — | 1.73 | |
ноябрь 2015 г. | 151 | 1.82 | |
Сентябрь 2015 г. | 106 | 1.32 | |
август 2015 г. | 149 | 1.84 | |
июль 2015 г. | 145 | 1.81 | |
июнь 2015 г. | 131 | 1.67 | |
май 2015 г. | 159 | 2.05 | |
апрель 2015 г. | 168 | 2.11 | |
Март 2015 г. | 124 | 1.64 | |
февраль 2015 г. | 145 | 1.9 | |
Январь 2015 г. | 139 | 1.82 | |
декабрь 2014 г. | 160 | 2.08 | |
ноябрь 2014 г. | 135 | 1.95 | |
Октябрь 2014 г. | 254 | 3.7 | |
Сентябрь 2014 г. | 220 | 2.8 | |
август 2014 г. | 200 | 2.8 | |
июль 2014 г. | 266 | 3.6 | |
апрель 2014 г. | 183 | 2.6 | |
Март 2014 г. | 223 | 2.8 | Первое сканирование натчей |
Зима 2013 г. | 148 | 2.3 | Сканирование проводилось с 4 по 22 декабря 2013 г. |
Лето 2013 г. | ? | ? | Сканирование проводилось с мая 2013 г. по июнь 2013 г. Первое сканирование WARC |
2012 | ? | ? | Сканирование проводилось с января 2012 г. по июнь 2012 г. Окончательное сканирование ARC. |
2009-2010 | ? | ? | Сканирование проводилось с июля 2009 г. по сентябрь 2010 г. |
2008-2009 | ? | ? | Сканирование проводилось с мая 2008 г. по январь 2009 г. |
Премия Норвига в области веб-данных в области науки о данных
[ редактировать ]При поддержке SURFsara компания Common Crawl спонсирует премию Norvig Web Data Science Award, конкурс, открытый для студентов и исследователей в странах Бенилюкса . [17] [18] Премия названа в честь Питера Норвига , который также возглавляет судейскую комиссию. [17]
Колоссальный чистый просканированный корпус Google
[ редактировать ]Версия Common Crawl от Google называется Colossal Clean Crawled Corpus, или сокращенно C4. [19] [20]
Ссылки
[ редактировать ]- ^ Розанна Ся (5 февраля 2012 г.). «Технологический предприниматель Гил Эльбаз добился успеха в Лос-Анджелесе» Los Angeles Times . Проверено 31 июля 2014 г.
- ^ «Гил Эльбаз и обыкновенное ползание» . Новости Эн-Би-Си . 4 апреля 2013 года . Проверено 31 июля 2014 г.
- ^ «Итак, вы готовы начать» . Обычное сканирование . Проверено 9 июня 2023 г.
- ^ Лиза Грин (8 января 2014 г.). «Данные сканирования за зиму 2013 г. уже доступны» . Проверено 2 июня 2018 г.
- ^ «Стартапы — Гил Эльбаз и Нова Спивак из Common Crawl — TWiST #222». Эта неделя в стартапах. 10 января 2012 г.
- ^ Том Симонайт (23 января 2013 г.). «Бесплатная база данных всей сети может породить следующий Google» . Обзор технологий MIT. Архивировано из оригинала 26 июня 2014 года . Проверено 31 июля 2014 г.
- ^ Шефер, Роланд (май 2016 г.). «CommonCOW: огромная веб-корпорация на основе данных CommonCrawl и метод их свободного распространения в соответствии с ограничительными законами ЕС об авторском праве» . Материалы Десятой Международной конференции по языковым ресурсам и оценке (LREC'16) . Порторож, Словения: Европейская ассоциация языковых ресурсов (ELRA): 4501.
- ^ «Статистика ежемесячных архивов Common Crawl от commoncrawl» . commoncrawl.github.io . Проверено 2 апреля 2023 г.
- ^ Дженнифер Заино (13 марта 2012 г.). «Обычное сканирование для добавления новых данных в корзину веб-служб Amazon» . Семантическая сеть. Архивировано из оригинала 1 июля 2014 года . Проверено 31 июля 2014 г.
- ^ Перейти обратно: а б Дженнифер Заино (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для изучения пользователями» . Семантическая сеть. Архивировано из оригинала 12 августа 2014 года . Проверено 31 июля 2014 г.
- ^ Перейти обратно: а б Дженнифер Заино (18 декабря 2012 г.). «Передача данных Blekko — большая польза для общего сканирования» . Семантическая сеть. Архивировано из оригинала 12 августа 2014 года . Проверено 31 июля 2014 г.
- ^ Джордан Мендельсон (20 февраля 2014 г.). «Переход обычного ползания в натч» . Обычное сканирование . Проверено 31 июля 2014 г.
- ^ Джордан Мендельсон (27 ноября 2013 г.). «Доступны новые данные сканирования!» . Обычное сканирование . Проверено 31 июля 2014 г.
- ^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01 июня 2020 г.). «Языковые модели мало кто изучает». п. 14. arXiv : 2005.14165 [ cs.CL ].
большая часть наших данных получена из необработанных данных Common Crawl с фильтрацией только на основе качества.
- ^ «Блог – Common Crawl» .
- ^ «Информация о коллекции — Common Crawl» .
- ^ Перейти обратно: а б Лиза Грин (15 ноября 2012 г.). «Премия Норвига в области веб-данных» . Обычное сканирование . Проверено 31 июля 2014 г.
- ^ «Премия Norvig Web Data Science 2014» . Голландский технический центр наук о жизни. Архивировано из оригинала 15 августа 2014 года . Проверено 31 июля 2014 г.
- ^ «Google достигает высочайшего уровня производительности НЛП благодаря огромной языковой модели и набору данных» . ВенчурБит . 24.10.2019 . Проверено 21 апреля 2023 г.
- ^ Херн, Алекс (20 апреля 2023 г.). «Новые опасения возникли по поводу источников учебных материалов для систем искусственного интеллекта» . Хранитель . ISSN 0261-3077 . Проверено 21 апреля 2023 г.
Внешние ссылки
[ редактировать ]- Обычное сканирование в Калифорнии, США
- Репозиторий Common Crawl GitHub с сканером, библиотеками и примером кода.
- Общая группа обсуждения сканирования
- Общий блог сканирования