~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ FC9DF77C19FA7129660D077235C5F40B__1717605000 ✰
Заголовок документа оригинал.:
✰ List of datasets for machine-learning research - Wikipedia ✰
Заголовок документа перевод.:
✰ Список наборов данных для исследований в области машинного обучения — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/fc/0b/fc9df77c19fa7129660d077235c5f40b.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/fc/0b/fc9df77c19fa7129660d077235c5f40b__translat.html ✰
Дата и время сохранения документа:
✰ 22.06.2024 01:30:39 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 5 June 2024, at 19:30 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Список наборов данных для исследований в области машинного обучения — Википедия Jump to content

Список наборов данных для исследований в области машинного обучения

Из Википедии, бесплатной энциклопедии

Эти наборы данных используются в исследованиях машинного обучения (ML) и цитируются в рецензируемых научных журналах . Наборы данных являются неотъемлемой частью области машинного обучения. Крупные достижения в этой области могут быть результатом достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерного оборудования и, что менее интуитивно понятно, доступности высококачественных наборов обучающих данных. [1] Высококачественные помеченные наборы обучающих данных для контролируемых и полуконтролируемых машинного обучения алгоритмов обычно сложно и дорого создавать из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим. [2] [3] [4] [5]

Многие организации, включая правительства, публикуют и делятся своими наборами данных . Наборы данных классифицируются в зависимости от лицензий на открытые данные и неоткрытые данные .

Наборы данных различных государственных органов представлены в Списке открытых сайтов государственных данных . Наборы данных портируются на порталы открытых данных . Они доступны для поиска, размещения и доступа через такие интерфейсы, как Open API . Наборы данных доступны в различных отсортированных типах и подтипах.

Список сортировок, используемых для наборов данных [ править ]

Тип Подтипы
Конкретная категория Финансы , экономика , торговля , социальная сфера , здравоохранение , академия , спорт , еда , сельское хозяйство , путешествия , геопространственные , политические , потребительские товары , транспорт , логистика , окружающая среда , недвижимость , юридические , развлечения , энергетика , гостиничный бизнес
Объем Наднациональный Союз , Национальный , Субнациональный , Муниципальный , Городской , Сельский
Язык Китайский , испанский , английский , арабский , хинди , бенгали
Тип Табличный , график , текст , изображение , звук , видео
Применение Обучение, проверка и тестирование
Форматы файлов CSV , JSON , XML , KML , GeoJSON , шейп-файл , GML
Лицензии Creative-Commons , GPL , другие на закрытые данные лицензии
Последнее обновление Последний час, последний день, последняя неделя, последний месяц, последний год
Размер файла Минимум, Максимум, Диапазон
Положение дел Проверено, находится в стадии подготовки, деактивировано (или устарело)
Количество записей 100, 1000, 10 000, 100 000, миллионы
Количество переменных Менее 10, 10, 100, 1000, 10000
Услуги Индивидуальный, Агрегированный

Портал данных классифицируется в зависимости от типа лицензии. известны Порталы данных с открытым исходным кодом на основе лицензий как порталы открытых данных , которые используются многими правительственными организациями и академическими учреждениями .

Список порталов открытых данных [ править ]

Имя портала Лицензия Список установок портала Типичное использование
Комплексная сеть архивов знаний ( CKAN ) АГПЛ https://ckan.github.io/ckan-instances/

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
ДЭН лицензия GPL https://getdkan.org/community Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
Вселенная данных Апач https://dataverse.org/installations

https://dataverse.org/metrics

Решение для управления данными для научно-исследовательских институтов
DSpace БСД https://registry.lyrasis.org/ Решение для управления данными для научно-исследовательских институтов
OpenML БСД https://www.openml.org/search?type=data&sort=runs&status=active Решение для управления данными для обмена наборами данных, алгоритмами и результатами экспериментов через API.

Список порталов, подходящих для нескольких типов приложений [ править ]

Портал данных иногда перечисляет самые разнообразные подтипы наборов данных, относящиеся ко многим приложениям машинного обучения .

Академические торренты https://academictorrents.com
Наборы данных Amazon https://registry.opendata.aws/
Потрясающая коллекция общедоступных наборов данных https://github.com/awesomedata/awesome-public-datasets
data.world https://data.world/datasets/machine-learning
Datahub – основные наборы данных https://datahub.io/docs/core-data
DataONE https://www.dataone.org/
Порталы данных https://dataportals.org/
Datasetlist.com https://www.datasetlist.com
Глобальный индекс открытых данных – Фонд открытых знаний https://index.okfn.org/ Архивировано 25 мая 2020 г. в Wayback Machine.
Поиск набора данных Google https://datasetsearch.research.google.com/
Обнимающее лицо https://huggingface.co/docs/datasets/
Обмен данными IBM https://developer.ibm.com/exchanges/data/
Jupyter — Учебные данные https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
Каггл https://www.kaggle.com/datasets
Наборы данных машинного обучения https://macgence.com/data-sets-and-cataloges/
Крупнейшие умные города с открытыми данными https://rlist.io/l/major-smart-cities-with-open-data-portals
Наборы данных Microsoft https://msropendata.com/datasets
Начало открытых данных https://opendatainception.io/
Opendatasoft https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
OpenDOAR https://v2.sherpa.ac.uk/opendoar/
OpenML https://www.openml.org/search?type=data
Документы с кодом https://paperswithcode.com/datasets
Тесты машинного обучения Penn https://github.com/EpistasisLab/pmlb/tree/master/datasets
Публичные API https://github.com/public-apis/public-apis
Реестр репозиториев открытого доступа http://roar.eprints.org/  
Реестр хранилищ данных исследований https://www.re3data.org/  
Репозиторий машинного обучения UCI http://mlr.cs.umass.edu/ml/ Архивировано 26 июня 2020 г. в Wayback Machine.
Речевой набор данных https://www.shaip.com/offerings/speech-data-catalog/
Визуальное обнаружение данных https://visualdata.io/discovery

Список порталов, подходящих для конкретного подтипа приложений [ править ]

Порталы данных, подходящие для определенного подтипа приложения машинного обучения, перечислены в последующих разделах.

Данные изображения [ править ]

Текстовые данные [ править ]

Эти наборы данных состоят в основном из текста для таких задач, как обработка естественного языка , анализ настроений , перевод и кластерный анализ .

Отзывы [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Амазонские обзоры Обзоры продуктов в США на Amazon.com . Никто. 233,1 миллиона Текст Классификация, анализ настроений 2015 (2018) [6] [7] Маколи и др.
Набор данных обзора OpinRank Обзоры автомобилей и отелей на Edmunds.com и TripAdvisor соответственно. Никто. 42 230 / ~ 259 000 соответственно Текст Анализ настроений, кластеризация 2011 [8] [9] К. Ганесан и др.
КиноОбъектив 22 000 000 оценок и 580 000 тегов присвоены 33 000 фильмам 240 000 пользователей. Никто. ~22 млн. Текст Регрессия, кластеризация, классификация 2016 [10] Группа исследований линз
Yahoo! Музыкальные рейтинги музыкальных исполнителей Более 10 миллионов оценок исполнителей от пользователей Yahoo. Ничего не описано. ~ 10М Текст Кластеризация, регрессия 2004 [11] [12] Yahoo!
Набор данных для оценки автомобиля Свойства автомобилей и их общая приемлемость. Даны шесть категориальных признаков. 1728 Текст Классификация 1997 [13] [14] М. Боханец
Набор данных о предпочтениях YouTube Comedy Slam Данные голосования пользователей за пары видеороликов, показанных на YouTube. Пользователи голосовали за более смешные видео. Метаданные видео предоставлены. 1,138,562 Текст Классификация 2012 [15] [16] Google
Набор данных отзывов пользователей Skytrax Отзывы пользователей об авиакомпаниях, аэропортах, местах и ​​залах ожидания от Skytrax. Рейтинги являются детальными и включают в себя множество аспектов опыта работы в аэропорту. 41396 Текст Классификация, регрессия 2015 [17] К. Нгуен
Набор данных для оценки помощника преподавателя Отзывы помощника преподавателя. Приведены характеристики каждого экземпляра, такие как класс, размер класса и инструктор. 151 Текст Классификация 1997 [18] [19] В. Лох и др.
Корпус отзывов вьетнамских студентов (UIT-VSFC) Отзывы студентов. Комментарии 16,000 Текст Классификация 1997 [20] Нгуен и др.
Вьетнамский корпус эмоций в социальных сетях (UIT-VSMEC) Комментарии пользователей Facebook. Комментарии 6,927 Текст Классификация 1997 [21] Нгуен и др.
Вьетнамский открытый набор данных для обнаружения жалоб (ViOCD) Отзывы клиентов о продукции Комментарии 5,485 Текст Классификация 2021 [22] Нгуен и др.
ViHOS: вьетнамцы выявляют разжигание ненависти Тексты в социальных сетях Комментарии Содержит 26 тысяч промежутков на 11 тысяч комментариев. Текст Обнаружение диапазона 2021 [23] Хоанг и др.

Новостные статьи [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных NYSK Английские новостные статьи о деле, касающемся обвинений в сексуальном насилии против бывшего МВФ директора Доминика Стросс-Кана . Отфильтровано и представлено в формате XML. 10,421 XML, текст Анализ настроений, извлечение тем 2013 [24] Дермуш М. и др.
Корпус Reuters, том 1 Большой корпус Reuters новостей на английском языке. Детальная категоризация и коды тем. 810,000 Текст Классификация, кластеризация, обобщение 2002 [25] Рейтер
Корпус Reuters, том 2 Большой корпус новостей Reuters на нескольких языках. Детальная категоризация и коды тем. 487,000 Текст Классификация, кластеризация, обобщение 2005 [26] Рейтер
Коллекция текстовых исследований Thomson Reuters Большой корпус новостей. Подробности не описаны. 1,800,370 Текст Классификация, кластеризация, обобщение 2009 [27] Т. Роуз и др.
Корпус газет Саудовской Аравии 31 030 статей в арабских газетах. Метаданные извлечены. 31,030 JSON Обобщение, кластеризация 2015 [28] М. Альхагри
RE3D (набор данных для оценки извлечения связей и сущностей) Entity и Relation маркируют данные из различных новостей и правительственных источников. При поддержке Dstl Фильтрация, категоризация с использованием типов уса. Неизвестный JSON Классификация, распознавание сущностей и отношений 2017 [29] Дстл
Examiner Каталог спама-кликбейта Кликбейт, спам, краудсорсинговые заголовки с 2010 по 2015 год. Дата публикации и заголовки 3,089,781 CSV-файл Кластеризация, События, Настроения 2016 [30] Р. Кулкарни
ABC Корпус новостей Australia Весь корпус новостей ABC Australia с 2003 по 2019 год. Дата публикации и заголовки 1,186,018 CSV-файл Кластеризация, События, Настроения 2020 [31] Р. Кулкарни
Мировые новости – совокупность 20 тысяч каналов Снимок всех онлайн-заголовков за неделю на более чем 20 языках. Время публикации, URL и заголовки 1,398,431 CSV-файл Кластеризация, события, определение языка 2018 [32] Р. Кулкарни
Reuters Заголовок новостей 11 лет событий с временными метками, опубликованных в новостной ленте Время публикации, текст заголовка 16,121,310 CSV-файл НЛП, Компьютерная лингвистика, События 2018 [33] Р. Кулкарни
The Irish Times Корпус новостей Ирландии 24 года новостей Ирландии с 1996 по 2019 год Время публикации, категория заголовка и текст 1,484,340 CSV-файл НЛП, Компьютерная лингвистика, События 2020 [34] Р. Кулкарни
Набор данных заголовков новостей для обнаружения сарказма Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей. Чистый, нормализованный текст 26,709 JSON НЛП, Классификация, Лингвистика 2018 [35] Ришаб Мишра

Сообщения [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных электронной почты Enron Электронные письма от сотрудников Enron упорядочены по папкам. Вложения удалены, недействительные адреса электронной почты преобразованы в [email protected] или [email protected]. ~ 500,000 Текст Сетевой анализ , анализ настроений 2004 (2015) [36] [37] Климт Б. и Ю. Ян
Набор данных линг-спама Корпус, содержащий как легитимные, так и спам -сообщения. Четыре версии корпуса, определяющие, включен ли лемматизатор или стоп-лист. 2,412 Ему 481 Спам Текст Классификация 2000 [38] [39] Анрутсопулос Дж. и др.
Набор данных для сбора SMS-спама Сбор SMS-спама. Никто. 5,574 Текст Классификация 2011 [40] [41] Т. Алмейда и др.
Набор данных двадцати групп новостей Сообщения из 20 различных групп новостей. Никто. 20,000 Текст Обработка естественного языка 1999 [42] Т. Митчелл и др.
Набор данных базы спама Спам-письма. Извлечено множество текстовых функций. 4,601 Текст Обнаружение спама, классификация 1999 [43] М. Хопкинс и др.

Твиттер и твиты [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
КиноТвиты Набор данных о рейтингах фильмов, основанный на публичных и хорошо структурированных твитах. ~710,000 Текст Классификация, регрессия 2018 [44] С. Думс
Твиттер100 тыс. Пары изображений и твитов 100,000 Текст и изображения Межмедийный поиск 2017 [45] [46] Ю. Ху и др.
Чувство140 Данные твитов за 2009 год, включая исходный текст, отметку времени, пользователя и тональность. Засекречено с использованием дистанционного наблюдения по наличию смайлика в твите. 1,578,627 Твиты, запятая, разделенные значения Анализ настроений 2009 [47] [48] А. Го и др.
Набор данных ASU Twitter Данные сети Twitter, а не реальные твиты. Показывает связи между большим количеством пользователей. Никто. 11 316 811 пользователей, 85 331 846 подключений Текст Кластеризация, графовый анализ 2009 [49] [50] Р. Зафарани и др.
Социальные круги SNAP: база данных Twitter Большие данные сети Twitter. Особенности узлов, круги и эго-сети. 1,768,149 Текст Кластеризация, графовый анализ 2012 [51] [52] Дж. Маколи и др.
Набор данных Twitter для анализа настроений на арабском языке Арабские твиты. Образцы вручную помечаются как положительные или отрицательные. 2000 Текст Классификация 2014 [53] [54] Н. Абдулла
Ажиотаж в наборе данных социальных сетей Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. Данные представлены в виде окна, поэтому пользователь может попытаться предсказать события, которые приведут к ажиотажу в социальных сетях. 140,000 Текст Регрессия, Классификация 2013 [55] [56] Ф. Кавала и др.
Парафраз и семантическое сходство в Твиттере (PIT) Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение/информацию или нет. Маркировка вручную. токенизация, тегирование частей речи и именованных объектов 18,762 Текст Регрессия, Классификация 2015 [57] [58] Сюй и др.
Набор контрольных данных Geoparse Twitter Этот набор данных содержит твиты во время различных новостных мероприятий в разных странах. Упоминания местоположения, помеченные вручную. аннотации местоположения добавлены в метаданные JSON 6,386 Твиты, JSON Классификация, извлечение информации 2014 [59] [60] С.Э. Миддлтон и др.
Сарказм, воспринимаемый и преднамеренный, методом реактивного надзора (SPIRS) Намеренные и воспринимаемые саркастические твиты вместе с их контекстом, собранные с использованием реактивного надзора; равное количество отрицательных (несаркастических) образцов 30,000 Идентификаторы твитов, CSV Классификация 2020 [61] [62] Б. Шмуэли и др.
Голландская коллекция социальных сетей Этот набор данных содержит твиты о COVID-19, написанные носителями голландского языка или пользователями из Нидерландов. Данные были помечены машиной классифицировано по настроению, тексту твита и описанию пользователя, переведенному на английский язык. Упоминания отрасли извлечены 271,342 JSONL Настроения, классификация по нескольким меткам, машинный перевод 2020 [63] [64] [65] Ааакш Гупта, CoronaWhy
Набор данных ReactionGIF Набор данных из 30 тысяч твитов и их реакций в формате GIF. Классифицируется по настроениям, реакциям и эмоциям. 30,000 Идентификаторы твитов, JSONL Классифицируется по настроениям, реакциям и эмоциям. 2021 [66] [67] Б. Шмуэли и др.

Диалоги [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Корпус чата NPS Сообщения из возрастных онлайн-чатов. Конфиденциальность рук замаскирована, отмечена часть речи и диалоговый акт. ~ 500,000 XML НЛП, программирование, лингвистика 2007 [68] Форсайт Э., Лин Дж. и Мартелл К.
Тройной корпус Твиттера Тройки ABA взяты из Twitter. 4,232 Текст НЛП 2016 [69] Сордини А. и др.
Корпус UseNet Сообщения на форуме UseNet. Анонимные электронные письма и URL-адреса. Пропущены документы длиной <500 слов или >500 000 слов или менее 90% английского языка. 7 миллиардов Текст 2011 [70] Шауль К. и Вестбери К.
SMS-корпус НУС SMS-сообщения, собранные между двумя пользователями, с временным анализом. ~ 10,000 XML НЛП 2011 [71] МОЖЕТ М
Reddit Все комментарии Корпус Все комментарии Reddit (по состоянию на 2015 год). ~ 1,7 миллиарда JSON НЛП, исследования 2015 [72] Застрял_В_Матрице
Корпус диалогов Ubuntu Диалоги извлечены из чата Ubuntu в IRC. 930 тысяч диалогов, 7,1 миллиона высказываний CSV-файл Исследование диалоговых систем 2015 [73] Лоу, Р. и др.
Задача отслеживания состояния диалогового окна Задачи отслеживания состояния диалога 2 и 3 (DSTC2 и 3) представляли собой исследовательскую задачу, направленную на улучшение современного состояния систем отслеживания состояния разговорных диалогов. Транскрипция устных диалогов с маркировкой DSTC2 содержит ~3,2 тыс. вызовов – DSTC3 содержит ~2,3 тыс. вызовов Json Отслеживание состояния диалога 2014 [74] Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д.

Юридический [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Свободное право Отфильтрованные данные из Court Listener, входящего в проект FreeLaw. Очищенный и нормализованный текст 4,940,710 Json НЛП, лингвистика 2020 [75] Т. Хоппе
Куча закона Корпус юридических и административных данных Очищено, нормализовано и приватизировано ~50,000,000 Json НЛП, лингвистика, сантименты 2022 [76] [77] Л. Чжэн; Н. Гуха; Б. Андерсон; П. Хендерсон; Д. Хо
Проект доступа к судебным делам Вся официальная, опубликованная в книгах прецедентная практика штата и федерального правительства США — каждый том или дело, обозначенное как официальный отчет о решениях суда на территории Соединенных Штатов. Очищенный и нормализованный текст ~10,000 Json НЛП, лингвистика 2022 [78] А. Айзман; С. Чепмен; Дж. Кушман; К. Дулин; Х. Эйдолон; и другие.

Другой текст [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Web of Science Иерархические наборы данных для классификации текста Никто. 46,985 Текст Классификация,

Категоризация

2017 [79] [80] К. Ковсари и др.
Отчеты о судебных делах Дела Федерального суда Австралии с 2006 по 2009 год. Никто. 4,000 Текст Подведение итогов,

анализ цитирования

2012 [81] [82] Ф. Гальгани и др.
Корпус авторства блоггеров Записи в блогах 19 320 человек с сайта blogger.com. Блогер самостоятельно указал пол, возраст, сферу деятельности и астрологический знак. 681,288 Текст Анализ настроений, обобщение, классификация 2006 [83] [84] Дж. Шлер и др.
Социальная структура сетей Facebook Большой набор данных о социальной структуре Facebook. Никто. охвачено 100 колледжей Текст Сетевой анализ, кластеризация 2012 [85] [86] А. Трауд и др.
Набор данных для машинного понимания текста Истории и сопутствующие вопросы для проверки понимания текста. Никто. 660 Текст Обработка естественного языка, машинное понимание 2013 [87] [88] М. Ричардсон и др.
Проект Пенн-Трибанк Естественно встречающийся текст, аннотированный по языковой структуре. Текст разбивается на семантические деревья. ~ 1 млн слов Текст Обработка естественного языка, обобщение 1995 [89] [90] М. Маркус и др.
Набор данных ДЭКСТЕР Задача состоит в том, чтобы по приведенным признакам определить, какие статьи посвящены корпоративным приобретениям. Извлеченные особенности включают основы слов. Включены функции отвлечения. 2600 Текст Классификация 2008 [91] Рейтер
Н-граммы Google Книги N-граммы из очень большого корпуса книг Никто. 2,2 ТБ текста Текст Классификация, кластеризация, регрессия 2011 [92] [93] Google
Тело человека Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. Помимо обычных текстов приводятся синтаксически размеченные тексты. 145 Текст Классификация, регрессия 2008 [94] [95] К. Люйкс и др.
НажмитеShift Архивы сайтов социальных сетей, включая Reddit , Twitter и Hackernews . Текст извлечен и нормализован из WARC ~100 000 000 сообщений Json НЛП, сантименты, лингвистика 2022 [96] [97] Дж. Баумгартнер
Документы SEC ЭДГАР | Документы компании Текст извлечен. csv НЛП
Набор данных CNAE-9 Задача категоризации свободных текстовых описаний бразильских компаний. Частота слов была извлечена. 1080 Текст Классификация 2012 [98] [99] П. Сиарелли и др.
Набор данных предложений с маркировкой настроений 3000 настроений, помеченных предложениями. Настроение каждого предложения было вручную помечено как положительное или отрицательное. 3000 Текст Классификация, анализ настроений 2015 [100] [101] Д. Коциас
Набор данных обратной связи блога Набор данных для прогнозирования количества комментариев, которые получит сообщение, на основе особенностей этого сообщения. Извлечено множество особенностей каждого поста. 60,021 Текст Регрессия 2014 [102] [103] К. Губа
ПабМед Централ PubMed® включает более 35 миллионов ссылок на биомедицинскую литературу из MEDLINE, журналов по наукам о жизни и онлайн-книг. Никто 35 миллионов Текст НЛП
ВПТЗ США Ведомство США по патентам и товарным знакам Текст НЛП
Филпаперс Коллекция публикаций по философии в открытом доступе Текст НЛП
Книжный корпус Популярный крупномасштабный текстовый корпус. Никто Текст НЛП 2015 [104] Чжу, Юкунь и др.
Стэнфордский корпус вывода естественного языка (SNLI) Подписи к изображениям сочетались с вновь построенными предложениями, образуя пары следствий, противоречий или нейтральных пар. Метки классов Entailment, синтаксический анализ с помощью парсера Stanford PCFG. 570,000 Текст Вывод на естественном языке/распознавание текстовых последствий 2015 [105] С. Боуман и др.
Коллекция корпусов DSL (DSLCC) Многоязычный сборник коротких отрывков публицистических текстов на близких языках и диалектах. Никто 294 000 фраз Текст Различение похожих языков 2017 [106] Тан, Лилинг и др.
городского словаря Набор данных Корпус слов, голосов и определений Имена пользователей анонимизированы 2,580,925 CSV-файл НЛП, Машинное понимание 2016 май [107] Анонимный
Т-РЕкс Рефераты Википедии , соответствующие Викиданных объектам Согласование троек Викиданных с рефератами Википедии 11M выровненных троек JSON и NIF [4] НЛП, Извлечение отношений 2018 [108] Х. Эльсахар и др.
Общая оценка понимания языка (GLUE) Тест из девяти задач Различный ~1 млн предложений и пар предложений НЛУ 2018 [109] [110] [111] Ван и др.
Понимание контрактов Набор данных Atticus (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK)) Набор данных юридических контрактов с обширными экспертными аннотациями ~13 000 этикеток CSV и PDF Обработка естественного языка, QnA 2021 Проект Аттикус
Набор данных подписей к изображениям на вьетнамском языке (UIT-ViIC) Набор данных для подписей к изображениям на вьетнамском языке 19 250 подписей к 3 850 изображениям CSV и PDF Обработка естественного языка, Компьютерное зрение 2020 [112] Лам и др.
Вьетнамские имена с указанием пола (UIT-ViNames) Вьетнамские имена с указанием пола 26 850 полных имен на вьетнамском языке с указанием пола. CSV-файл Обработка естественного языка 2020 [113] Два и др.
Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке (UIT-ViCTSD) Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке 10 000 комментариев вьетнамских пользователей к интернет-газетам на 10 доменах CSV-файл Обработка естественного языка 2021 [114] Нгуен и др.
PG-19 Набор книг, извлеченных из книжной библиотеки Project Gutenberg. Текст Обработка естественного языка 2019 Джек В. и др.
Глубокая математика Математические пары вопросов и ответов. Текст Обработка естественного языка 2018 [115] Д. Сакстон и др.
Архив Анны Полный архив опубликованных книг и статей. Никто 100,356,641 Текст, epub, PDF Обработка естественного языка 2024

Звуковые данные [ править ]

Эти наборы данных состоят из звуков и звуковых характеристик, используемых для таких задач, как распознавание и синтез речи .

Речь [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Конкурс речи с нулевыми ресурсами 2015 года Спонтанная речь (английский), Чтение речи (Сицонга). Нет, необработанные файлы WAV. Английский: 5 часов, 12 носителей; Ситсонга: 2 часа 30 минут, 24 динамика WAV (только аудио) Неконтролируемое обнаружение особенностей речи/единиц подслов/единиц слов 2015 [116] [117] Верстиг и др.
Набор речевых данных Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Извлечены особенности голоса, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона . 1,040 Текст Классификация, регрессия 2013 [118] [119] Б.Е. Сакар и др.
Разговорные арабские цифры Разговорные арабские цифры от 44 мужчин и 44 женщин. Временные ряды мел-частотных коэффициентов кепстра. 8,800 Текст Классификация 2010 [120] [121] М. Бедда и др.
Набор данных ISOLET Разговорные названия букв. Особенности, извлеченные из звуков. 7797 Текст Классификация 1994 [122] [123] Р. Коул и др.
Набор данных японских гласных Девять носителей мужского пола последовательно произнесли две японские гласные. Применил к нему 12-градусный анализ линейного прогнозирования, чтобы получить дискретный временной ряд с 12 кепстральными коэффициентами. 640 Текст Классификация 1999 [124] [125] М. Кудо и др.
Набор данных телемониторинга Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Звуковые особенности извлечены. 5875 Текст Классификация 2009 [126] [127] А. Цанас и др.
ТИОН Записи 630 носителей восьми основных диалектов американского английского, каждый из которых читает десять фонетически богатых предложений. Речь лексически и фонематически транскрибируется. 6300 Текст Распознавание речи, классификация. 1986 [128] [129] Дж. Гарофоло и др.
Корпус арабской речи (MSA) для одного говорящего Речевой корпус современного стандартного арабского языка с фонетическими и орфографическими расшифровками, согласованными с уровнем фонем. Речь орфографически и фонетически транскрибируется со знаками ударения. ~1900 Текст, WAV Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. 2016 [130] Н. Халаби
Общий голос Общедоступная база данных краудсорсинговых данных на широком спектре диалектов. Проверка другими пользователями. Английский: 1118 часов MP3 с соответствующими текстовыми файлами Распознавание речи июнь 2017 г. (декабрь 2019 г.) [131] Мозилла
LJРечь Сборник аудиокниг , являющихся общественным достоянием, на английском языке , разделенных на короткие отрывки знаками препинания. Проверка качества, нормализация транскрипции рядом с оригиналом. 13,100 CSV, WAV Синтез речи 2017 [132] Кит Ито, Линда Джонсон
Набор данных арабских речевых команд Собрано от 30 участников и сгруппировано по 40 ключевым словам. Необработанные файлы WAV 12,000 WAV, CSV Распознавание речи, определение ключевых слов 2021 [133] Абдулкадер Гандура

Музыка [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Географическое происхождение набора музыкальных данных Аудио особенности музыкальных сэмплов из разных мест. Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. 1,059 Текст Географическая классификация, кластеризация 2014 [134] [135] Ф. Чжоу и др.
Набор данных «Миллион песен» Аудио функции из миллиона разных песен. Аудио функции извлечены. Текст Классификация, кластеризация 2011 [136] [137] Т. Бертен-Маье и др.
MUSDB18 Многодорожечные записи популярной музыки Необработанный звук 150 MP4, WAV Разделение источников 2017 [138] З. Рафии и др.
Бесплатный музыкальный архив Аудио под Creative Commons из 100 тысяч песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданными, пользовательскими данными, текстом в произвольной форме. Необработанный звук и аудиофункции. 106,574 Текст, MP3 Классификация, рекомендации 2017 [139] М. Дефферрард и др.
Набор данных хоровой гармонии Баха Хоральные аккорды Баха. Аудио функции извлечены. 5665 Текст Классификация 2014 [140] [141] Д. Радичиони и др.

Другие звуки [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
UrbanSound Маркированные звукозаписи звуков, таких как работа кондиционера, автомобильные гудки и игра детей. Сортировка по папкам по классам событий, а также метаданные в файле JSON и аннотации в файле CSV. 1,059 Звук

( ВАВ )

Классификация 2014 [142] [143] Дж. Саламон и др.
АудиоСет 10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 ярлыков. 128-мерный PCA в стиле VGG воспроизводится каждые 1 секунду. 2,084,320 Текстовые (CSV) и файлы записей TensorFlow. Классификация 2017 [144] Дж. Геммеке и др., Google
Задача обнаружения звука птиц Звук со станций мониторинга окружающей среды, а также краудсорсинговые записи 17,000+ Классификация 2016 (2018) [145] [146] Университет Королевы Марии и Общество обработки сигналов IEEE
Хипстерские эмбиентные смеси WSJ0 Звук с WSJ0, смешанный с шумом, записанный в районе залива Сан-Франциско. Шумовые клипы, соответствующие клипам WSJ0. 28,000 Звук ( WAV ) Разделение источников звука 2019 [147] Вичерн Г. и др., Whisper and MERL.
ткань 4981 аудиосэмпл длиной от 15 до 30 секунд, каждый аудиосэмпл имеет пять разных подписей длиной от 8 до 20 слов. 24,905 Звук ( WAV ) и текст ( CSV ) Автоматизированные аудио субтитры 2020 [148] [149] К. Дроссос, С. Липпинг и Т. Виртанен

Данные сигнала [ править ]

Наборы данных, содержащие информацию об электрическом сигнале, требующую какой-либо обработки сигнала для дальнейшего анализа.

Электрика [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных остроумного червя Набор данных, подробно описывающий распространение червя Witty и зараженных компьютеров. Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую ​​​​как заголовки IP и UDP. 55 909 IP-адресов Текст Классификация 2004 [150] [151] Центр прикладного анализа интернет-данных
Набор данных для оценки артериального давления без манжеты Очищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. Жизненно важные функции на частоте 125 Гц были очищены. 12,000 Текст Классификация, регрессия 2015 [152] [153] М. Качуи и др.
Набор данных о дрейфе матрицы газовых датчиков Измерения от 16 химических датчиков, используемых в моделировании для компенсации дрейфа. Представлено большое количество функций. 13,910 Текст Классификация 2012 [154] [155] А. Вергара
Набор данных сервопривода Данные, охватывающие нелинейные зависимости, наблюдаемые в схеме сервоусилителя. Приведены уровни различных компонентов в зависимости от других компонентов. 167 Текст Регрессия 1993 [156] [157] К. Ульрих
Набор данных UJIIndoorLoc-Mag База данных внутренней локализации для тестирования систем внутреннего позиционирования. Данные основаны на магнитном поле. Даны разделения на обучение и тестирование. 40,000 Текст Классификация, регрессия, кластеризация 2015 [158] [159] Д. Рамбла и др.
Набор данных диагностики бездатчикового привода Электрические сигналы от двигателей с неисправными компонентами. Извлечены статистические характеристики. 58,508 Текст Классификация 2015 [160] [161] М. Батор

Отслеживание движения [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Носимые компьютеры: Классификация поз и движений тела (PUC-Рио) Люди выполняют пять стандартных действий, используя трекеры движения. Никто. 165,632 Текст Классификация 2013 [162] [163] Папский католический университет Рио-де-Жанейро
Набор данных сегментации фазы жестов Фрагменты, извлеченные из видео людей, делающих различные жесты. Извлеченные особенности направлены на изучение сегментации фаз жестов. 9900 Текст Классификация, кластеризация 2014 [164] [165] Р. Мадео и
Набор данных о физическом воздействии Vicon 10 нормальных и 10 агрессивных физических действий, измеряющих активность человека, отслеживаемых 3D-трекером. Многие параметры фиксируются 3D трекером. 3000 Текст Классификация 2011 [166] [167] Т. Теодоридис
Набор данных о ежедневных и спортивных мероприятиях Данные датчика моторики для 19 ежедневных и спортивных занятий. Имеется множество датчиков, предварительная обработка сигналов не производится. 9120 Текст Классификация 2013 [168] [169] Б. Баршан и др.
Распознавание человеческой деятельности с использованием набора данных смартфонов Данные гироскопа и акселерометра людей, носящих смартфоны и выполняющих обычные действия. Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет шума. 10,299 Текст Классификация 2012 [170] [171] Дж. Рейес-Ортис и др.
Знаки австралийского языка жестов Знаки австралийского языка жестов, снятые с помощью перчаток, отслеживающих движение. Никто. 2565 Текст Классификация 2002 [172] [173] М. Кадус
Упражнения по поднятию тяжестей контролируются с помощью инерционных измерительных приборов Пять вариантов упражнения на сгибание рук на бицепс, контролируемые с помощью IMU. Некоторые статистические данные рассчитаны на основе необработанных данных. 39,242 Текст Классификация 2013 [174] [175] В. Угулино и др.
sEMG для базовых движений рук. Набор данных Две базы данных поверхностных электромиографических сигналов 6 движений руки. Никто. 3000 Текст Классификация 2014 [176] [177] К. Сапсанис и др.
Набор данных распознавания действий REALDISP Оценить методы борьбы с эффектами смещения датчиков при распознавании активности носимых устройств. Никто. 1419 Текст Классификация 2014 [177] [178] О. Банос и др.
Набор данных для распознавания гетерогенной деятельности Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. Никто. 43,930,257 Текст Классификация, кластеризация 2015 [179] [180] А. Стисен и др.
Прогноз движения пользователей внутри помещений на основе данных RSS Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. Никто. 13,197 Текст Классификация 2016 [181] [182] Д. Баччу
Набор данных мониторинга физической активности PAMAP2 18 различных видов физической активности, выполняемых 9 субъектами, носящими 3 ИДУ. Никто. 3,850,505 Текст Классификация 2012 [183] А. Рейсс
Набор данных для распознавания активности ВОЗМОЖНОСТИ Распознавание человеческой деятельности с помощью носимых датчиков, датчиков объектов и окружающей среды — это набор данных, разработанный для сравнения алгоритмов распознавания человеческой деятельности. Никто. 2551 Текст Классификация 2012 [184] [185] Д. Рогген и др.
Набор данных для распознавания действий в реальном мире Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков. Никто. 3 150 000 (на датчик) Текст Классификация 2016 [186] Т. Штайлер и др.
Набор данных позы после инсульта в Реабилитационном центре Торонто 3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с использованием робота для реабилитации после инсульта. Никто. 10 здоровых и 9 перенесших инсульт (3500–6000 кадров на человека) CSV-файл Классификация 2017 [187] [188] [189] Э. Долатабади и др.
Корпус социальных контактов (CoST) 7805 снимков 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежном, нормальном и грубом, на сетке датчика давления, обернутой вокруг руки манекена. Выполняемые сенсорные жесты сегментируются и помечаются. 7805 захватов жестов CSV-файл Классификация 2016 [190] [191] М. Юнг и др.

Другие сигналы [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных вина Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. Приведены 13 свойств каждого вина. 178 Текст Классификация, регрессия 1991 [192] [193] М. Форина и др.
Набор данных электростанции комбинированного цикла Данные от различных датчиков на электростанции, работающей в течение 6 лет. Никто 9568 Текст Регрессия 2014 [194] [195] П. Туфекчи и др.

Физические данные [ править ]

Наборы данных из физических систем.

Физика высоких энергий [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных ХИГГС Моделирование столкновений ускорителей частиц методом Монте-Карло. Приведены 28 особенностей каждого столкновения. 11М Текст Классификация 2014 [196] [197] [198] Д. Уайтсон
Набор данных HEPMASS Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель — отделить сигнал от шума. Приведены 28 особенностей каждого столкновения. 10,500,000 Текст Классификация 2016 [197] [198] [199] Д. Уайтсон

Системы [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных по гидродинамике яхты Производительность яхты в зависимости от размеров. Для каждой яхты дано шесть характеристик. 308 Текст Регрессия 2013 [200] [201] Р. Лопес
Набор данных о сбоях выполнения робота 5 наборов данных, которые сосредоточены на неспособности роботов выполнять стандартные задачи. Целочисленные функции, такие как крутящий момент и другие измерения датчика. 463 Текст Классификация 1999 [202] Л. Сибра и др.
Набор данных Питтсбургских мостов Описание конструкции дано с точки зрения нескольких свойств различных мостов. Приведены различные характеристики моста. 108 Текст Классификация 1990 [203] [204] Ю. Райх и др.
Набор автомобильных данных Данные об автомобилях, их страховом риске и нормированных убытках. Извлечены характеристики автомобиля. 205 Текст Регрессия 1987 [205] [206] Дж. Шиммер и др.
Набор данных Auto MPG Данные MPG для автомобилей. Приведены восемь особенностей каждого автомобиля. 398 Текст Регрессия 1993 [207] Университет Карнеги Меллон
Набор данных по энергоэффективности Требования к отоплению и охлаждению указаны в зависимости от параметров здания. Указаны параметры здания. 768 Текст Классификация, регрессия 2012 [208] [209] А. Ксифара и др.
Набор данных собственного шума профиля Серия аэродинамических и акустических испытаний двух и трехмерных секций лопастей аэродинамического профиля. Приводятся данные о частоте, угле атаки и т.д. 1503 Текст Регрессия 2014 [210] Р. Лопес
Набор данных об уплотнительных кольцах космического корабля Challenger USA Попытайтесь спрогнозировать проблемы с уплотнительными кольцами, учитывая прошлые данные Challenger. Приведены некоторые характеристики каждого полета, например, температура запуска. 23 Текст Регрессия 1993 [211] [212] Д. Дрейпер и др.
Набор данных статистического журнала (Шаттл) Наборы данных космического корабля НАСА. Даны девять функций. 58,000 Текст Классификация 2002 [213] НАСА

Астрономия [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы на Венере - набор данных эксперимента JARtool Изображения Венеры, полученные космическим кораблем Магеллан. Изображения маркируются людьми. не дано Изображений Классификация 1991 [214] [215] М. Берл
Набор данных гамма-телескопа MAGIC Монте-Карло генерировал события с гамма-частицами высокой энергии. Многочисленные функции, извлеченные из моделирования. 19,020 Текст Классификация 2007 [215] [216] Р. Бок
Набор данных о солнечных вспышках Измерения количества определенных типов солнечных вспышек, происходящих за 24 часа. Приведены многие особенности солнечных вспышек. 1389 Текст Регрессия, классификация 1989 [217] Дж. Брэдшоу
Многополевой набор данных CAMELS 2D-карты и 3D-сетки на основе тысяч N-тел и современного гидродинамического моделирования, охватывающего широкий диапазон значений космологических и астрофизических параметров. С каждой картой и сеткой связано 6 космологических и астрофизических параметров. 405 000 2D-карт и 405 000 3D-сеток 2D-карты и 3D-сетки Регрессия 2021 [218] Франсиско Вильяескуза-Наварро и др.

Науки о Земле [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы мира Данные об извержениях вулканов для всех известных вулканических событий на Земле. Приводятся такие подробности, как регион, субрегион, тектоническая обстановка, доминирующий тип горных пород. 1535 Текст Регрессия, классификация 2013 [219] Э. Венцке и др.
Набор данных сейсмических ударов Сейсмическая активность на угольной шахте. Сейсмическая активность классифицировалась как опасная или нет. 2584 Текст Классификация 2013 [220] [221] М. Сикора и др.
ВЕРБЛЮДЫ - США Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регрессия 2017 [222] [223] Н. Аддор и др. / А. Ньюман и др.
ВЕРБЛЮДЫ-Чили Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 516 CSV, текст, шейп-файл Регрессия 2018 [224] К. Альварес-Гарретон и др.
ВЕРБЛЮДЫ-Бразилия Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 897 CSV, текст, шейп-файл Регрессия 2020 [225] V. Chagas et al.
ВЕРБЛЮДЫ-ГБ Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регрессия 2020 [226] Г. Коксон и др.
ВЕРблюды-Австралия Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 222 CSV, текст, шейп-файл Регрессия 2021 [227] К. Фаулер и др.
LamaH -CE Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 859 CSV, текст, шейп-файл Регрессия 2021 [228] К. Клинглер и др.

Другое физическое [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных по прочности на сжатие бетона Набор данных о свойствах бетона и прочности на сжатие. Для каждого образца дано девять признаков. 1030 Текст Регрессия 2007 [229] [230] Я. Да
Набор данных для испытаний на осадку бетона Текучесть осадка бетона, заданная с точки зрения свойств. Приведены характеристики бетона, такие как летучая зола, вода и т. д. 103 Текст Регрессия 2009 [231] [232] Я. Да
Набор данных Маска Предскажите, будет ли молекула, учитывая ее характеристики, мускусной или немускусной. Для каждой молекулы дано 168 признаков. 6598 Текст Классификация 1994 [233] Аррис Фармасьютикал Корп.
Набор данных о повреждениях стальных пластин Стальные пластины 7 разных видов. Для каждого образца дано 27 признаков. 1941 Текст Классификация 2010 [234] Семенионовский научный центр

Биологические данные [ править ]

Наборы данных из биологических систем.

Человек [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о возрасте Структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей. Всеобщее достояние. Пятиэтапный метод определения года рождения и смерти, пола и рода деятельности на основе данных, предоставленных сообществом во всех языковых версиях проекта Википедии. 1,223,009 Текст Регрессия, Классификация 2022 Бумага [235]

Набор данных [236]

Амораднежад и др.
Синтетический набор данных глазного дна [237] Фотореалистичные изображения сетчатки и сегментация сосудов. Всеобщее достояние. 2500 изображений размером 1500*1152 пикселей, полезных для сегментации и классификации вен и артерий на одном фоне. 2500 Изображений Классификация, Сегментация 2020 [238] К. Валенти и др.
База данных ЭЭГ Исследование по изучению ЭЭГ-коррелятов генетической предрасположенности к алкоголизму. Измерения с 64 электродов, помещенных на кожу головы, производились при частоте 256 Гц (период 3,9 мс) в течение 1 секунды. 122 Текст Классификация 1999 [239] Х. Компаньон
Набор данных интерфейса P300 Данные от девяти субъектов собраны с использованием интерфейса «мозг-компьютер» на базе P300 для людей с ограниченными возможностями. Разделить на четыре занятия по каждому предмету. Дан код MATLAB . 1,224 Текст Классификация 2008 [240] [241] У. Хоффман и др.
Набор данных о сердечных заболеваниях Приписывается больным с сердечно-сосудистыми заболеваниями и без них. Для каждого пациента задано 75 атрибутов с некоторыми пропущенными значениями. 303 Текст Классификация 1988 [242] [243] А. Янози и др.
Набор данных рака молочной железы, Висконсин (диагностика) Набор данных особенностей образований молочной железы. Диагнозы ставит врач. Приведено по 10 признаков для каждого образца. 569 Текст Классификация 1995 [244] [245] В. Вольберг и др.
Национальное исследование по употреблению наркотиков и здоровью Крупномасштабное исследование здоровья и употребления наркотиков в США. Никто. 55,268 Текст Классификация, регрессия 2012 [246] Министерство здравоохранения и социальных служб США
Набор данных рака легких Набор данных о раке легких без определений атрибутов Для каждого случая дано 56 функций 32 Текст Классификация 1992 [247] [248] З. Хонг и др.
Набор данных об аритмии Данные для группы пациентов, из которых у части пациентов имеется сердечная аритмия. 276 функций для каждого экземпляра. 452 Текст Классификация 1998 [249] [250] Х. Алтай и др.
Диабет 130 больниц США за 1999–2008 гг. Набор данных Данные о повторной госпитализации пациентов с диабетом за 9 лет в 130 больницах США. Приведены многие особенности каждой реадмиссии. 100,000 Текст Классификация, кластеризация 2014 [251] [252] Дж. Клор и др.
Набор данных о диабетической ретинопатии в Дебрецене Особенности, извлеченные из изображений глаз с диабетической ретинопатией и без нее. Извлечены особенности и диагностированы состояния. 1151 Текст Классификация 2014 [253] [254] Б. Антал и др.
Набор данных Мессидора о диабетической ретинопатии Методы оценки методов сегментации и индексации в области офтальмологии сетчатки (MESSIDOR) Особенности степени ретинопатии и риска макулярного отека 1200 Изображения, Текст Классификация, Сегментация 2008 [255] [256] Проект Мессидор
Набор данных о заболеваниях печени Данные для людей с заболеваниями печени. Семь биологических особенностей приведены для каждого пациента. 345 Текст Классификация 1990 [257] [258] Бупа Медицинские Исследования Лтд.
Набор данных о заболеваниях щитовидной железы 10 баз данных данных пациентов с заболеваниями щитовидной железы. Никто. 7200 Текст Классификация 1987 [259] [260] Р. Куинлан
Набор данных мезотелиомы Данные пациентов с мезотелиомой. Приведено большое количество особенностей, в том числе воздействия асбеста. 324 Текст Классификация 2016 [261] [262] А. Танрикулу и др.
Набор данных для оценки позы Паркинсона на основе зрения 2D-оценка человеческой позы пациентов с болезнью Паркинсона, выполняющих различные задачи. На траекториях убрано дрожание камеры. 134 Текст Классификация, регрессия 2017 [263] [264] [265] М. Ли и др.
Набор данных сети метаболических реакций KEGG (ненаправленный) Сеть метаболических путей. реакционная сеть и сеть отношений Даны . Приведены подробные характеристики каждого сетевого узла и пути. 65,554 Текст Классификация, кластеризация, регрессия 2011 [266] М. Наим и др.
Модифицированный набор данных анализа морфологии спермы человека (MHSMA) Изображения спермы человека от 235 пациентов с мужским фактором бесплодия, с маркировкой нормальных или аномальных акросом, головки, вакуоли и хвоста сперматозоида. Обрезано вокруг одиночной головки сперматозоида. Увеличение нормализовалось. Созданы разделения обучающего, валидационного и тестового наборов. 1,540 .npy-файлы Классификация 2019 [267] [268] С. Джавади и С. А. Миррошандель

Животное [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных морского ушка Физические измерения морского ушка. Также указаны погодные условия и местоположение. Никто. 4177 Текст Регрессия 1995 [269] Лаборатории морских исследований - Таруна
Набор данных зоопарка Набор искусственных данных, охватывающий 7 классов животных. Животные разделены на 7 категорий и для каждой указаны особенности. 101 Текст Классификация 1990 [270] Р. Форсайт
Набор данных демоспонгий Данные о морских губках. 503 губки класса Demosponge характеризуются различными признаками. 503 Текст Классификация 2010 [271] Э. Арменгол и др.
Данные о сельскохозяйственных животных Инвентаризация данных PLF (коровы, свиньи; местоположение, ускорение и т. д.). Маркированные наборы данных. Список постоянно обновляется Текст Классификация 2020 [272] В. Блох
Набор данных последовательностей генов сплайс-соединения Последовательности генов сплайсинга (ДНК) приматов и связанная с ними теория несовершенных доменов. Никто. 3190 Текст Классификация 1992 [248] Г. Тоуэлл и др.
Набор данных по экспрессии белков мышей Уровни экспрессии 77 белков измерены в коре головного мозга мышей. Никто. 1080 Текст Классификация, кластеризация 2015 [273] [274] К. Хигера и др.

Грибы [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных грибов UCI Признаки и классификация грибов. Приведены многие свойства каждого гриба. 8124 Текст Классификация 1987 [275] Дж. Хуже
Вторичный набор данных о грибах Атрибуты и классификация грибов Смоделированные данные из более крупных и реалистичных первичных записей о грибах. Полностью воспроизводимый. 61069 Текст Классификация 2020 [276] [277] Д. Вагнер и др.

Растение [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о лесных пожарах Лесные пожары и их свойства. Выделено 13 особенностей каждого пожара. 517 Текст Регрессия 2008 [278] [279] П. Кортес и др.
Набор данных Ирис Три типа ирисов описываются четырьмя разными признаками. Никто. 150 Текст Классификация 1936 [280] [281] Р. Фишер
Набор данных о листьях видов растений Шестнадцать образцов листьев каждого из ста видов растений. Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстур. 1600 Текст Классификация 2012 [282] [283] Дж. Коуп и др.
Набор данных по сое База данных больных растений сои. Даны 35 признаков для каждого растения. Растения разделены на 19 категорий. 307 Текст Классификация 1988 [284] Р. Михальски и др.
Набор данных семян Измерения геометрических свойств зерен трех разных сортов пшеницы. Никто. 210 Текст Классификация, кластеризация 2012 [285] [286] Чаританович и др.
Набор данных типа обложки Данные для прогнозирования типа лесного покрова строго на основе картографических переменных. Даны многие географические объекты. 581,012 Текст Классификация 1998 [287] [288] Дж. Блэкард и др.
Набор данных сети передачи сигналов абсцизовой кислоты Данные для сети сигнализации предприятия. Цель состоит в том, чтобы определить набор правил, которые управляют сетью. Никто. 300 Текст Причинно-следственное открытие 2008 [289] Дж. Дженкенс и др.
Набор данных фолио По 20 фотографий листьев каждого из 32 видов. Никто. 637 Изображения, текст Классификация, кластеризация 2015 [290] [291] Т. Мунисами и др.
Оксфордский набор цветочных данных Набор данных из 17 категорий цветов. Разделение поездов/тестов, маркированные изображения, 1360 Изображения, текст Классификация 2006 [292] [293] М. Е. Нильсбек и др.
Набор данных о саженцах растений Набор данных из 12 категорий саженцев растений. Маркированные изображения, сегментированные изображения, 5544 Изображений Классификация, обнаружение 2017 [294] Гизельссон и др.
Фрукты-360 База данных с изображениями 131 фрукта и овоща. 100x100 пикселей, белый фон. 90483 Изображения (jpg) Классификация 2017–2024 [295] Михай Олтян

Микроб [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Эколи Сайты локализации белков. Приведены различные особенности мест локализации белков. 336 Текст Классификация 1996 [296] [297] К. Накаи и др.
Набор данных MicroMass Идентификация микроорганизмов по данным масс-спектрометрии. Различные функции масс-спектрометра. 931 Текст Классификация 2013 [298] [299] П. Маэ и др.
Набор данных о дрожжах Прогнозы мест клеточной локализации белков. Восемь функций даны для каждого экземпляра. 1484 Текст Классификация 1996 [300] [301] К. Накаи и др.

Открытие лекарств [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Tox21 Прогнозирование результатов биологических анализов. Даны химические дескрипторы молекул. 12707 Текст Классификация 2016 [302] А. Майр и др.

Данные об аномалиях [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Тест нумента-аномалий (NAB) Данные представляют собой упорядоченные однозначные метрики с отметкой времени. Все файлы данных содержат аномалии, если не указано иное. Никто 50+ файлов CSV-файл Обнаружение аномалий 2016 (постоянно обновляется) [303] Имя
Сколтехский тест аномалий (SKAB) Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. Существует две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменений (коллективные аномалии). 30+ файлов (v0.9) CSV-файл Обнаружение аномалий 2020 (постоянно обновляется)

[304] [305]

Кацер Юрий Дмитриевич и Козицын Вячеслав Олегович
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование Большинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые взяты из литературы. обрабатывается на предмет пропущенных значений, только числовые атрибуты, различный процент аномалий, метки 1000+ файлов АРФФ Обнаружение аномалий 2016 г. (возможно, дополнено новыми наборами данных и/или результатами)

[306]

Кампос и др.

Данные для ответов на вопросы [ править ]

В этот раздел включены наборы данных, посвященные структурированным данным.

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных нейронных ответов на вопросы DBpedia (DBNQA) Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронной сети открытого домена в базе знаний DBpedia. Этот набор данных содержит большую коллекцию шаблонов Open Neural SPARQL и экземпляров для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотирования, а также тремя экспертами SPARQL. 894,499 Пары вопрос-запрос Вопрос Ответ 2018 [307] [308] Хартманн, Сору и Маркс и др.
Набор данных для ответов на вьетнамские вопросы (UIT-ViQuAD) Большая коллекция вопросов на вьетнамском языке для оценки моделей MRC. Этот набор данных включает более 23 000 пар вопросов и ответов, созданных человеком, на основе 5 109 отрывков из 174 вьетнамских статей из Википедии. 23,074 Пары вопрос-ответ Вопрос Ответ 2020 [309] Нгуен и др.
Вьетнамский корпус машинного чтения с множественным выбором (ViMMRC) Сборник вопросов с несколькими вариантами ответов на вьетнамском языке для оценки моделей MRC. Этот корпус включает 2783 вопроса на вьетнамском языке с несколькими вариантами ответов. 2,783 Пары вопрос-ответ Ответы на вопросы/понимание машинного чтения 2020 [310] Нгуен и др.
Ответы на открытые вопросы становятся диалоговыми благодаря переписыванию вопросов Сквозной ответ на открытый вопрос. Этот набор данных включает 14 000 разговоров с 81 000 парами вопросов и ответов. Контекст, Вопрос, Переписать, Ответ, URL_ответа, Номер_разговора, Номер_поворота, Источник_разговора

Более подробная информация представлена ​​в репозитории проекта на GitHub и в соответствующей карточке набора данных Hugging Face .

Вопрос Ответ 2021 [311] Ананта и Вакуленко и др.
Унифицированный контроль качества Данные вопросов-ответов Обработанный набор данных Вопрос Ответ 2020 [312] Хашаби и др.

Данные диалога или инструкции [ править ]

В этом разделе представлены наборы данных, которые...

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Надсмотрщик «Корпус Taskmaster состоит из ТРЕХ наборов данных: Taskmaster-1 (TM-1), Taskmaster-2 (TM-2) и Taskmaster-3 (TM-3), включающих более 55 000 устных и письменных диалогов, ориентированных на задачи, в более чем дюжину доменов». [313] Надсмотрщик-1: целенаправленный разговорный набор данных. Он включает в себя 13 215 диалогов на основе задач, состоящих из шести доменов.

Taskmaster-2: 17 289 диалогов в семи доменах (рестораны, заказ еды, кино, отели, авиабилеты, музыка и спорт).

Надсмотрщик-3: 23 757 диалогов с билетами в кино.

Надсмотрщик-1 и Надсмотрщик-2: идентификатор разговора, высказывания, идентификатор инструкции.

Надсмотрщик-3: идентификатор разговора, высказывания, вертикаль, сценарий, инструкции.

Для получения более подробной информации проверьте репозиторий проекта на GitHub или карточки набора данных Hugging Face ( Taskmaster-1 , Taskmaster-2 , Taskmaster-3 ).

Диалоговое окно/инструкция 2019 [314] Бирн и Кришнамурти и др.
DrRepair Размеченный набор данных для программного восстановления. Предварительно обработанные данные Подробные сведения о формате см. на листе проекта . Диалоговое окно/инструкция 2020 [315] Мичихиро и др.
Естественные инструкции v2 Большой набор данных, охватывающий более широкий спектр способностей к рассуждению. Каждая задача состоит из ввода/вывода и определения задачи.

Кроме того, каждый запрос содержит определение задачи.

Дополнительная информация представлена ​​в на GitHub репозитории проекта и на карточке данных Hugging Face .

Ввод/вывод и определение задачи 2022 [316] Ван и др.
ЛАМБАДА «ЛАМБАДА — это совокупность повествовательных отрывков, обладающая тем свойством, что люди могут угадать свое последнее слово, если они прочитают весь отрывок, а не если они увидят только последнее предложение, предшествующее целевому слову». [317] Информация о формате этого набора данных доступна в карточке набора данных HuggingFace и на сайте проекта .

Набор данных можно скачать здесь , а отклоненные данные — здесь .

2016 [318] Паперно и др.
ФЛАН Повторно обработанная версия набора данных FLAN с обновлениями с момента выпуска исходного набора данных FLAN доступна в Hugging Face :
  1. данные испытаний
  2. данные поезда
  3. данные проверки

Скрипты для обработки данных доступны в репозитории GitHub, упомянутом в документе: https://github.com/google-research/FLAN/tree/main/flan .

еще один репозиторий FLAN на GitHub Также был создан . Это та карта, которая связана с карточкой набора данных в Hugging Face.

2021 [319] Вэй и др.

Кибербезопасность [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
МИТРА АТАКА ATT&CK — это глобально доступная база знаний о тактике и методах противника. Данные можно загрузить из двух репозиториев GitHub: версии 2.1 и версии 2.0. [320] МИТРА АТАКА
ЦАТЭК Перечень и классификация распространенных шаблонов атак Данные можно скачать с сайта CAPEC :

Механизмы атаки Области атаки

[321] ЦАТЭК
CVE CVE — это список публично раскрытых уязвимостей кибербезопасности, который можно бесплатно искать, использовать и включать в продукты и услуги. Данные можно скачать с: Allitems [322] CVE
КВЕ Данные перечисления общих слабостей. Данные можно скачать с:

Разработка программного обеспечения Проектирование оборудования [ постоянная мертвая ссылка ] Концепции исследования

[323] КВЕ
MalwareTextDB Аннотированная база данных текстов вредоносного ПО. Репозиторий проекта на GitHub содержит данные для загрузки. [324] Киат и др.
Материалы симпозиума USENIX по безопасности Сборник материалов по безопасности симпозиума USENIX по безопасности - технических сессий с 1995 по 2022 год. Эти данные не подвергаются предварительной обработке. 1995 , 1996 , 1997 , 1998 , 1999 , 2000 , 2001 , 2002 , 2003 , 2004 , 2005 , 2006 , 2007 , 2008 ,

2009 , 2010 2011 , 2012 , 2013 , 2014 , 2015 , 2016 , 2017 , 2018 , 2019 , 2020 , 2021 , 2022 .

[325] Симпозиум USENIX по безопасности
APTПримечания Сборник общедоступных документов, технических документов и статей о кампаниях APT. Все документы являются общедоступными данными. Эти данные не подвергаются предварительной обработке. В репозитории проекта на GitHub есть файл со ссылками на данные, хранящиеся в box.

Файлы данных также можно скачать здесь .

[326] Примечания к APT
Документы по криптографии и безопасности arXiv Сборник статей о кибербезопасности Эти данные не подвергаются предварительной обработке. Все статьи доступны здесь . [327] arXiv
Электронные книги по безопасности бесплатно Небольшая коллекция электронных книг по безопасности и общедоступных презентаций по безопасности. Эти данные не подвергаются предварительной обработке. [328] [329] [330] [331] [332] [333] [334] [335] [336] [337] [338] [339]
Репозиторий национальной стратегии кибербезопасности Репозиторий всемирных стратегических документов по кибербезопасности. Эти данные не подвергаются предварительной обработке. [340]
Кибербезопасность Обработка естественного языка Данные о стратегиях кибербезопасности из более чем 75 стран. Токенизация, удаление бессмысленно-частых слов. [341] Яньлинь Чен, Юньцзянь Вэй, Ифань Юй, Вэнь Сюэ, Сянья Цинь
Коллекция отчетов APT Образцы отчетов APT, вредоносных программ, технологий и сбора разведывательной информации Доступны необработанные и токенизированные данные. Все данные доступны в этом GitHub репозитории . [ нужна цитата ] черная птица
Набор данных для идентификации оскорбительного языка (OLID) Данные доступны на сайте проекта .

Данные также доступны здесь .

[342] Зампиери и др.
Киберотчеты Национального центра кибербезопасности Эти данные не подвергаются предварительной обработке. Отчеты об угрозах , отчеты и рекомендации , новости , сообщения в блогах , выступления .

Альтернативный список отчетов .

[343]
APT-отчеты Касперского Эти данные не подвергаются предварительной обработке. [344]
Киберпровод Эти данные не подвергаются предварительной обработке. Информационные бюллетени , подкасты и истории . [345]
Новости об утечках данных Эти данные не подвергаются предварительной обработке. Новости , список новостей с августа 2022 по февраль 2023 года. [346]
Киберньюс Эти данные не подвергаются предварительной обработке. Новости , кураторский список новостей [347]
Мигающийкомпьютер Эти данные не подвергаются предварительной обработке. Новости [348]
Запись Эти данные не подвергаются предварительной обработке. Новости киберпреступности [349]
Взломать Эти данные не подвергаются предварительной обработке. Новости взлома [350]
Список безопасности Эти данные не подвергаются предварительной обработке. Отчеты APT , архив , отчеты о DDOS , инциденты , бюллетень безопасности Касперского , промышленные угрозы , отчеты о вредоносных программах , мнения , публикации , исследования и SAS . [351]
Лепной проект Проект Stucco собирает данные, которые обычно не интегрируются в системы безопасности. Эти данные не подвергаются предварительной обработке Веб-сайт проекта с информацией о данных. Проверенный источник со ссылками на источники данных. [352]
Фарсайтбезопасность Веб-сайт с технической информацией, отчетами и многим другим по темам безопасности. Эти данные не подвергаются предварительной обработке Техническая информация , исследования , отчеты . [353]
Шнайер Веб-сайт с научными статьями по темам безопасности. Эти данные не подвергаются предварительной обработке Статьи по категориям , архив статей по дате . [354]
Трендмикро Веб-сайт с исследованиями, новостями и взглядами на темы безопасности. Эти данные не подвергаются предварительной обработке Обзорный список исследований, новостей и перспектив Trendmicro . [355]
Хакерские новости Новости на тему кибербезопасности. Эти данные не подвергаются предварительной обработке утечки данных , кибератаки , уязвимости , новости о вредоносном ПО . [356]
Кребсонбезопасность Новости безопасности и расследования Эти данные не подвергаются предварительной обработке тщательно подобранный список новостей [357]
Митра Защитить Матрица защитных артефактов JSON-файлы [358]
Митра Атлас Mitre Atlas — это база знаний о тактиках, методах противодействия и тематических исследованиях для систем машинного обучения (ML), основанная на реальных наблюдениях. Эти данные не подвергаются предварительной обработке [359]
Митра Энгейдж MITRE Engage — это платформа для планирования и обсуждения операций по взаимодействию с противниками, которая позволяет вам взаимодействовать с противниками и достигать своих целей в области кибербезопасности. Эти данные не подвергаются предварительной обработке [360]
Учебники по взлому Эти данные не подвергаются предварительной обработке [361]

и устойчивость Климат

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Отчеты TCFD База данных отчетов компаний, включающих раскрытие информации, связанной с TCFD. Эти данные не подвергаются предварительной обработке Прямая ссылка на отчеты Кураторский список отчетов [362] Центр знаний TCFD
Отчеты о корпоративной социальной ответственности Список отчетов об ответственности в Интернете. Эти данные не подвергаются предварительной обработке Кураторский список отчетов [363] ОтветственностьОтчеты
Межправительственная группа экспертов по изменению климата (МГЭИК) Сборник комплексных отчетов об оценке знаний об изменении климата, его причинах, потенциальных последствиях и вариантах реагирования. Эти данные не подвергаются предварительной обработке Отчеты Кураторский список отчетов [364] МГЭИК
Альянс исследований корпоративной устойчивости Эти данные не подвергаются предварительной обработке Кураторский список сообщений в блоге [365] АРКС
Корпус ESG: Центр знаний по учету устойчивого развития Эти данные не подвергаются предварительной обработке Руководства , тематические исследования , блоги , отчеты и опросы . [366] Мехра и др.
КЛИМАТ-ЛИХОРАДКА Набор данных, основанный на методологии FEVER, состоящий из 1535 реальных утверждений об изменении климата, собранных в Интернете. Каждое утверждение сопровождается пятью аннотированными вручную предложениями-доказательствами, полученными из английской Википедии, которые подтверждают, опровергают или не дают достаточно информации для подтверждения утверждения, в общей сложности состоящего из 7675 пар утверждение-доказательство. [367] Карта набора данных HF проекта на и репозиторий GitHub . [368] Диггельманн и др.
Набор данных «Климатические новости» Набор данных для исследователей НЛП и СМИ, посвященных изменению климата. Набор данных состоит из ряда артефактов данных (текстовые файлы JSON, JSONL и CSV и база данных SQLite). База данных климатических новостей проекта на GitHub , репозиторий [369] ADGEэффективность
Климаттекст Climatext — это набор данных для определения тем, связанных с изменением климата, на основе предложений. набор ВЧ-данных [370] Университет Цюриха
ГринБиз Сборник статей и новостей о климате и устойчивом развитии Эти данные не подвергаются предварительной обработке Кураторский список статей о климате Кураторский список статей об устойчивом развитии [371]
Лучшие препринты исследований в области климата и устойчивого развития Список препринтов исследователей в горячем списке Reuters Эти данные не подвергаются предварительной обработке Кураторский список препринтов [372] Морис Тамман
АРКС Эти данные не подвергаются предварительной обработке Кураторский список блогов о корпоративном устойчивом развитии [373]
ГринБиз Веб-сайт со статьями о климате и устойчивом развитии Эти данные не подвергаются предварительной обработке [374] ГринБиз
CSRWIRE Эти данные не подвергаются предварительной обработке Кураторский список статей [375] CSRWIRE
CDP Статьи о климате , воде и лесах Эти данные не подвергаются предварительной обработке [376] CDP

Данные кода [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Стек Набор данных объемом 3,1 ТБ, состоящий из лицензированного исходного кода на 30 языках программирования. Фильтруется посредством обнаружения лицензий и дедупликации. 6 ТБ, 51,76 Б файлов (до дедупликации); 3 ТБ, файлы 5,28Б (после). 358 языков программирования. Паркет Языковое моделирование, автодополнение, синтез программ. 2022 [377] [378] Д. Кочетков, Р. Ли, Л. Бен Аллаль, Л. фон Верра, Х. де Врис
Репозитории GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub : 61 , 62 , 63, 64 , 65 , 66, 67 , 68 , 69 , 70, 71 , 72 , 73 , 74 , 75 , 76 , 77 101.
Публичные репозитории IBM на GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub.
Публичные репозитории RedHat на GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub.
Файлы Public Archive.org StackExchange Эти данные не подвергаются предварительной обработке Кураторский список файлов с Archive.org.
Публичные репозитории Gitlab Эти данные не подвергаются предварительной обработке Кураторский список репозиториев Gitlab : 1 2
Публичные репозитории Ansible Collections Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub .
Набор данных кода CodeParrot GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев Hugging Face : 1 2 3 4 5 6 7 8 9 10
ОКД Распространение Kubernetes от сообщества, лежащее в основе Red Hat OpenShift Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Опеншифт Дистрибутив Kubernetes, удобный для разработчиков и эксплуатации. Список репозиториев проекта на GitHub
Кубернетес Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Разработчик Red Hat GitHub — главная страница программы Red Hat Developer. Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная Шапка

Мастерские

Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes SIG Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Конвейер Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Торговая площадка RedHat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Блог Redhat Эти данные не подвергаются предварительной обработке [379]
Кубернетес ио Эти данные не подвергаются предварительной обработке [380]
Документы Эти данные не подвергаются предварительной обработке [381]
cncf я Эти данные не подвергаются предварительной обработке [382]
Презентации Кубернетеса Список общедоступных презентаций Kubernetes Эти данные не подвергаются предварительной обработке канал передачи данных
Лаборатории открытых инноваций Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Демонстрации Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Red Hat OpenShift онлайн Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Коллекции программного обеспечения Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная шляпа Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Правительство Красной Шляпы Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Ред Хэт Консалтинг Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Сообщества практиков Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Партнер Red Hat Tech Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Документация Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
ИБМ Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
IBM Облако Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Команда создания лаборатории Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Терраформировать IBM-модули Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Облачные схемы Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Демонстрации мощности OCP Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Модернизация приложений IBM  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes OperationHub  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Фонд облачных вычислений (CNCF)  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Структура оператора Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub [383]
Репозитории GitHub, на которые есть ссылки в Artehub.io. Эти данные не подвергаются предварительной обработке Список репозиториев GitHub в Artehub.io
Сообщества практиков Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Партнер Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Репозитории IBM Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Команда создания лаборатории Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Структура оператора Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Репозитории GitHub Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная Шапка Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Шаблоны Кубернетеса Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Шаблоны развертывания и безопасности Kubernetes Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes для Full-Stack разработчиков Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Метрики балансировщика нагрузки Cloudwatch Эти данные не подвергаются предварительной обработке GitHub репозиторий проекта
Дайнатрейс Эти данные не подвергаются предварительной обработке [5]
Данные AIOps Challenge 2020 Эти данные не подвергаются предварительной обработке GitHub репозиторий проекта
Логхаб Эти данные не подвергаются предварительной обработке Список репозиториев
HTML-страницы Эти данные не подвергаются предварительной обработке Список HTML-страниц
Электронные книги Opensift Эти данные не подвергаются предварительной обработке [384]
Электронные книги по Кубернетесу Эти данные не подвергаются предварительной обработке Шаблоны Kubernetes , Развертывание Kubernetes , Kubernetes для разработчиков полного стека
Kubernetes для Full-Stack разработчиков Эти данные не подвергаются предварительной обработке Kubernetes для Full-Stack разработчиков
Список публичных и лицензированных репозиториев Github Эти данные не подвергаются предварительной обработке Список репозиториев

Многомерные данные [ править ]

Финансовый [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Индекс Доу-Джонса Еженедельные данные по акциям за первый и второй кварталы 2011 года. В расчет включены такие значения, как процентное изменение и лаги. 750 Значения, разделенные запятыми Классификация, регрессия, временные ряды 2014 [385] [386] М. Браун и др.
Statlog (австралийское одобрение кредита) Заявки на получение кредитной карты принимаются или отклоняются, а также сведения о заявке. Имена атрибутов удаляются, а также идентифицирующая информация. Факторы были переименованы. 690 Значения, разделенные запятыми Классификация 1987 [387] [388] Р. Куинлан
данные аукциона eBay Данные аукционов различных объектов eBay.com по аукционам различной продолжительности. Содержит все ставки, идентификатор участника торгов, время ставок и цены открытия. ~ 550 Текст Регрессия, классификация 2012 [389] [390] Г. Шмуэли и др.
Статлог (кредитные данные Германии) Классификация двоичных кредитов на «хорошие» и «плохие» со многими особенностями. Приведены различные финансовые особенности каждого человека. 690 Текст Классификация 1994 [391] Х. Хофманн
Набор данных банковского маркетинга Данные крупной маркетинговой кампании, проведенной крупным банком. Приводятся многие характеристики клиентов, с которыми связались. Также указывается, если клиент подписался на банк. 45,211 Текст Классификация 2012 [392] [393] С. Моро и др.
Набор данных Стамбульской фондовой биржи Несколько фондовых индексов отслеживались в течение почти двух лет. Никто. 536 Текст Классификация, регрессия 2013 [394] [395] О. Акбилгич
Дефолт клиентов по кредитным картам Данные о кредитном дефолте для тайваньских кредиторов. Приводятся различные особенности каждой учетной записи. 30,000 Текст Классификация 2016 [396] [397] Я. Да
Стокнет Прогноз движения акций на основе твитов и исторических цен на акции Никто Текст НЛП 2018 [398] Юмо Сюй и Шей Б. Коэн

Погода [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Облачный набор данных Данные о 1024 различных облаках. Извлечены особенности изображения. 1024 Текст Классификация, кластеризация 1989 [399] П. Коллард
Набор данных Эль-Ниньо Океанографические и приземные метеорологические данные, полученные с ряда буев, расположенных по всей экваториальной части Тихого океана. На каждом буе измеряются 12 погодных атрибутов. 178080 Текст Регрессия 1999 [400] Тихоокеанская лаборатория морской окружающей среды
Набор данных сети наблюдений за парниковыми газами Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. Никто. 2921 Текст Регрессия 2015 [401] Д. Лукас
Атмосферный CO 2 из непрерывных проб воздуха в обсерватории Мауна-Лоа Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. Никто. 44 года Текст Регрессия 2001 [402] Обсерватория горы Лоа
Набор данных ионосферы Радиолокационные данные из ионосферы. Задача состоит в том, чтобы классифицировать радиолокационные сигналы на хорошие и плохие. Приведены многие функции радара. 351 Текст Классификация 1989 [260] [403] Университет Джонса Хопкинса
Набор данных для определения уровня озона Два набора данных об уровне приземного озона. Приведено множество характеристик, включая погодные условия во время измерения. 2536 Текст Классификация 2008 [404] [405] К. Чжан и др.

Перепись [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных для взрослых Данные переписи населения 1994 года, содержащие демографические характеристики взрослого населения и их доходы. Очищено и анонимизировано. 48,842 Значения, разделенные запятыми Классификация 1996 [406] Бюро переписи населения США
Переписной доход (KDD) 1994 и 1995 годов Взвешенные данные переписи населения, полученные в ходе текущих обследований населения . Разделить на обучающие и тестовые наборы. 299,285 Значения, разделенные запятыми Классификация 2000 [407] [408] Бюро переписи населения США
База данных переписи населения IPUMS Данные переписи населения в районах Лос-Анджелеса и Лонг-Бич. Никто 256,932 Текст Классификация, регрессия 1999 [409] ИПУМС
Данные переписи населения США 1990 г. Частичные данные переписи населения США 1990 года. Результаты рандомизированы и выбраны полезные атрибуты. 2,458,285 Текст Классификация, регрессия 1990 [410] Бюро переписи населения США

Транзит [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных для совместного использования велосипедов Почасовой и дневной подсчет проката велосипедов в большом городе. Приводятся многие характеристики, включая погоду, продолжительность поездки и т. д. 17,389 Текст Регрессия 2013 [411] [412] Х. Фанаи-Т
Данные о поездках на такси в Нью-Йорке Данные о поездках желтых и зеленых такси в Нью-Йорке. Содержит информацию о местах посадки и высадки, тарифах и других деталях поездок. 6 лет Текст Классификация, кластеризация 2015 [413] Комиссия по такси и лимузинам Нью-Йорка
Траектория службы такси ECML PKDD Траектории всех такси в большом городе. Приведено множество функций, включая точки начала и остановки. 1,710,671 Текст Кластеризация, причинно-следственное обнаружение 2015 [414] [415] М. Феррейра и др.
МЕТР-ТО Скорость по показаниям детекторов петель на шоссе округа Лос-Анджелес. Средняя скорость за 5 минут. 7 094 304 от 207 датчиков и 34 272 временных шагов Значения, разделенные запятыми Регрессия, Прогнозирование 2014 [416] Джагадиш и др.
ПеМС Скорость, поток, занятость и другие показатели, полученные от детекторов контуров и других датчиков на автостраде штата Калифорния, США. Метрика обычно агрегируется с помощью среднего значения с интервалом в 5 минут. 39 000 отдельных детекторов, каждый из которых содержит временные ряды за годы. Значения, разделенные запятыми Регрессия, прогнозирование, прогноз текущей погоды, интерполяция (обновляется в реальном времени) [417] Департамент транспорта Калифорнии

Интернет [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Веб-страницы из Common Crawl 2012 Большая коллекция веб-страниц и способы их соединения гиперссылками. Никто. 3,5Б Текст кластеризация, классификация 2013 [418] В. Гранвиль
Набор данных интернет-рекламы Набор данных для прогнозирования, является ли данное изображение рекламой или нет. Функции кодируют геометрию объявлений и фраз, встречающихся в URL-адресе. 3279 Текст Классификация 1998 [419] [420] Н. Кушмерик
Набор данных об использовании Интернета Общая демография интернет-пользователей. Никто. 10,104 Текст Классификация, кластеризация 1999 [421] Д. Кук
Набор данных URL Данные URL-адресов большой конференции за 120 дней. Приведены многие функции каждого URL-адреса. 2,396,130 Текст Классификация 2009 [422] [423] Дж.Ма
Набор данных фишинговых веб-сайтов Набор данных фишинговых сайтов. Приведены многие особенности каждого сайта. 2456 Текст Классификация 2015 [424] Р. Мустафа и др.
Набор данных онлайн-торговли Онлайн-транзакции для британского интернет-магазина. Подробная информация о каждой транзакции предоставлена. 541,909 Текст Классификация, кластеризация 2015 [425] Д. Чен
Простой дамп темы Freebase Freebase — это онлайн-попытка структурировать все человеческие знания. Были извлечены темы из Freebase. большой Текст Классификация, кластеризация 2011 [426] [427] Бесплатная база
Набор данных фермерской рекламы Текст фермерских объявлений с сайтов. Выдается двоичное одобрение или неодобрение со стороны владельцев контента. Рассчитаны SVMlight разреженные векторы текстовых слов в рекламных объявлениях. 4143 Текст Классификация 2011 [428] [429] К. Мастерхарм и др.
Куча Сборка нескольких больших наборов данных разнообразных и неструктурированных текстов. Разное (удаление HTML и Javascript с веб-сайтов, удаление повторяющихся предложений) 825 ГиБ английского текста JSON-линии [430] [431] Обработка естественного языка, прогнозирование текста 2021 [432] [430] Гао и др.
ОСКАР Большая коллекция одноязычных корпусов, извлеченных из веб-данных (дампы Common Crawl), охватывающая более 150 языков. Различные (фильтрация, языковая классификация, обнаружение контента для взрослых и другая маркировка) 3,4 ТБ текста на английском языке, 1,4 ТБ текста на китайском языке, 1,1 ТБ текста на русском языке, 595 МБ текста на немецком языке, 431 МБ текста на французском языке и данных для более чем 150 языков (цифры для версии 23.01) JSON-линии [433] Обработка естественного языка, прогнозирование текста 2021 [434] [435] Ортис Суарес, Абаджи, Сагот и др.
OpenWebText Воссоздание корпуса WebText с открытым исходным кодом. Текст представляет собой веб-контент, извлеченный из URL-адресов, опубликованных на Reddit и получивших как минимум три голоса «за». Извлеченный контент, отличный от HTML, дедуплицированный и токенизированный. 8 013 769 документов, 38 ГБ Текст Обработка естественного языка, прогнозирование текста 2019 [436] [437] А. Гокаслан, В. Коэн
КОРНЕПЛОДЫ Хорошо документированный и репрезентативный многоязычный набор данных с явной целью принести пользу людям, чьи данные были собраны. Извлечён не-HTML-контент, очищен пользовательский интерфейс и реклама, дедуплицированы, удалены персональные данные и токенизированы. 1,6 ТБ, 59 языков. Паркет Обработка естественного языка, прогнозирование текста 2022 [438] [439] Х. Лоуренсон, Л. Солнье, Т. Ван, К. Акики, А. Вилланова дель Мораль, Т. Ле Скао

Игры [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных покерных рук 5-карточные комбинации из стандартной колоды из 52 карт. Приводятся атрибуты каждой руки, включая покерные руки, состоящие из содержащихся в ней карт. 1,025,010 Текст Регрессия, классификация 2007 [440] Р. Каттрал
Набор данных Connect-4 Содержит все разрешенные 8-слойные позиции в игре Connect-4, в которых ни один игрок еще не выиграл и в которых следующий ход не является обязательным. Никто. 67,557 Текст Классификация 1995 [441] Дж. Тромп
Шахматы (король-ладья против короля) Набор данных База данных эндшпиля для белого короля и ладьи против черного короля. Никто. 28,056 Текст Классификация 1994 [442] [443] М. Бейн и др.
Шахматы (король-ладья против короля-пешки) Набор данных Король+ладья против короля+пешка на а7. Никто. 3196 Текст Классификация 1989 [444] Р. Холте
Набор данных эндшпиля «Крестики-нолики» Бинарная классификация условий победы в игре «крестики-нолики». Никто. 958 Текст Классификация 1991 [445] Д. Ааа

Другое многомерное [ править ]

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о жилье Средняя стоимость дома в Бостоне с соответствующими характеристиками дома и района. Никто. 506 Текст Регрессия 1993 [446] Д. Харрисон и др.
Словари Гетти структурированная терминология искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы. Никто. большой Текст Классификация 2015 [447] Центр Гетти
Yahoo! Главная страница Модуль «Сегодня» Журнал кликов пользователя Журнал кликов пользователей для новостных статей, отображаемых на вкладке «Рекомендуемые» модуля «Сегодня» на Yahoo! Титульная страница. Совместный анализ с билинейной моделью. 45 811 883 посещения пользователей Текст Регрессия, кластеризация 2009 [448] [449] Чу и др.
Британский центр океанографических данных Биологические, химические, физические и геофизические данные океанов. Отслеживается 22 тыс. переменных. Различный. 22 тыс. переменных, множество экземпляров Текст Регрессия, кластеризация 2015 [450] Британский центр океанографических данных
Набор данных протоколов голосования в Конгрессе Данные голосования всех представителей США по 16 вопросам. Помимо необработанных данных голосования, предоставляются различные другие функции. 435 Текст Классификация 1987 [451] Дж. Хуже
Набор данных рекомендаций Entree Chicago Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. Подробная информация об использовании приложения каждым пользователем записывается. 50,672 Текст Регрессия, рекомендация 2000 [452] Р. Берк
Оценка страховой компании (COIL 2000) Информация о клиентах страховой компании. Множество особенностей каждого клиента и услуг, которыми он пользуется. 9,000 Текст Регрессия, классификация 2000 [453] [454] П. ван дер Путтен
Набор данных питомника Данные поступающих в детские сады. Включены данные о семье заявителя и различные другие факторы. 12,960 Текст Классификация 1997 [455] [456] V. Rajkovic et al.
Набор данных университета Данные, описывающие атрибуты большого количества университетов. Никто. 285 Текст Кластеризация, классификация 1988 [457] С. Саундерс и др.
Набор данных Центра переливания крови Данные Центра переливания крови. Предоставляет данные о проценте возврата доноров, частоте и т. д. Никто. 748 Текст Классификация 2008 [458] [459] Я. Да
Набор данных шаблонов сравнения связей записи Большой набор данных записей. Задача состоит в том, чтобы связать соответствующие записи вместе. Процедура блокировки применяется для выбора только определенных пар записей. 5,749,132 Текст Классификация 2011 [460] [461] Университет Майнца
Набор данных Номао Nomao собирает данные о местах из разных источников. Задача — обнаружить предметы, описывающие одно и то же место. Дубликаты помечены. 34,465 Текст Классификация 2012 [462] [463] Номао Лаборатории
Набор данных фильма Данные по 10 000 фильмов. Приведено несколько функций для каждого фильма. 10,000 Текст Кластеризация, классификация 1999 [464] Г. Видерхольд
Набор данных аналитики обучения открытого университета Информация об учениках и их взаимодействии с виртуальной средой обучения. Никто. ~ 30,000 Текст Классификация, кластеризация, регрессия 2015 [465] [466] Дж. Кузилек и др.
Записи мобильных телефонов Телекоммуникационная деятельность и взаимодействие Агрегация по ячейкам географической сетки и каждые 15 минут. большой Текст Классификация, кластеризация, регрессия 2015 [467] Дж. Барлакки и др.

Кураторские репозитории наборов данных [ править ]

Поскольку наборы данных имеют множество форматов и иногда их может быть сложно использовать, была проделана значительная работа по созданию и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.

  • ОпенМЛ: [468] Веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
  • ПМЛБ: [469] Большой тщательно подобранный репозиторий эталонных наборов данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, доступном через API Python.
  • Metatext NLP: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий около 1000 наборов контрольных данных, и их количество продолжает расти. Предоставляет множество задач, от классификации до контроля качества, и поддерживает различные языки: от английского, португальского до арабского.
  • Appen : готовые наборы данных и наборы данных с открытым исходным кодом, размещаемые и поддерживаемые компанией. Эти биологические, графические, физические ресурсы, ресурсы для ответов на вопросы, сигнальные, звуковые, текстовые и видеоресурсы насчитывают более 250 и могут применяться в более чем 25 различных случаях использования. [470] [471]

См. также [ править ]

Ссылки [ править ]

  1. ^ Висснер-Гросс, А. «Наборы данных вместо алгоритмов» . Edge.com . Проверено 8 января 2016 г.
  2. ^ Вайс, генеральный директор; Провост, Ф. (1 сентября 2003 г.). «Обучение, когда обучающие данные являются дорогостоящими: влияние распределения классов на индукцию дерева» . Журнал исследований искусственного интеллекта . 19 . Фонд доступа к искусственному интеллекту: 315–354. дои : 10.1613/jair.1199 . ISSN   1076-9757 . S2CID   2344521 .
  3. ^ Терни, Питер (2000). «Типы затрат в индуктивном концептуальном обучении». arXiv : cs/0212034 .
  4. ^ Эбни, Стивен (17 сентября 2007 г.). Полуконтролируемое обучение компьютерной лингвистике . ЦРК Пресс. ISBN  978-1-4200-1080-0 .
  5. ^ Жлиобайте, Индре; Бифет, Альберт; Пфарингер, Бернхард; Холмс, Джефф (2011). «Активное обучение с развивающимися потоковыми данными». Машинное обучение и обнаружение знаний в базах данных . Конспекты лекций по информатике. Том. 6913. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 597–612. дои : 10.1007/978-3-642-23808-6_39 . ISBN  978-3-642-23807-9 . ISSN   0302-9743 .
  6. ^ Маколи, Джулиан; Таргетт, Кристофер; Ши, Циньфэн; Антон ван ден Хенгель (2015). «Рекомендации по стилям и заменителям на основе изображений». arXiv : 1506.04757 [ cs.CV ].
  7. ^ «Данные обзора Amazon» . nijianmo.github.io . Проверено 8 октября 2021 г.
  8. ^ Ганесан, Кавита; Чжай, Чэнсян (2012). «Рейтинг организаций на основе мнений». Поиск информации . 15 (2): 116–150. дои : 10.1007/s10791-011-9174-8 . hdl : 2142/15252 . S2CID   16258727 .
  9. ^ Льв, Юаньхуа, Димитриос Лимберопулос и Цян Ву. « Исследование эвристики ранжирования в мобильном локальном поиске ». Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска» . АКМ, 2012.
  10. ^ Харпер, Ф. Максвелл; Констан, Джозеф А. (2015). «Наборы данных MovieLens: история и контекст». Транзакции ACM в интерактивных интеллектуальных системах . 5 (4): 19. дои : 10.1145/2827872 . S2CID   16619709 .
  11. ^ Кенигштейн, Ноам, Гидеон Дрор и Иегуда Корен. « Музыкальные рекомендации Yahoo!: моделирование музыкальных рейтингов с учетом временной динамики и таксономии предметов ». Материалы пятой конференции ACM по рекомендательным системам . АКМ, 2011.
  12. ^ Макфи, Брайан и др. « Вызов набора данных на миллион песен ». Материалы 21-й международной конференции-спутника по Всемирной паутине . АКМ, 2012.
  13. ^ Боанец, Марко и Владислав Райкович. « Получение знаний и объяснение принятия многоатрибутных решений ». 8-й международный семинар по экспертным системам и их приложениям . 1988.
  14. ^ Тан, Питер Дж. и Дэвид Л. Доу. « Вывод MML графов решений с многосторонними соединениями ». Австралийская совместная конференция по искусственному интеллекту . 2002.
  15. ^ «Количественная оценка комедии на YouTube: почему количество букв «о» в вашем LOL имеет значение» . Метатекстовая база данных НЛП . Проверено 26 октября 2020 г.
  16. ^ Ким, Бён Джу (2012). «Классификатор больших данных» . Конвергенция и гибридные информационные технологии . Коммуникации в компьютерной и информатике. Том. 310. стр. 505–512. дои : 10.1007/978-3-642-32692-9_63 . ISBN  978-3-642-32691-2 .
  17. ^ Пересгонсалес, Хосе Д.; Гилби, Эндрю (2011). «Прогнозирование рейтингов аэропортов Skytrax на основе отзывов клиентов» . Журнал управления аэропортами . 5 (4): 335–339.
  18. ^ Ло, Вэй-Инь и Ю-Шань Ши. « Методы расщепленного выбора для деревьев классификации ». Statistica sinica (1997): 815–840.
  19. ^ Лим, Тьен-Сиен; Ло, Вэй-Инь; Ши, Ю-Шань (2000). «Сравнение точности прогнозирования, сложности и времени обучения тридцати трех старых и новых алгоритмов классификации». Машинное обучение . 40 (3): 203–228. дои : 10.1023/а:1007608224229 . S2CID   17030953 .
  20. ^ Киет Ван Нгуен, Ву Дык Нгуен, Фу XV Нгуен, Тхам Т.Х. Труонг, Нган Луу-Туи Нгуен. " UIT-VSFC: Корпус отзывов вьетнамских студентов для анализа настроений
  21. ^ Хо, Вонг Ань; Нгуен, Дуонг Хуинь-Конг; Нгуен, Дань Хоанг; Фам, Линь Тхи-Ван; Нгуен, Дык-Ву; Нгуен, Киет Ван; Нгуен, Нган Луу-Туи (2020). «Распознавание эмоций в текстах вьетнамских социальных сетей» . Компьютерная лингвистика . Коммуникации в компьютерной и информатике. Том. 1215. стр. 319–333. arXiv : 1911.09339 . дои : 10.1007/978-981-15-6168-9_27 . ISBN  978-981-15-6167-2 . S2CID   208202333 .
  22. ^ Нхунг Тхи-Хонг Нгуен, Фуонг Ха-Диеу Фан, Луан Тхань Нгуен, Киет Ван Нгуен, Нган Луу-Туй Нгуен (24 апреля 2021 г.). «Вьетнамское обнаружение жалоб на открытые домены на веб-сайтах электронной коммерции». arXiv : 2104.11969 [ cs.CL ]. {{cite arXiv}}: CS1 maint: несколько имен: список авторов ( ссылка )
  23. ^ Фу Зия Хоанг, Кань Дык Луу, Кхань Куок Тран, Киет Ван Нгуен, Нган Луу-Туй Нгуен (26 января 2023 г.). «ViHOS: вьетнамцы выявляют разжигание ненависти». arXiv : 2301.10186 [ cs.CL ]. {{cite arXiv}}: CS1 maint: несколько имен: список авторов ( ссылка )
  24. ^ Дермуш, Мохамед; Вельсин, Жюльен; Хоас, Лейла; Лаудчер, Сабина (2014). «Совместная модель эволюции тем и настроений с течением времени». Международная конференция IEEE по интеллектуальному анализу данных , 2014 г. IEEE. стр. 773–778. дои : 10.1109/icdm.2014.82 . ISBN  978-1-4799-4302-9 .
  25. ^ Роуз, Тони; Стивенсон, Марк; Уайтхед, Майлз (2002). «Корпус Reuters, том 1 - от вчерашних новостей до языковых ресурсов завтрашнего дня» (PDF) . ЛРЭК . 2 . S2CID   9239414 . Архивировано из оригинала (PDF) 6 августа 2019 года.
  26. ^ Амини, Масих Р.; Усунье, Николя; Гутте, Кирилл (2009). «Обучение на основе нескольких частично наблюдаемых представлений – приложение к категоризации многоязычного текста» . Достижения в области нейронных систем обработки информации . 22 : 28–36.
  27. ^ Лю, Мин; и другие. (2015). «VRCA: алгоритм кластеризации огромного количества текстов» . Материалы 24-й Международной конференции по искусственному интеллекту . АААИ Пресс. Архивировано из оригинала 5 ноября 2021 года . Проверено 6 августа 2019 г.
  28. ^ Аль-Харби, С; Альмухареб, А; Аль-Тубайти, А; Хоршид, М.С.; Аль-Радже, А. (2008). «Автоматическая классификация арабского текста». Материалы 9-й Международной конференции по статистическому анализу текстовых данных, Лион, Франция .
  29. ^ «Набор данных для оценки извлечения связей и сущностей: Dstl/re3d» . Гитхаб . 17 декабря 2018 г.
  30. ^ «The Examiner – Каталог SpamClickBait» .
  31. ^ «Миллион заголовков новостей» .
  32. ^ «Одна неделя глобальных новостных лент» .
  33. ^ Кулкарни, Рохит (2018), Архив Reuters News-Wire , Harvard Dataverse, doi : 10.7910/DVN/XDB74W
  34. ^ «IrishTimes – восклицательные новости» .
  35. ^ «Набор данных заголовков новостей для обнаружения сарказма» . kaggle.com . Проверено 27 апреля 2019 г.
  36. ^ Климт, Брайан и Имин Ян. « Представляем корпус Enron ». СЕАС . 2004.
  37. ^ Косинец, Георгий; Кляйнберг, Джон; Уоттс, Дункан (2008). «Структура информационных путей в сети социальных коммуникаций». arXiv : 0806.3201 [ physical.soc-ph ].
  38. ^ Андрутсопулос, Ион; Куциас, Джон; Чандринос, Константинос В.; Палиурас, Джордж; Спиропулос, Константин Д. (2000). «Оценка наивной байесовской фильтрации спама». В Потамиасе, Г.; Мустакис, В.; ван Сомерен, М. (ред.). Материалы семинара по машинному обучению в эпоху новой информации . 11-я Европейская конференция по машинному обучению, Барселона, Испания. Том. 11. С. 9–17. arXiv : cs/0006013 . Бибкод : 2000cs........6013A .
  39. ^ Братко, Андрей; и другие. (2006). «Фильтрация спама с использованием статистических моделей сжатия данных» (PDF) . Журнал исследований машинного обучения . 7 : 2673–2698.
  40. ^ Алмейда, Тьяго А., Хосе Мария Г. Идальго и Акебо Ямаками. « Вклад в исследование фильтрации SMS-спама: новый сборник и результаты ». Материалы 11-го симпозиума ACM по документальной инженерии . АКМ, 2011.
  41. ^ Делани; Джейн, Сара; Бакли, Марк; Грин, Дерек (2012). «Фильтрация SMS-спама: методы и данные» . Экспертные системы с приложениями . 39 (10): 9899–9908. дои : 10.1016/j.eswa.2012.02.053 . S2CID   15546924 .
  42. ^ Иоахимс, Торстен. Вероятностный анализ алгоритма Роккио с TFIDF для категоризации текста . № КМУ-КС-96-118. Университет Карнеги-Меллона, Питтсбург, Пенсильвания, факультет компьютерных наук, 1996 год.
  43. ^ Димитракакис, Христос и Сами Бенджио. Адаптация онлайн-политики для ансамблевых алгоритмов . № EPFL-ОТЧЕТ-82788. ИДИАП, 2002.
  44. ^ Думс, С. и др. «Movietweetings: набор данных о рейтингах фильмов, собранный из Твиттера, 2013 г. Доступно по адресу https://github.com/sidooms/MovieTweetings ».
  45. ^ Рой Чоудхури, Аруни; Линь, Цунг-Ю; Маджи, Субхрансу; Узнал-Миллер, Эрик (2017). «Twitter100k: реальный набор данных для кросс-медийного поиска со слабым контролем». arXiv : 1703.06618 [ cs.CV ].
  46. ^ "huyt16/Twitter100k" . Гитхаб . Проверено 26 марта 2018 г.
  47. ^ Иди, Алек; Бхаяни, Рича; Хуан, Лэй (2009). «Классификация настроений в Твиттере с использованием дистанционного наблюдения». Отчет о проекте CS224N, Стэнфорд . 1 : 12.
  48. ^ Чикерсал, Прерна, Суджанья Пориа и Эрик Камбрия. « SeNTU: анализ настроений твитов путем сочетания классификатора на основе правил с контролируемым обучением ». Материалы международного семинара по семантической оценке SemEval . 2015.
  49. ^ Зафарани, Реза и Хуан Лю . «Хранилище данных социальных вычислений в АГУ». Школа вычислительной техники, информатики и систем принятия решений, Университет штата Аризона (2009 г.).
  50. ^ Курс по науке о данных от DataTrained Education « Сертифицированный IBM курс по науке о данных » [ мертвая ссылка ] Сертифицированный IBM онлайн-курс по науке о данных
  51. ^ Маколи, Джулиан Дж.; Лесковец, Юре. «Учимся обнаруживать социальные круги в сетях эго». НИПС . 2012 : 2012.
  52. ^ Шубель, Ловро; Фиала, Далибор; Баец, Марко (2014). «Сетевое статистическое сравнение топологии цитирования библиографических баз данных» . Научные отчеты . 4 (6496): 6496. arXiv : 1502.05061 . Бибкод : 2014NatSR...4E6496S . дои : 10.1038/srep06496 . ПМЦ   4178292 . ПМИД   25263231 .
  53. ^ Абдулла Н. и др. «Анализ настроений на арабском языке: на основе корпуса и лексикона». Материалы конференции IEEE по прикладной электротехнике и вычислительным технологиям (AEECT) . 2013.
  54. ^ Абурейг, Раддад и др. « Об автоматической категоризации арабских статей по их политической направленности ». Третья международная конференция по информатике и информатике (ICIEIS2014) . 2014.
  55. ^ Кавала, Франсуа и др. « Прогнозы активности в социальных сетях онлайн ». 4-я конференция по сетевым моделям и анализу: Математические и вычислительные подходы . 2013.
  56. ^ Сабхарвал, Ашиш; Самуловиц, Хорст; Тезауро, Джеральд (2015). «Выбор почти оптимальных учащихся посредством постепенного распределения данных». arXiv : 1601.00024 [ cs.LG ].
  57. ^ Сюй и др. « SemEval-2015 Задача 1: Перефраз и семантическое сходство в Twitter (PIT) » Материалы 9-го Международного семинара по семантической оценке . 2015.
  58. ^ Сюй и др. « Извлечение лексически расходящихся парафраз из Твиттера » Транзакции Ассоциации вычислительных технологий (TACL) . 2014.
  59. ^ Миддлтон, Стюарт Э; Миддлтон, Ли; Модаффери, Стефано (2014). «Картирование кризисов стихийных бедствий в реальном времени с использованием социальных сетей» (PDF) . Интеллектуальные системы IEEE . 29 (2): 9–17. дои : 10.1109/MIS.2013.126 . S2CID   15139204 .
  60. ^ «геопарсепия» . 2016. Библиотека Python PyPI.
  61. ^ Шмуэли, Боаз; Ку, Лунь-Вэй; Рэй, Сумья (2020). «Реактивный надзор: новый метод сбора данных о сарказме» . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP) . Ассоциация компьютерной лингвистики. стр. 2553–2559. doi : 10.18653/v1/2020.emnlp-main.201 . S2CID   221970454 .
  62. ^ Шмули, Боаз. «Набор данных сарказма SPIRS» . Гитхаб .
  63. ^ Гупта, Аакаш (2020). «Голландская коллекция социальных сетей» . Центр данных о COVID-19. дои : 10.5072/FK2/MTPTL7 . Проверено 11 ноября 2023 г.
  64. ^ «Стримлит» . Huggingface.co . Проверено 18 декабря 2020 г.
  65. ^ «Коллекция голландских социальных сетей» . kaggle.com . Проверено 18 декабря 2020 г.
  66. ^ Шмуэли, Боаз; Рэй, Сумья; Лунь-Вэй (2021). «Счастливый танец, медленные хлопки: использование GIF-реакций для прогнозирования вызванного аффекта в Твиттере». Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 2: Короткие статьи) . Том. Ассоциация компьютерной лингвистики. Как. стр. 395–401. doi : 10.18653/v1/2021.acl-short.50 . S2CID   235125510 .
  67. ^ Шмуэли, Вооз (5 мая 2023 г.), ReactionGIF , получено 6 октября 2023 г.
  68. ^ Форсайт Э., Лин Дж. и Мартелл К. (25 июня 2008 г.). Корпус чата NPS. Получено с http://faculty.nps.edu/cmartell/NPSChat.htm.
  69. ^ Сордони, Алессандро; Галлей, Мишель; Аули, Майкл; Брокетт, Крис; Цзи, Янфэн; Митчелл, Маргарет; Не, Цзянь-Юнь; Гао, Цзяньфэн; Долан, Билл (2015). «Нейросетевой подход к контекстно-зависимой генерации диалоговых ответов». arXiv : 1506.06714 [ cs.CL ].
  70. ^ Шауль, К. и Вестбери К. (2013) Корпус USENET с уменьшенной избыточностью (2005–2011) Эдмонтон, AB: Университет Альберты (загружено с http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus .download.html )
  71. ^ КАН, М. (2011, январь). Корпус службы коротких сообщений (SMS) NUS. Получено с http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/ . Архивировано 29 июня 2018 г. на Wayback Machine.
  72. ^ Застрял_В_Матрице. (2015, 3 июля). У меня есть все общедоступные комментарии Reddit для изучения. ~ 1,7 миллиарда комментариев при сжатии 250 ГБ. Есть ли в этом интерес? [Исходное сообщение]. Сообщение опубликовано на https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/ .
  73. ^ Лоу, Райан; Пау, Ниссан; Сербан, Юлиан; Пино, Джоэль (2015). «Корпус диалогов Ubuntu: большой набор данных для исследования неструктурированных многоповоротных диалоговых систем». arXiv : 1506.08909 [ cs.CL ].
  74. ^ Джейсон Уильямс Антуан Ро Мэтью Хендерсон, « [1] », Диалог и дискурс | Апрель 2016 года.
  75. ^ Хоппе, Трэвис (16 декабря 2021 г.), The-Pile-FreeLaw , дата обращения 11 января 2023 г.
  76. ^ Чжэн, Люсия; Гуха, Нил; Андерсон, Брэндон Р.; Хендерсон, Питер; Хо, Дэниел Э. (21 июня 2021 г.). «Когда предварительная подготовка помогает?» . Материалы восемнадцатой международной конференции по искусственному интеллекту и праву . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 159–168. дои : 10.1145/3462757.3466088 . ISBN  9781450385268 . S2CID   233296302 .
  77. ^ «куча закона/куча закона · Наборы данных в Hugging Face» . Huggingface.co . 4 июля 2022 г. Проверено 11 января 2023 г.
  78. ^ «О проекте | Проект доступа к прецедентному праву» . прецедентное право . Проверено 11 января 2023 г.
  79. ^ К. Ковсари, Д. Э. Браун, М. Хейдарисафа, К. Джафари Мейманди, М. С. Гербер и Л. Е. Барнс, «HDLTex: иерархическое глубокое обучение для классификации текста», 16-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA), 2017 г., стр. 364–371. doi:10.1109/ICMLA.2017.0-134
  80. ^ К. Ковсари, Д. Е. Браун, М. Хейдарисафа, К. Джафари Мейманди, М. С. Гербер и Л. Е. Барнс, «Набор научных данных Web», дои : 10.17632/9rw3vkcfy4.6
  81. ^ Гальгани, Филиппо, Пол Комптон и Ахим Хоффманн. « Сочетание различных методов реферирования юридического текста ». Материалы семинара по инновационным гибридным подходам к обработке текстовых данных . Ассоциация компьютерной лингвистики, 2012.
  82. ^ Нагвани, Северная Каролина (2015). «Обобщение большой коллекции текста с использованием тематического моделирования и кластеризации на основе платформы MapReduce» . Журнал больших данных . 2 (1): 1–18. дои : 10.1186/s40537-015-0020-5 .
  83. ^ Шлер, Джонатан; и другие. (2006). «Влияние возраста и пола на ведение блога» (PDF) . Весенний симпозиум AAAI: Вычислительные подходы к анализу блогов . 6 . Архивировано из оригинала (PDF) 14 ноября 2020 года . Проверено 6 августа 2019 г.
  84. ^ Ананд, Пранав и др. «Поверьте мне, мы можем это сделать! Аннотации убедительных действий в тексте блога». Вычислительные модели естественного аргумента . 2011.
  85. ^ Трауд, Аманда Л., Питер Дж. Муха и Мейсон А. Портер. «Социальная структура сетей Facebook». Физика А: Статистическая механика и ее приложения 391.16 (2012): 4165–4180.
  86. ^ Ричард, Эмиль; Саваль, Пьер-Андре; Ваятис, Николас (2012). «Оценка одновременно разреженных и низкоранговых матриц». arXiv : 1206.6474 [ cs.DS ].
  87. ^ Ричардсон, Мэтью; Берджес, Кристофер Дж.К.; Реншоу, Эрин (2013). «MCTest: набор данных для машинного понимания текста в открытой области» . ЕМНЛП . 1 .
  88. ^ Уэстон, Джейсон; Борд, Антуан; Чопра, Сумит; Раш, Александр М.; Барт ван Мерриенбур; Жулен, Арман; Миколов, Томас (2015). «На пути к полному ответу на вопросы с помощью искусственного интеллекта: набор обязательных игрушечных задач». arXiv : 1502.05698 [ cs.AI ].
  89. ^ Маркус, Митчелл П.; Энн Марцинкевич, Мэри; Санторини, Беатрис (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» . Компьютерная лингвистика . 19 (2): 313–330.
  90. ^ Коллинз, Майкл (2003). «Головные статистические модели для анализа естественного языка» . Компьютерная лингвистика . 29 (4): 589–637. дои : 10.1162/089120103322753356 .
  91. ^ Гийон, Изабель и др., ред. Извлечение функций: основы и приложения . Том. 207. Спрингер, 2008.
  92. ^ Лин, Юрий и др. « Синтаксические аннотации для корпуса ngram книг Google ». Материалы демонстраций системы ACL 2012 . Ассоциация компьютерной лингвистики, 2012.
  93. ^ Кришнамурти, Ниведа; и другие. (2013). «Создание описаний видео на естественном языке с использованием текстовых знаний» . АААИ . 1 . Архивировано из оригинала 6 августа 2019 года . Проверено 6 августа 2019 г.
  94. ^ Люйкс, Ким и Уолтер Далеманс. « Персоны: корпус предсказаний автора и личности на основе текста» [ мертвая ссылка ] ЛРЭЦ . 2008.
  95. ^ Солорио, Тамар, Рагиб Хасан и Майнул Мизан. « Пример обнаружения кукольных кукол в Википедии ». Семинар по языковому анализу в социальных сетях (LASM) в NAACL HLT . 2013.
  96. ^ «Файлы сдвига» . файлы.pushshift.io . Архивировано из оригинала 12 января 2023 года . Проверено 12 января 2023 г.
  97. ^ Баумгартнер, Джейсон; Занетту, Саввас; Киган, Брайан; Сквайр, Меган; Блэкберн, Джереми (23 января 2020 г.). «Набор данных Pushshift Reddit». arXiv : 2001.08435 [ cs.SI ].
  98. ^ Сиарелли, Патрик Маркес и Элиас Оливейра. « Агломерация и устранение условий понижения размерности ». Проектирование и применение интеллектуальных систем, 2009. ISDA'09. Девятая международная конференция по . ИИЭР, 2009.
  99. ^ Чжоу, Минъюань, Оскар Эрнан Мадрид Падилья и Джеймс Г. Скотт. «Априорные данные для матриц случайного счета, полученных из семейства отрицательных биномиальных процессов». журнал Американской статистической ассоциации (2015 г.): 00–00. Только что принятый
  100. ^ Коциас, Димитриос и др. « От группы к индивидуальным меткам с использованием глубоких функций ». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. АКМ, 2015.
  101. ^ Нин, Юэ; Мутия, Сатхаппан; Рангвала, Хузефа; Рамакришнан, Нарен (2016). «Моделирование предшественников для прогнозирования событий посредством вложенного многоэкземплярного обучения». arXiv : 1602.08033 [ cs.SI ].
  102. ^ Буза, Кристиан. « Прогнозирование обратной связи для блогов ». Анализ данных, машинное обучение и обнаружение знаний . Springer International Publishing, 2014. 145–152.
  103. ^ Сойсал, Омер М (2015). «Анализ правил ассоциации с преимущественно связанными последовательными шаблонами». Экспертные системы с приложениями . 42 (5): 2582–2592. дои : 10.1016/j.eswa.2014.10.049 .
  104. ^ Чжу, Юкун и др. «Совмещение книг и фильмов: к визуальным объяснениям, похожим на истории, путем просмотра фильмов и чтения книг». Материалы международной конференции IEEE по компьютерному зрению . 2015.
  105. ^ Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). «Большой аннотированный корпус для изучения вывода на естественном языке». arXiv : 1508.05326 [ cs.CL ].
  106. ^ «Коллекция корпуса DSL» . ttg.uni-saarland.de . Проверено 22 сентября 2017 г.
  107. ^ «Городской словарь слов и определений» .
  108. ^ Х. Эльсахар, П. Вугиуклис, А. Ремачи, К. Гравье, Дж. Хэйр, Ф. Лафорест, Э. Симперл, « T-REx: крупномасштабное согласование естественного языка с тройками базы знаний », Труды Одиннадцатая Международная конференция по языковым ресурсам и оценке (LREC-2018).
  109. ^ Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омер; Боуман, Сэмюэл Р. (2018). «GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка». arXiv : 1804.07461 [ cs.CL ].
  110. ^ «Компьютеры учатся читать, но они все еще не такие умные» . Проводной . Проверено 29 декабря 2019 г.
  111. ^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Проверено 25 февраля 2019 г.
  112. ^ Цюань, Хоанг Лам; Куанг, Дуй Ле; Ван Киет, Нгуен; Нган, Луу-Туй Нгуен. «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке» .
  113. ^ Куок Хай; Нгуен, Ван Киет; Нгуен, Луу Туй Нган; Нгуен, Гиа Туан Ань (2020). «Прогнозирование пола на основе вьетнамских имен с использованием методов машинного обучения». Материалы 4-й Международной конференции по обработке естественного языка и поиску информации . стр. 55–60. arXiv : 2010.10852 . дои : 10.1145/3443279.3443309 . ISBN  9781450377607 . S2CID   224814110 .
  114. ^ Нгуен, Луан Тхань; Ван Нгуен, Киет; Нгуен, Нган Луу-Туи (18 марта 2021 г.). «Обнаружение конструктивной и токсичной речи для комментариев в социальных сетях в открытом доступе на вьетнамском языке». Достижения и тенденции в области искусственного интеллекта. Практика искусственного интеллекта . Конспекты лекций по информатике. Том. 12798. стр. 572–583. arXiv : 2103.10069 . дои : 10.1007/978-3-030-79457-6_49 . ISBN  978-3-030-79456-9 . S2CID   232269671 .
  115. ^ Сакстон, Дэвид и др. «Анализ способностей нейронных моделей к математическому мышлению». Международная конференция по обучению представлений . 2018.
  116. ^ М. Верстег, Р. Тиольер, Т. Шац, X.-N. Цао, К. Ангера, А. Янсен и Э. Дюпу (2015). «The Zero Resource Speech Challenge 2015», в рамках INTERSPEECH-2015.
  117. ^ М. Верстиг, X. Ангера, А. Янсен и Э. Дюпу (2016). « Вызов речи с нулевыми ресурсами 2015: предлагаемые подходы и результаты », в SLTU-2016.
  118. ^ Сакар, Бетул Эрдогду; и другие. (2013). «Сбор и анализ набора речевых данных Паркинсона с несколькими типами звукозаписей». Журнал IEEE по биомедицинской и медицинской информатике . 17 (4): 828–834. дои : 10.1109/jbhi.2013.2245674 . ПМИД   25055311 . S2CID   15491516 .
  119. ^ Чжао, Шунан и др. « Автоматическое обнаружение выраженных эмоций при болезни Паркинсона ». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
  120. ^ Используется в: Хаммами, Насереддине и Моулди Бедде. «Улучшенная древовидная модель распознавания арабской речи». Компьютерные науки и информационные технологии (ICCSIT), 2010 г. 3-я Международная конференция IEEE по . Том. 5. ИИЭР, 2010.
  121. ^ Маатен, Лоуренс. « Изучение дискриминационных ядер Фишера ». Материалы 28-й Международной конференции по машинному обучению (ICML-11) . 2011.
  122. ^ Коул, Рональд и Марк Фэнти. « Распознавание устной буквы ». Учеб. Третий семинар DARPA по речи и естественному языку . 1990.
  123. ^ Шапель, Оливье; Синдхвани, Викас; Кирти, Сатья С. (2008). «Методы оптимизации для полуконтролируемых машин опорных векторов» (PDF) . Журнал исследований машинного обучения . 9 : 203–233.
  124. ^ Кудо, Минеичи; Тояма, Джун; Симбо, Масару (1999). «Классификация многомерных кривых с использованием областей прохождения». Буквы для распознавания образов . 20 (11): 1103–1111. Бибкод : 1999PaReL..20.1103K . CiteSeerX   10.1.1.46.2515 . дои : 10.1016/s0167-8655(99)00077-x .
  125. ^ Джагер, Герберт; и другие. (2007). «Оптимизация и применение сетей эхо-состояний с нейронами вытекающего интегратора». Нейронные сети . 20 (3): 335–352. дои : 10.1016/j.neunet.2007.04.016 . ПМИД   17517495 .
  126. ^ Цанас, Афанасий; и другие. (2010). «Точный телемониторинг прогрессирования болезни Паркинсона с помощью неинвазивных речевых тестов» . Транзакции IEEE по биомедицинской инженерии (представленная рукопись). 57 (4): 884–893. дои : 10.1109/tbme.2009.2036000 . ПМИД   19932995 . S2CID   7382779 .
  127. ^ Клиффорд, Гари Д.; Клифтон, Дэвид (2012). «Беспроводные технологии в лечении заболеваний и медицине». Ежегодный обзор медицины . 63 : 479–492. doi : 10.1146/annurev-med-051210-114650 . ПМИД   22053737 .
  128. ^ Зуэ, Виктор; Сенефф, Стефани; Гласс, Джеймс (1990). «Разработка речевых баз данных в Массачусетском технологическом институте: TIMIT и за его пределами». Речевое общение . 9 (4): 351–356. дои : 10.1016/0167-6393(90)90010-7 .
  129. ^ Кападиа, Садик, Валчо Валчев и С. Дж. Янг. «Тренинг MMI для непрерывного распознавания фонем в базе данных TIMIT». Акустика, речь и обработка сигналов, 1993. ICASSP-93., 1993 Международная конференция IEEE по . Том. 2. ИИЭР, 1993.
  130. ^ Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (кандидатская диссертация). Университет Саутгемптона , Школа электроники и информатики.
  131. ^ Ардила, Розана; Брэнсон, Меган; Дэвис, Келли; Хенретти, Майкл; Колер, Майкл; Мейер, Джош; Мораис, Рубен; Сондерс, Линдси; Тайерс, Фрэнсис М.; Вебер, Грегор (13 декабря 2019 г.). «Общий голос: массово-многоязычный речевой корпус». arXiv : 1912.06670v2 [ cs.CL ].
  132. ^ «Набор речевых данных ЖЖ» . keithito.com . Проверено 13 апреля 2022 г.
  133. ^ Гандура, Абдулкадер; Хьябо, Фарук; Аль-Даккак, Умайма (июнь 2021 г.). «Создание и сравнение набора данных арабских речевых команд для обнаружения небольших ключевых слов» . Инженерные применения искусственного интеллекта . 102 : 104267. doi : 10.1016/j.engappai.2021.104267 . ISSN   0952-1976 . S2CID   235637809 .
  134. ^ Чжоу, Фанг, К. Клэр и Росс Д. Кинг. « Предсказание географического происхождения музыки ». Data Mining (ICDM), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
  135. ^ Сакченти, Эдоардо; Камачо, Хосе (2015). «Об использовании k-кратной операции наблюдения в перекрестной проверке PCA». Журнал хемометрики . 29 (8): 467–478. дои : 10.1002/cem.2726 . hdl : 10481/55302 . S2CID   62248957 .
  136. ^ Бертен-Маье, Тьерри и др. «Набор данных о миллионе песен». ISMIR 2011: Материалы 12-й конференции Международного общества по поиску музыкальной информации, 24–28 октября 2011 г., Майами, Флорида . Университет Майами, 2011.
  137. ^ Хенафф, Микаэль; и другие. (2011). «Неконтролируемое изучение редких функций для масштабируемой классификации аудио» (PDF) . ИСМИР . 11 .
  138. ^ Рафии, Зафар (2017). "Музыка". MUSDB18 — корпус музыкального разделения . дои : 10.5281/zenodo.1117372 .
  139. ^ Дефферрард, Микаэль; Бензи, Кирелл; Вандергейнст, Пьер; Брессон, Ксавье (6 декабря 2016 г.). «FMA: набор данных для музыкального анализа». arXiv : 1612.01840 [ cs.SD ].
  140. ^ Эспозито, Роберто; Радичони, Даниэле П. (2009). «Carpediem: Оптимизация алгоритма Витерби и приложений для контролируемого последовательного обучения» (PDF) . Журнал исследований машинного обучения . 10 : 1851–1880.
  141. ^ Сурати, Джамшид; и другие. (2016). «Классификация активного обучения на основе взаимной информации» . Энтропия . 18 (2): 51. Бибкод : 2016Entrp..18...51S . дои : 10.3390/e18020051 .
  142. ^ Саламон, Джастин; Джейкоби, Кристофер; Белло, Хуан Пабло. « Набор данных и таксономия для исследования городского звука ». Материалы Международной конференции ACM по мультимедиа . АКМ, 2014.
  143. ^ Лагранж, Матье; Лафай, Грегуар; Россиньоль, Матиас; Бенетос, Эммануил; Робель, Аксель (2015). «Среда оценки для обнаружения событий с использованием морфологической модели акустических сцен». arXiv : 1502.00141 [ стат.ML ].
  144. ^ Геммеке, Йорт Ф. и др. «Набор аудио: онтология и набор данных, помеченных человеком, для аудиособытий». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2017.
  145. ^ «Берегитесь, птицеловы: искусственный интеллект научился распознавать птиц по их песням» . Наука | АААС . 18 июля 2018 года . Проверено 22 июля 2018 г.
  146. ^ «Задание по обнаружению птиц по звуку» . Лаборатория машинного прослушивания в Университете Королевы Марии . 3 мая 2016 года . Проверено 22 июля 2018 г.
  147. ^ Вичерн, Гордон; Антоньини, Джо; Флинн, Майкл; Личэн Ричард Чжу; Маккуинн, Эммет; Ворона, Дуайт; Манилоу, Итан; Джонатан Ле Ру (2019). «WHAM !: Расширение разделения речи на шумную среду». arXiv : 1907.01160 [ cs.SD ].
  148. ^ Дроссос К., Липпинг С. и Виртанен Т. «Клото: набор данных для аудиотитров» Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2020.
  149. ^ Дроссос К., Липпинг С. и Виртанен Т. (2019). Набор данных Clotho (Версия 1.0) [Набор данных]. Зенодо . http://doi.org/10.5281/zenodo.3490684
  150. ^ Набор данных CAIDA UCSD по Witty Worm - 19–24 марта 2004 г., http://www.caida.org/data/passive/witty_worm_dataset.xml
  151. ^ Чен, Зешэн и Чуаньи Цзи. « Оптимальный метод сканирования червей с использованием дистрибутивов уязвимых хостов ». Международный журнал безопасности и сетей 2.1–2 (2007): 71–80.
  152. ^ Качуи, Мохамад и др. « Высокоточная оценка артериального давления без манжеты без калибровки с использованием времени прохождения импульса [ постоянная мертвая ссылка ] . Схемы и системы (ISCAS), 2015 г. Международный симпозиум IEEE по . IEEE, 2015 г.
  153. ^ PhysioBank, PhysioToolkit. «PhysioNet: компоненты нового исследовательского ресурса для сложных физиологических сигналов». Тираж. v101 и23. е215-е220 .
  154. ^ Вергара, Александр; и другие. (2012). «Компенсация дрейфа датчика химического газа с использованием ансамблей классификаторов». Датчики и исполнительные механизмы B: Химические вещества . 166 : 320–329. дои : 10.1016/j.snb.2012.01.074 .
  155. ^ Коротценков Г.; Чо, БК (2014). «Инженерные подходы к улучшению параметров кондуктометрических датчиков газа. Часть 2. Снижение рассеиваемой (потребляемой) мощности и повышение стабильности и надежности». Датчики и исполнительные механизмы B: Химические вещества . 198 : 316–341. дои : 10.1016/j.snb.2014.03.069 .
  156. ^ Куинлан, Джон Р. (1992). «Обучение с помощью непрерывных занятий» (PDF) . 5-я Австралийская совместная конференция по искусственному интеллекту . 92 .
  157. ^ Мерц, Кристофер Дж.; Паццани, Майкл Дж. (1999). «Подход на основе главных компонентов к объединению оценок регрессии» . Машинное обучение . 36 (1–2): 9–32. дои : 10.1023/а:1007507221352 .
  158. ^ Торрес-Соспедра, Хоакин и др. «UJIIndoorLoc-Mag: новая база данных для задач локализации по магнитному полю». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. по . ИИЭР, 2015.
  159. ^ Берквенс, Рафаэль, Маартен Вейн и Герберт Переманс. « Средняя взаимная информация вероятностной локализации Wi-Fi ». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. Банф, Канада: IPIN . 2015.
  160. ^ Пашке, Фабиан и др. «Бездатчиковый контроль состояния синхронных двигателей». Слушания. 23-й семинар по вычислительному интеллекту, Дортмунд, 5-6. Декабрь 2013 . КИТ Научное Издательство, 2013.
  161. ^ Лессмайер, Кристиан и др. « Сбор данных и анализ сигналов на основе измеренных токов двигателя для обнаружения дефектов в электромеханических приводных системах ».
  162. ^ Угулино, Уоллес и др. « Носимые компьютеры: классификация поз и движений тела по данным акселерометров. Архивировано 25 сентября 2020 года в Wayback Machine ». Достижения в области искусственного интеллекта – SBIA 2012 . Springer Berlin Heidelberg, 2012. 52–61.
  163. ^ Шнайдер, Ян; и другие. (2015). «Усиление чувств: обзор поддержки обучения на основе датчиков» . Датчики . 15 (2): 4097–4133. Бибкод : 2015Senso..15.4097S . дои : 10.3390/s150204097 . ПМК   4367401 . ПМИД   25679313 .
  164. ^ Мадео, Рената CB, Клодоальдо А.М. Лима и Сараджейн М. Перес. « Сегментация единиц жестов с использованием машин опорных векторов: сегментация жестов из исходных положений ». Материалы 28-го ежегодного симпозиума ACM по прикладным вычислениям . АКМ, 2013.
  165. ^ Лун, Роанна; Чжао, Вэньбин (2015). «Обзор приложений и распознавания движений человека с помощью Microsoft Kinect» . Международный журнал распознавания образов и искусственного интеллекта . 29 (5): 1555008. doi : 10.1142/s0218001415550083 .
  166. ^ Теодоридис, Теодорос и Хуошэн Ху. « Классификация действий трехмерных моделей человека с использованием динамических ИНС для наблюдения за мобильными роботами. Архивировано 6 августа 2019 года в Wayback Machine ». Робототехника и биомиметика, 2007. РОБИО 2007. Международная конференция IEEE по . ИИЭР, 2007.
  167. ^ Этемад, Сейед Али и Али Арья. « 3D-распознавание действий человека и трансформация стиля с использованием устойчивых нейронных сетей обратного распространения ошибки». Интеллектуальные вычисления и интеллектуальные системы, 2009. ICIS 2009. Международная конференция IEEE по . Том. 4. ИИЭР, 2009.
  168. ^ Алтун, Керем; Баршан, Биллур; Тунчель, Оркун (2010). «Сравнительное исследование классификации деятельности человека с помощью миниатюрных инерционных и магнитных датчиков». Распознавание образов . 43 (10): 3605–3620. Бибкод : 2010PatRe..43.3605A . дои : 10.1016/j.patcog.2010.04.019 . hdl : 11693/11947 .
  169. ^ Натан, Ран ; и другие. (2012). «Использование данных трехосного ускорения для определения поведенческих режимов животных, находящихся на свободном выгуле: общие концепции и инструменты, проиллюстрированные для белоголовых сипов» . Журнал экспериментальной биологии . 215 (6): 986–996. дои : 10.1242/jeb.058602 . ПМЦ   3284320 . ПМИД   22357592 .
  170. ^ Ангита, Давиде и др. « Распознавание активности человека на смартфонах с использованием многоклассовой аппаратно-совместимой машины опорных векторов ». Окружающая среда, сопровождаемая проживанием и уходом на дому . Springer Berlin Heidelberg, 2012. 216–223.
  171. ^ Су, Син; Тонг, Ханхан; Цзи, Пин (2014). «Распознавание активности с помощью датчиков смартфона». Цинхуа Наука и Технология . 19 (3): 235–249. дои : 10.1109/tst.2014.6838194 . S2CID   62751498 .
  172. ^ Кадус, Мохаммед Валид. Временная классификация: распространение парадигмы классификации на многомерные временные ряды . Дисс. Университет Нового Южного Уэльса, 2002 г.
  173. ^ Грейвс, Алекс и др. « Коннекционистская временная классификация: маркировка несегментированных последовательностей данных с помощью рекуррентных нейронных сетей ». Материалы 23-й международной конференции по машинному обучению . АКМ, 2006.
  174. ^ Веллосо, Эдуардо и др. « Качественное распознавание активности упражнений по поднятию тяжестей ». Материалы 4-й Международной конференции по дополненному человеку . АКМ, 2013.
  175. ^ Мортазави, Бобак Джек и др. « Определение единой наилучшей оси для распознавания повторений упражнений и расчет умных часов. Архивировано 4 ноября 2021 года в Wayback Machine ». Сети носимых и имплантируемых датчиков тела (BSN), 2014 11-я Международная конференция по . ИИЭР, 2014.
  176. ^ Сапсанис, Христос и др. « Улучшение классификации основных движений рук на основе ЭМГ с использованием ЭМД ». Общество инженерии в медицине и биологии (EMBC), 2013 г., 35-я ежегодная международная конференция IEEE . ИИЭР, 2013.
  177. ^ Перейти обратно: а б Андрианезис, Константинос; Цзес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем . 78 (2): 257–289. дои : 10.1007/s10846-014-0061-6 . S2CID   207174078 .
  178. ^ Банос, Орешти; и другие. (2014). «Работа с эффектами смещения датчика при распознавании активности носимых устройств» . Датчики . 14 (6): 9995–10023. Бибкод : 2014Senso..14.9995B . дои : 10.3390/s140609995 . ПМЦ   4118358 . ПМИД   24915181 .
  179. ^ Стисен, Аллан и др. « Умные устройства разные: оценка и смягчение неоднородностей мобильных датчиков для распознавания активности ». Материалы 13-й конференции ACM по встраиваемым сетевым сенсорным системам . АКМ, 2015.
  180. ^ Бхаттачарья, Сурав и Николас Д. Лейн. « От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения ».
  181. ^ Баччу, Давиде; и другие. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях для престарелых». Нейронные вычисления и их приложения . 24 (6): 1451–1464. дои : 10.1007/s00521-013-1364-4 . hdl : 11568/237959 . S2CID   14124013 .
  182. ^ Палумбо, Филиппо; Барсокки, Паоло; Галличкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Мультисенсорное объединение данных для распознавания активности на основе вычислений резервуара» . Оценка систем AAL посредством сравнительного анализа конкурентов . Коммуникации в компьютерной и информатике. Том. 386. стр. 24–35. дои : 10.1007/978-3-642-41043-7_3 . ISBN  978-3-642-41042-0 .
  183. ^ Рейсс, Аттила и Дидье Стрикер. « Представляем новый набор эталонных данных для мониторинга активности ». Носимые компьютеры (ISWC), 2012 г. 16-й международный симпозиум по . ИИЭР, 2012.
  184. ^ Рогген, Дэниел и др. « ВОЗМОЖНОСТИ: К оппортунистической деятельности и системам распознавания контекста ». Мир беспроводных, мобильных и мультимедийных сетей и семинаров, 2009. WoWMoM 2009. Международный симпозиум IEEE по . ИИЭР, 2009.
  185. ^ Курц, Марк и др. « Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах ». Конференция по автомобильным технологиям (весна VTC), 73-я конференция IEEE 2011 г. ИИЭР, 2011.
  186. ^ Штайлер, Тимо и Хайнер Штукеншмидт. « Локализация носимых устройств на теле: исследование распознавания активности с учетом положения ». Повсеместные вычисления и коммуникации (PerCom), Международная конференция IEEE 2016 г., посвященная . ИИЭР, 2016.
  187. ^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х.; Долатабади, Эльхам; Ван, Розали Х.; Таати, Бабак (2018). «Автоматическое обнаружение компенсации во время роботизированной реабилитационной терапии после инсульта» . Журнал IEEE по трансляционной инженерии в здравоохранении и медицине . 6 : 2100107. doi : 10.1109/JTEHM.2017.2780836 . ISSN   2168-2372 . ПМЦ   5788403 . ПМИД   29404226 .
  188. ^ Долатабади, Эльхам; Чжи, Ин Сюань; Да, Бинг; Коаран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). «Набор данных позы реабилитации после инсульта в Торонто для выявления компенсации во время реабилитационной терапии после инсульта». Материалы 11-й Международной конференции EAI по всеобъемлющим вычислительным технологиям в здравоохранении . АКМ. стр. 375–381. дои : 10.1145/3154862.3154925 . ISBN  9781450363631 . S2CID   24581930 .
  189. ^ «Набор данных по позы реабилитации после инсульта в Торонто» .
  190. ^ Юнг, Мерел М.; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К.Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социальных прикосновений». Журнал о мультимодальных пользовательских интерфейсах . 11 (1): 81–96. дои : 10.1007/s12193-016-0232-9 . ISSN   1783-8738 . S2CID   1802116 .
  191. ^ Юнг, ММ (Мерель) (1 июня 2016 г.). «Корпус социальных контактов (CoST)» . Университет Твенте. doi : 10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  192. ^ Эберхард, С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в условиях большой размерности». Кафедра математики. Статистик, Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Реп 92-02 (1992).
  193. ^ Басу, Сугато. « Полуконтролируемая кластеризация с ограниченными базовыми знаниями ». АААИ . 2004.
  194. ^ Tüfekci, Pınar (2014). "Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods". International Journal of Electrical Power & Energy Systems. 60: 126–140. doi:10.1016/j.ijepes.2014.02.027.
  195. ^ Kaya, Heysem, Pınar Tüfekci, and Fikret S. Gürgen. "Local and global learning methods for predicting power of a combined gas & steam turbine." International conference on emerging trends in computer and electronics engineering (ICETCEE'2012), Dubai. 2012.
  196. ^ Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Searching for exotic particles in high-energy physics with deep learning". Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014NatCo...5.4308B. doi:10.1038/ncomms5308. PMID 24986233. S2CID 195953.
  197. ^ Jump up to: a b Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ+ τ− Search with Deep Learning". Physical Review Letters. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103/physrevlett.114.111801. PMID 25839260. S2CID 2339142.
  198. ^ Jump up to: a b Adam-Bourdarios, C.; Cowan, G.; Germain-Renaud, C.; Guyon, I.; Kégl, B.; Rousseau, D. (2015). "The Higgs Machine Learning Challenge". Journal of Physics: Conference Series. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.
  199. ^ Baldi, Pierre; Cranmer, Kyle; Faucett, Taylor; Sadowski, Peter; Whiteson, Daniel (2016). "Parameterized neural networks for high-energy physics". The European Physical Journal C. 76 (5): 235. arXiv:1601.07913. Bibcode:2016EPJC...76..235B. doi:10.1140/epjc/s10052-016-4099-4. S2CID 254108545.
  200. ^ Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". Proceedings of the International Conference on Marine Engineering MARINE. 2007.
  201. ^ Gerritsma, J., R. Onnink, and A. Versluis.Geometry, resistance and stability of the delft systematic yacht hull series. Delft University of Technology, 1981.
  202. ^ Liu, Huan, and Hiroshi Motoda. Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media, 1998.
  203. ^ Reich, Yoram. Converging to Ideal Design Knowledge by Learning. [Carnegie Mellon University], Engineering Design Research Center, 1989.
  204. ^ Todorovski, Ljupčo; Džeroski, Sašo (1999). "Experiments in Meta-level Learning with ILP". Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1. S2CID 39382993.
  205. ^ Wang, Yong. A new approach to fitting linear models in high dimensional spaces. Diss. The University of Waikato, 2000.
  206. ^ Kibler, Dennis; Aha, David W.; Albert, Marc K. (1989). "Instance-based prediction of real-valued attributes". Computational Intelligence. 5 (2): 51–57. doi:10.1111/j.1467-8640.1989.tb00315.x. S2CID 40800413.
  207. ^ Palmer, Christopher R., and Christos Faloutsos. "Electricity based external similarity of categorical attributes." Advances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg, 2003. 486–500.
  208. ^ Tsanas, Athanasios; Xifara, Angeliki (2012). "Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools". Energy and Buildings. 49: 560–567. Bibcode:2012EneBu..49..560T. doi:10.1016/j.enbuild.2012.03.003.
  209. ^ De Wilde, Pieter (2014). "The gap between predicted and measured energy performance of buildings: A framework for investigation". Automation in Construction. 41: 40–49. doi:10.1016/j.autcon.2014.02.009.
  210. ^ Brooks, Thomas F., D. Stuart Pope, and Michael A. Marcolini. Airfoil self-noise and prediction. Vol. 1218. National Aeronautics and Space Administration, Office of Management, Scientific and Technical Information Division, 1989.
  211. ^ Draper, David. "Assessment and propagation of model uncertainty." Journal of the Royal Statistical Society, Series B (Methodological) (1995): 45–97.
  212. ^ Lavine, Michael (1991). "Problems in extrapolation illustrated with space shuttle O-ring data". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.
  213. ^ Wang, Jun, Bei Yu, and Les Gasser. "Concept tree based clustering visualization with shaded similarity matrices." Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on. IEEE, 2002.
  214. ^ Pettengill, Gordon H.; Ford, Peter G.; Johnson, William T. K.; Raney, R. Keith; Soderblom, Laurence A. (1991). "Magellan: Radar Performance and Data Products". Science. 252 (5003): 260–265. Bibcode:1991Sci...252..260P. doi:10.1126/science.252.5003.260. PMID 17769272. S2CID 43398343.
  215. ^ Jump up to: a b Aharonian, F.; et al. (2008). "Energy spectrum of cosmic-ray electrons at TeV energies". Physical Review Letters. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103/PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.
  216. ^ Bock, R. K.; et al. (2004). "Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope". Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 516 (2): 511–528. Bibcode:2004NIMPA.516..511B. doi:10.1016/j.nima.2003.08.157.
  217. ^ Li, Jinyan; et al. (2004). "Deeps: A new instance-based lazy discovery and classification system". Machine Learning. 54 (2): 99–124. doi:10.1023/b:mach.0000011804.08528.7d.
  218. ^ Villaescusa-Navarro, Francisco; al., et (2022). "The CAMELS Multifield Data Set: Learning the Universe's Fundamental Parameters with Artificial Intelligence". The Astrophysical Journal Supplement Series. 259 (2): 61. arXiv:2109.10915. Bibcode:2022ApJS..259...61V. doi:10.3847/1538-4365/ac5ab0. S2CID 237604997.
  219. ^ Siebert, Lee, and Tom Simkin. "Volcanoes of the world: an illustrated catalog of Holocene volcanoes and their eruptions." (2014).
  220. ^ Sikora, Marek; Wróbel, Łukasz (2010). "Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines". Archives of Mining Sciences. 55 (1): 91–114.
  221. ^ Sikora, Marek, and Beata Sikora. "Rough natural hazards monitoring." Rough Sets: Selected Methods and Applications in Management and Engineering. Springer London, 2012. 163–179.
  222. ^ Addor, Nans; Newman, Andrew J.; Mizukami, Naoki; Clark, Martyn P. (20 October 2017). "The CAMELS data set: catchment attributes and meteorology for large-sample studies". Hydrology and Earth System Sciences. 21 (10): 5293–5313. Bibcode:2017HESS...21.5293A. doi:10.5194/hess-21-5293-2017. ISSN 1607-7938.
  223. ^ Newman, A. J.; Clark, M. P.; Sampson, K.; Wood, A.; Hay, L. E.; Bock, A.; Viger, R. J.; Blodgett, D.; Brekke, L.; Arnold, J. R.; Hopson, T. (14 January 2015). "Development of a large-sample watershed-scale hydrometeorological data set for the contiguous USA: data set characteristics and assessment of regional variability in hydrologic model performance". Hydrology and Earth System Sciences. 19 (1): 209–223. Bibcode:2015HESS...19..209N. doi:10.5194/hess-19-209-2015. ISSN 1607-7938.
  224. ^ Alvarez-Garreton, Camila; Mendoza, Pablo A.; Boisier, Juan Pablo; Addor, Nans; Galleguillos, Mauricio; Zambrano-Bigiarini, Mauricio; Lara, Antonio; Puelma, Cristóbal; Cortes, Gonzalo; Garreaud, Rene; McPhee, James (13 November 2018). "The CAMELS-CL dataset: catchment attributes and meteorology for large sample studies – Chile dataset". Hydrology and Earth System Sciences. 22 (11): 5817–5846. Bibcode:2018HESS...22.5817A. doi:10.5194/hess-22-5817-2018. ISSN 1607-7938. S2CID 133955609.
  225. ^ Chagas, Vinícius B. P.; Chaffe, Pedro L. B.; Addor, Nans; Fan, Fernando M.; Fleischmann, Ayan S.; Paiva, Rodrigo C. D.; Siqueira, Vinícius A. (8 September 2020). "CAMELS-BR: hydrometeorological time series and landscape attributes for 897 catchments in Brazil". Earth System Science Data. 12 (3): 2075–2096. Bibcode:2020ESSD...12.2075C. doi:10.5194/essd-12-2075-2020. ISSN 1866-3516. S2CID 234737197.
  226. ^ Коксон, Джемма; Аддор, Нанс; Блумфилд, Джон П.; Фрир, Джим; Фрай, Мэтт; Ханнафорд, Джейми; Хауден, Николас Дж. К.; Лейн, Розанна; Льюис, Мелинда; Робинсон, Эмма Л.; Вагенер, Торстен (12 октября 2020 г.). «CAMELS-GB: гидрометеорологические временные ряды и атрибуты ландшафта для 671 водосборного бассейна Великобритании» . Данные науки о системе Земли . 12 (4): 2459–2483. Бибкод : 2020ESSD...12.2459C . doi : 10.5194/essd-12-2459-2020 . ISSN   1866-3516 . S2CID   226192657 .
  227. ^ Фаулер, Кейрнан Дж.А.; Ачарья, Суваш Чандра; Аддор, Нанс; Чжоу, Чичжун; Пил, Мюррей К. (6 августа 2021 г.). «CAMELS-AUS: гидрометеорологические временные ряды и атрибуты ландшафта для 222 водосборных бассейнов Австралии» . Данные науки о системе Земли . 13 (8): 3847–3867. Бибкод : 2021ESSD...13.3847F . doi : 10.5194/essd-13-3847-2021 . ISSN   1866-3516 . S2CID   238796784 .
  228. ^ Клинглер, Кристоф; Шульц, Карстен; Хернеггер, Мэтью (16 сентября 2021 г.). «LamaH-CE: БОЛЬШАЯ ВЫБОРКА ДАННЫХ для гидрологии и наук об окружающей среде для Центральной Европы» . Данные науки о системе Земли . 13 (9): 4529–4565. Бибкод : 2021ESSD...13.4529K . дои : 10.5194/essd-13-4529-2021 . ISSN   1866-3516 . S2CID   240533508 .
  229. ^ Да, I – C (1998). «Моделирование прочности высокопрочного бетона с использованием искусственных нейронных сетей». Исследования цемента и бетона . 28 (12): 1797–1808. дои : 10.1016/s0008-8846(98)00165-3 .
  230. ^ Заранди, М. Х. Фазель; и другие. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления . 8 (1): 488–498. Бибкод : 2008ApSoC...8...79S . дои : 10.1016/j.asoc.2007.02.010 .
  231. ^ Да, И. «Моделирование осадки бетона с помощью летучей золы и суперпластификатора». Компьютеры и бетон 5.6 (2008): 559–572.
  232. ^ Генсель, Осман; и другие. (2011). «Сравнение искусственных нейронных сетей и общих подходов к линейной модели для анализа абразивного износа бетона». Строительство и строительные материалы . 25 (8): 3486–3494. дои : 10.1016/j.conbuildmat.2011.03.040 .
  233. ^ Дитерих, Томас Г. и др. « Сравнение динамического положения покоя и касательного расстояния для прогнозирования активности наркотиков. Архивировано 7 декабря 2019 года в Wayback Machine ». Достижения в области нейронных систем обработки информации (1994): 216–216.
  234. ^ Бушема, Массимо, Уильям Дж. Тастл и Стефано Терци. « Метасеть: новое семейство метаклассификаторов ». Приложения интеллектуального анализа данных с использованием искусственных адаптивных систем . Springer New York, 2013. 141–182.
  235. ^ Аморанежад, Исса; Аморанежад, Рахимберди; и другие. (2022). «Набор данных о возрасте: структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей» . Материалы семинара 16-й Международной конференции AAAI по Интернету и социальным сетям (ICWSM) . 3 . МКВСМ: 1–4. дои : 10.36190/2022.82 . S2CID   249668669 .
  236. ^ «Набор данных о возрасте» . Гитхаб . 7 июня 2022 г.
  237. ^ «Синтетический набор данных глазного дна» . Архивировано из оригинала 29 ноября 2021 года . Проверено 22 февраля 2023 г.
  238. ^ Ло Кастро, Дарио; и другие. (2020). «Визуальная основа для создания фотореалистичных сосудов сетчатки для целей диагностики». Журнал биомедицинской информатики . 108 : 103490. дои : 10.1016/j.jbi.2020.103490 . ПМИД   32640292 . S2CID   220429697 .
  239. ^ Ингбер, Лестер (1997). «Статистическая механика неокортикальных взаимодействий: канонические показатели импульсов электроэнцефалографии». Физический обзор E . 55 (4): 4578–4593. arXiv : физика/0001052 . Бибкод : 1997PhRvE..55.4578I . дои : 10.1103/PhysRevE.55.4578 . S2CID   6390999 .
  240. ^ Хоффманн, Ульрих; Весен, Жан-Марк; Эбрахими, Турадж; Дисеренс, Карин (2008). «Эффективный интерфейс мозг-компьютер на базе P300 для людей с ограниченными возможностями». Журнал методов нейробиологии . 167 (1): 115–125. CiteSeerX   10.1.1.352.4630 . doi : 10.1016/j.jneumeth.2007.03.005 . ПМИД   17445904 . S2CID   9648828 .
  241. ^ Дончин, Эмануэль; Спенсер, Кевин М.; Виджесингхе, Ранджит (2000). «Ментальный протез: оценка скорости интерфейса мозг-компьютер на базе P300». Транзакции IEEE по реабилитационной технике . 8 (2): 174–179. дои : 10.1109/86.847808 . ПМИД   10896179 . S2CID   84043 .
  242. ^ Детрано, Роберт; и другие. (1989). «Международное применение нового вероятностного алгоритма диагностики ишемической болезни сердца». Американский журнал кардиологии . 64 (5): 304–310. дои : 10.1016/0002-9149(89)90524-9 . ПМИД   2756873 .
  243. ^ Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» (PDF) . Распознавание образов . 30 (7): 1145–1159. Бибкод : 1997PatRe..30.1145B . дои : 10.1016/s0031-3203(96)00142-2 . S2CID   13806304 .
  244. ^ Улица, Западная Северная Каролина; Вольберг, Вашингтон; Мангасарян, OL (1993). «Извлечение ядерных признаков для диагностики опухолей молочной железы» . В Ачарье Радж С.; Гольдгоф, Дмитрий Б. (ред.). Биомедицинская обработка изображений и биомедицинская визуализация . Том. 1905. стр. 861–870. дои : 10.1117/12.148698 . S2CID   14922543 .
  245. ^ Демир, Чигдем и Бюлент Йенер. « Автоматическая диагностика рака на основе гистопатологических изображений: систематическое исследование ». Политехнический институт Ренсселера, техн. Реп (2005).
  246. ^ Злоупотребление, вещество. «Управление службами психического здоровья, результаты национального исследования по употреблению наркотиков и здоровью 2010 года: краткое изложение национальных результатов, серия NSDUH H-41, публикация HHS № (SMA) 11-4658». Роквилл, Мэриленд: Управление служб по борьбе со злоупотреблением психоактивными веществами и психическим здоровьем 201 (2011).
  247. ^ Хун, Цзы-Цюань; Ян, Цзин-Ю (1991). «Оптимальная дискриминантная плоскость для малого числа выборок и метод построения классификатора на плоскости». Распознавание образов . 24 (4): 317–324. Бибкод : 1991PatRe..24..317H . дои : 10.1016/0031-3203(91)90074-ф .
  248. ^ Перейти обратно: а б Ли, Джиньян и Лимсун Вонг. «Использование правил для анализа биомедицинских данных: сравнение C4.5 и PCL». Достижения в области управления информацией в эпоху Интернета . Springer Berlin Heidelberg, 2003. 254–265.
  249. ^ Гювенир, Х. Алтай и др. « Алгоритм контролируемого машинного обучения для анализа аритмии ». Компьютеры в кардиологии 1997 . ИИЭР, 1997.
  250. ^ Лагус, Криста и др. « Независимый групповой анализ переменных при изучении компактных представлений данных ». Материалы Международной междисциплинарной конференции по адаптивному представлению знаний и рассуждению (AKRR'05), Т. Хонкела, В. Конёнен, М. Пёлля и О. Симула, ред., Эспоо, Финляндия . 2005.
  251. ^ Страк, Беата и др. « Влияние измерения HbA1c на показатели повторной госпитализации: анализ 70 000 записей пациентов из клинической базы данных ». BioMed Research International 2014; 2014 год
  252. ^ Рубин, Дэниел Дж (2015). «Госпитальная повторная госпитализация больных сахарным диабетом». Текущие отчеты о диабете . 15 (4): 1–9. дои : 10.1007/s11892-015-0584-7 . ПМИД   25712258 . S2CID   3908599 .
  253. ^ Антал, Балинт; Хайду, Андраш (2014). «Ансамблевая система автоматического скрининга диабетической ретинопатии». Системы, основанные на знаниях . 60 (2014): 20–27. arXiv : 1410.8576 . Бибкод : 2014arXiv1410.8576A . дои : 10.1016/j.knosys.2013.12.023 . S2CID   13984326 .
  254. ^ Халой, Мринал (2015). «Улучшенное обнаружение микроаневризмы с использованием глубоких нейронных сетей». arXiv : 1505.04424 [ cs.CV ].
  255. ^ ЭЛИ, Гийом ПАТРИ, Жерве ГОТЬЕ, Бруно ЛЭЙ, Жюльен РОЖЕР, Дэмьен. «Загрузка ADCIS третьей стороны: база данных Messidor» . adcis.net . Проверено 25 февраля 2018 г. . {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  256. ^ Десенсьер, Этьен; Чжан, Сивэй; Казугель, Гай; Лэй, Бруно; Коченер, Беатрис; Трон, Кэролайн; Гейн, Филипп; Ордонес, Ричард; Массин, Паскаль (26 августа 2014 г.). «Отзывы об общедоступной базе данных изображений: база данных Мессидор» . Анализ изображений и стереология . 33 (3): 231–234. дои : 10.5566/ias.1155 . ISSN   1854-5165 .
  257. ^ Багиров А.М.; и другие. (2003). «Неконтролируемая и контролируемая классификация данных посредством негладкой и глобальной оптимизации». Вершина . 11 (1): 1–75. CiteSeerX   10.1.1.1.6429 . дои : 10.1007/bf02578945 . S2CID   14165678 .
  258. ^ Фунг, Гленн и др. « Быстрый итерационный алгоритм для дискриминанта Фишера с использованием гетерогенных ядер ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
  259. ^ Куинлан, Джон Росс и др. «Индуктивное приобретение знаний: практический пример». Материалы Второй австралийской конференции по применению экспертных систем . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк., 1987.
  260. ^ Перейти обратно: а б Чжоу, Чжи-Хуа; Цзян, Юань (2004). «NeC4.5: нейронный ансамбль на основе C4.5». Транзакции IEEE по знаниям и инженерии данных . 16 (6): 770–773. CiteSeerX   10.1.1.1.8430 . дои : 10.1109/tkde.2004.11 . S2CID   1024861 .
  261. ^ Э-э, Орхан; и другие. (2012). «Подход, основанный на вероятностной нейронной сети, для диагностики заболевания мезотелиомой». Компьютеры и электротехника . 38 (1): 75–81. дои : 10.1016/j.compeleceng.2011.09.001 .
  262. ^ Эр, Орхан, А. Четин Танрикулу и Абдуррахман Абакай. « Использование методов искусственного интеллекта для диагностики злокачественной мезотелиомы плевры ». Диджле Тип Дергиси 42.1 (2015).
  263. ^ Ли, Майкл Х.; Местре, Тьяго А.; Фокс, Сьюзен Х.; Таати, Бабак (25 июля 2017 г.). «Оценка паркинсонизма и дискинезии, вызванной леводопой, на основе зрения с оценкой позы глубокого обучения» . Журнал нейроинженерии и реабилитации . 15 (1): 97. arXiv : 1707.09416 . Бибкод : 2017arXiv170709416L . дои : 10.1186/s12984-018-0446-z . ПМК   6219082 . ПМИД   30400914 .
  264. ^ Ли, Майкл Х.; Местре, Тьяго А.; Фокс, Сьюзен Х.; Таати, Бабак (май 2018 г.). «Автоматическая оценка дискинезии, вызванной леводопой: оценка реакции видеофункций». Паркинсонизм и связанные с ним расстройства . 53 : 42–45. дои : 10.1016/j.parkreldis.2018.04.036 . ISSN   1353-8020 . ПМИД   29748112 . S2CID   13666294 .
  265. ^ «Набор данных для оценки позы Паркинсона на основе зрения | Kaggle» . kaggle.com . Проверено 22 августа 2018 г.
  266. ^ Шеннон, Пол; и другие. (2003). «Cytoscape: программная среда для интегрированных моделей сетей биомолекулярного взаимодействия» . Геномные исследования . 13 (11): 2498–2504. дои : 10.1101/гр.1239303 . ПМК   403769 . ПМИД   14597658 .
  267. ^ Джавади, Соруш; Миррошандель, Сейед Аболгасем (2019). «Новый метод глубокого обучения для автоматической оценки изображений спермы человека». Компьютеры в биологии и медицине . 109 : 182–194. doi : 10.1016/j.compbiomed.2019.04.030 . ISSN   0010-4825 . ПМИД   31059902 . S2CID   146809768 .
  268. ^ «soroushj/mhsma-dataset: MHSMA: модифицированный набор данных анализа морфологии спермы человека» . github.com . Проверено 3 мая 2019 г.
  269. ^ Кларк, Дэвид, Золтан Шретер и Энтони Адамс. «Количественное сравнение дистального и обратного распространения ошибки». Материалы австралийской конференции по нейронным сетям 1996 года . 1996.
  270. ^ Цзян, Юань и Чжи-Хуа Чжоу. « Редактирование обучающих данных для классификаторов kNN с ансамблем нейронных сетей ». Достижения в области нейронных сетей – ISNN 2004 . Springer Berlin Heidelberg, 2004. 356–361.
  271. ^ Онтаньон, Сантьяго и Энрик Плаза. «О мерах подобия на основе уточняющей решетки». Исследования и разработки рассуждений на основе прецедентов . Springer Berlin Heidelberg, 2009. 240–255.
  272. ^ «Инвентаризация данных PLF» . Гитхаб . 5 ноября 2021 г.
  273. ^ Игера, Клара; Гардинер, Кэтлин Дж.; Чиос, Кшиштоф Дж. (2015). «Самоорганизующиеся карты признаков идентифицируют белки, имеющие решающее значение для обучения в модели синдрома Дауна на мышах» . ПЛОС ОДИН . 10 (6): e0129126. Бибкод : 2015PLoSO..1029126H . дои : 10.1371/journal.pone.0129126 . ПМК   4482027 . ПМИД   26111164 .
  274. ^ Ахмед, доктор Махиуддин; и другие. (2015). «Динамика белка, связанная с неудачным и спасенным обучением в мышиной модели синдрома Дауна Ts65Dn» . ПЛОС ОДИН . 10 (3): e0119491. Бибкод : 2015PLoSO..1019491A . дои : 10.1371/journal.pone.0119491 . ПМЦ   4368539 . ПМИД   25793384 .
  275. ^ Лэнгли, ПАТ (2014). «Компромисс между простотой и охватом при поэтапном концептуальном обучении» (PDF) . Труды по машинному обучению . 1988 : 73. Архивировано из оригинала (PDF) 6 августа 2019 года . Проверено 6 августа 2019 г.
  276. ^ «Набор данных о грибах 2020» . гриб.mathematik.uni- marburg.de. Проверено 6 апреля 2021 г.
  277. ^ Вагнер, Деннис; Хайдер, Доминик; Хаттаб, Жорж (14 апреля 2021 г.). «Создание, обработка и моделирование грибных данных для поддержки задач классификации» . Научные отчеты . 11 (1): 8134. Бибкод : 2021NatSR..11.8134W . дои : 10.1038/s41598-021-87602-3 . ISSN   2045-2322 . ПМК   8046754 . ПМИД   33854157 .
  278. ^ Кортес, Пауло и Анибал де Хесус Раймундо Мораис. «Подход к интеллектуальному анализу данных для прогнозирования лесных пожаров с использованием метеорологических данных». (2007).
  279. ^ Фаркуад, Массачусетс; Рави, В.; Раджу, С. Бапи (2010). «Поддержка методов извлечения гибридных правил на основе векторной регрессии для прогнозирования». Экспертные системы с приложениями . 37 (8): 5577–5589. дои : 10.1016/j.eswa.2010.02.055 .
  280. ^ Фишер, Рональд А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
  281. ^ Гахрамани, Зубин и Майкл И. Джордан. « Обучение под контролем на основе неполных данных с помощью ЭМ-подхода. Архивировано 22 апреля 2017 г. в Wayback Machine ». Достижения в области нейронных систем обработки информации 6 . 1994.
  282. ^ Маллах, Чарльз; Коуп, Джеймс; Оруэлл, Джеймс (2013). «Классификация листьев растений с использованием вероятностной интеграции формы, текстуры и особенностей краев» . Обработка сигналов, распознавание образов и приложения . 5 : 1.
  283. ^ Яхиауи, Итери, Ольфа Мзуги и Ножа Буджемаа. « Дескриптор формы листа для идентификации видов деревьев. Архивировано 6 августа 2019 года в Wayback Machine ». Мультимедиа и выставка (ICME), Международная конференция IEEE 2012 г., посвященная . ИИЭР, 2012.
  284. ^ Тан, Минг и Ларри Эшельман. « Использование взвешенных сетей для представления классификационных знаний в зашумленных областях ». Материалы Пятой международной конференции по машинному обучению . 2014.
  285. ^ Чаританович, Малгожата и др. « Полный алгоритм градиентной кластеризации для анализа особенностей рентгеновских изображений ». Информационные технологии в биомедицине . Springer Berlin Heidelberg, 2010. 15–24.
  286. ^ Санчес, Маурисио А.; и другие. (2014). «Алгоритм нечеткой гранулярной гравитационной кластеризации для многомерных данных». Информационные науки . 279 : 498–511. дои : 10.1016/j.ins.2014.04.005 .
  287. ^ Блэкард, Джок А.; Дин, Денис Дж. (1999). «Сравнительная точность искусственных нейронных сетей и дискриминантного анализа при прогнозировании типов лесного покрова на основе картографических переменных». Компьютеры и электроника в сельском хозяйстве . 24 (3): 131–151. Бибкод : 1999CEAgr..24..131B . CiteSeerX   10.1.1.128.2475 . дои : 10.1016/s0168-1699(99)00046-0 . S2CID   13985407 .
  288. ^ Фюрнкранц, Йоханнес. « Изучение правил кругового турнира ». Материалы 18-й Международной конференции по машинному обучению (ICML-01): 146–153 . 2001.
  289. ^ Ли, Сун; Ассманн, Сара М.; Альберт, Река (2006). «Прогнозирование основных компонентов сетей передачи сигналов: динамическая модель передачи сигналов абсцизовой кислоты замыкающих клеток» . ПЛОС Биол . 4 (10): е312. arXiv : q-bio/0610012 . Бибкод : 2006q.bio....10012L . doi : 10.1371/journal.pbio.0040312 . ПМЦ   1564158 . ПМИД   16968132 .
  290. ^ Мунисами, Тришен; и другие. (2015). «Распознавание листьев растений с использованием особенностей формы и цветовой гистограммы с помощью классификаторов K-ближайших соседей» . Procedia Информатика . 58 : 740–747. дои : 10.1016/j.procs.2015.08.095 .
  291. ^ Ли, Бай (2016). «Сопоставление атомных потенциалов: эволюционный подход к распознаванию целей, основанный на краевых характеристиках». Оптик . 127 (5): 3162–3168. Бибкод : 2016Оптик.127.3162Л . дои : 10.1016/j.ijleo.2015.11.186 .
  292. ^ Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.
  293. ^ Нильсбак, Мария-Елена и Эндрю Зиссерман. « Визуальный словарь классификации цветов ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.
  294. ^ Гизельссон, Томас М.; и другие. (2017). «Общедоступная база данных изображений для эталонных алгоритмов классификации саженцев растений». arXiv : 1711.05458 [ cs.CV ].
  295. ^ Олтян, Михай (2017). «Набор данных Fruits-360» .
  296. ^ Накаи, Кента; Канехиса, Минору (1991). «Экспертная система прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика . 11 (2): 95–110. дои : 10.1002/прот.340110203 . ПМИД   1946347 . S2CID   27606447 .
  297. ^ Линг, Чарльз X. и др. « Деревья решений с минимальными затратами ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
  298. ^ Маэ, Пьер и др. « Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF ». Биоинформатика (2014): btu022.
  299. ^ Барбано, Дуэйн; и другие. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием времяпролетной масс-спектрометрии с матричной лазерной десорбцией и ионизацией (MALDI-TOF MS)» . ПЛОС ОДИН . 10 (8): e0135337. Бибкод : 2015PLoSO..1035337B . дои : 10.1371/journal.pone.0135337 . ПМЦ   4536233 . ПМИД   26271045 .
  300. ^ Хортон, Пол; Накаи, Кента (1996). «Вероятностная система классификации для прогнозирования мест клеточной локализации белков» (PDF) . Протокол ISMB-96 . 4 : 109–15. ПМИД   8877510 . Архивировано из оригинала (PDF) 4 ноября 2021 года . Проверено 6 августа 2019 г.
  301. ^ Оллвейн, Эрин Л.; Шапире, Роберт Э.; Певец Йорам (2001). «Превращение мультикласса в двоичный: объединяющий подход для классификаторов полей» (PDF) . Журнал исследований машинного обучения . 1 : 113–141.
  302. ^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрейтер, Зепп (2016). «DeepTox: прогнозирование токсичности с использованием глубокого обучения» . Границы в науке об окружающей среде . 3 : 80. дои : 10.3389/fenvs.2015.00080 .
  303. ^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). «Оценка алгоритмов обнаружения аномалий в реальном времени — тест Numenta Anomaly Benchmark». 2015 г., 14-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA) . стр. 38–44. arXiv : 1510.03336 . дои : 10.1109/ICMLA.2015.141 . ISBN  978-1-5090-0287-0 . S2CID   6842305 .
  304. ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович. «Репозиторий SKAB GitHub» . Гитхаб . Проверено 12 января 2021 г.
  305. ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович (2020). «Бенчмарк аномалий Сколтеха (СКАБ)» . Кэггл. doi : 10.34740/KAGGLE/DSV/1693952 (неактивен 17 марта 2024 г.) . Проверено 12 января 2021 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь ) CS1 maint: DOI неактивен с марта 2024 г. ( ссылка )
  306. ^ Кампос, Гильерме О.; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Г.Б.; Миценкова, Барбора; Шуберт, Эрих; Согласен, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. doi : 10.1007/s10618-015-0444-8 . ISSN   1384-5810 . S2CID   1952214 .
  307. ^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для нейронных ответов на вопросы в базе знаний DBpedia . 2018.
  308. ^ Томмазо Сору, Эдгард Маркс. Диего Муссаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык . 2018.
  309. ^ Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения . КОЛИНГ 2020.
  310. ^ Киет Ван Нгуен, Кхием Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туй Нгуен. Расширение лексического подхода с помощью внешних знаний для понимания машинного чтения на вьетнамском языке с множественным выбором . Доступ IEEE. 2020.
  311. ^ Ананта, Равитея; Вакуленко Светлана; Ту, Чжучэн; Лонгпре, Шейн; Пулман, Стивен; Чаппиди, Шринивас (2020). «Ответы на вопросы в открытой области становятся диалоговыми благодаря переписыванию вопросов». arXiv : 2010.04898 [ cs.IR ].
  312. ^ Хашаби, Дэниел; Мин, Севон; Хот, Тушар; Сабхарвал, Ашиш; Тафьорд, Ойвинд; Кларк, Питер; Хаджиширзи, Ханнане (ноябрь 2020 г.). «UNIFIEDQA: пересекая границы форматов с помощью единой системы контроля качества» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2020 . Онлайн: Ассоциация компьютерной лингвистики: 1896–1907. arXiv : 2005.00700 . doi : 10.18653/v1/2020.findings-emnlp.171 . S2CID   218487109 .
  313. ^ Taskmaster , Наборы исследовательских данных Google, 17 декабря 2022 г. , получено 7 января 2023 г.
  314. ^ Бирн, Билл; Кришнамурти, Картик; Санкар, Чиннадхурай; Нилакантан, Арвинд; Дакворт, Дэниел; Явуз, Семих; Гудрич, Бен; Дубей, Амит; Цедильник, Энди; Ким, Кю Ён (1 сентября 2019 г.). «Наставник задач-1: к реалистичному и разнообразному набору данных диалога». arXiv : 1909.05358 [ cs.CL ].
  315. ^ Ясунага, Митихиро; Лян, Перси (21 ноября 2020 г.). «Восстановление программ с самоконтролем на основе графиков на основе диагностической обратной связи» . Международная конференция по машинному обучению . ПМЛР: 10799–10808. arXiv : 2005.10636 .
  316. ^ Ван, Ичжун; Мишра, Сваруп; Алипурмолабаши, Пега; Корди, Йегане; Мирзаи, Амирреза; Арункумар, Анджана; Ашок, Арджун; Дханасекаран, Арут Сельван; Наик, Атхарва; Стапп, Дэвид; Патхак, Эшаан; Караманолакис, Яннис; Лай, Хайжи Гэри; Пурохит, Ишан; Мондал, Ишани (24 октября 2022 г.). «Сверхестественные инструкции: обобщение с помощью декларативных инструкций для более чем 1600 задач НЛП». arXiv : 2204.07705 [ cs.CL ].
  317. ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Куан Нгок; Бернарди, Рафаэлла; Пеццелле, Сандро Барони, Марко; Боледа, Джемма; Фернандес, Ракель (7 августа 2016 г.), Набор данных LAMBADA , номер doi : 10.5281/zenodo.2630551 , получено 7 января 2023 г.
  318. ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Нгок Куан; Бернарди, Рафаэлла; Пеццелле, Сандро; Барони, Марко; Боледа, Джемма; Фернандес, Ракель (август 2016 г.). «Набор данных LAMBADA: предсказание слов, требующее широкого контекста дискурса» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 1525–1534 гг. дои : 10.18653/v1/P16-1144 . hdl : 10230/32702 . S2CID   2381275 .
  319. ^ Вэй, Джейсон; Босма, Мартен; Чжао, Винсент; Гуу, Кельвин; Ю, Адамс Вэй; Лестер, Брайан; Ду, Нэн; Дай, Эндрю М.; Ле, Куок В. (10 февраля 2022 г.). «Точно настроенные языковые модели — это ученики с нулевым шансом» . arXiv : 2109.01652 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  320. ^ «Работа с ATT&CK | MITRE ATT&CK®» . Attack.mitre.org . Проверено 14 января 2023 г.
  321. ^ «CAPEC — Перечисление и классификация общих шаблонов атак (CAPEC™)» . capec.mitre.org . Проверено 14 января 2023 г.
  322. ^ «CVE — Главная» . cve.mitre.org . Проверено 14 января 2023 г.
  323. ^ «CWE — Перечень общих слабостей» . cwe.mitre.org . Проверено 14 января 2023 г.
  324. ^ Лим, Суи Киат; Муис, Алдриан Обаха; Лу, Вэй; Онг, Чэнь Хуэй (июль 2017 г.). «MalwareTextDB: база данных для аннотированных статей о вредоносном ПО» . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Ванкувер, Канада: Ассоциация компьютерной лингвистики: 1557–1567. дои : 10.18653/v1/P17-1143 . S2CID   7816596 .
  325. ^ «ЮСЕНИКС» . УСЕНИКС . Проверено 19 января 2023 г.
  326. ^ «APTnotes | Прочтите документацию» . readthedocs.org . Проверено 19 января 2023 г.
  327. ^ «Недавние публикации авторов/названий в области криптографии и безопасности» . arxiv.org . Проверено 19 января 2023 г.
  328. ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 0» . f0.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
  329. ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 1» . f1.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
  330. ^ Винсент, Адам. «Взлом и усиление защиты веб-сервисов» (PDF) . owasp.org .
  331. ^ МакКрей, Джо. «Расширенное внедрение SQL» (PDF) . defcon.org .
  332. ^ Шах, Шрирадж. «Техника обнаружения и использования слепого внедрения SQL» (PDF) . blueinfy.com .
  333. ^ Палцер, КЦ «Этический хакерство» (PDF) . текстовые файлы .
  334. ^ «Раскрытые секреты взлома — информационно-методическое руководство» (PDF) .
  335. ^ Парк, Алексис. «Взломать любой сайт» (PDF) .
  336. ^ Серрудо, Сезар; Мартинес Файо, Эстебан. «Взлом баз данных для владения вашими данными» (PDF) . черная шляпа .
  337. ^ О'Коннор, Тиджей. «Violent Python — кулинарная книга для хакеров, судебных аналитиков, тестеров на проникновение и инженеров по безопасности» (PDF) . Гитхаб .
  338. ^ Гранд, Джо. «Реверс-инжиниринг оборудования: доступ, анализ и поражение» (PDF) . черная шляпа .
  339. ^ Чанг, Джейсон В. «Компьютерный взлом: обоснование требований к национальной отчетности» (PDF) . cyber.harvard.edu .
  340. ^ «Репозиторий национальных стратегий кибербезопасности» . МСЭ . Проверено 20 января 2023 г.
  341. ^ Чен, Яньлинь (31 августа 2022 г.), Cyber ​​Security Natural Language Processing , получено 20 января 2023 г.
  342. ^ Зампиери, Маркос; Мальмаси, Шервин; Наков, Преслав; Розенталь, Сара; Фарра, Нура; Кумар, Ритеш (16 апреля 2019 г.). «Прогнозирование типа и цели оскорбительных публикаций в социальных сетях». arXiv : 1902.09666 [ cs.CL ].
  343. ^ «Сообщения об угрозах» . www.ncsc.gov.uk. ​ Проверено 20 января 2023 г.
  344. ^ «Категория: Отчеты APT | Securelist» . Securelist.com . Проверено 23 января 2023 г.
  345. ^ «Ваша связь с новостями о кибербезопасности - Киберновости | CyberWire» . КиберВайр . Проверено 23 января 2023 г.
  346. ^ "Новости" . 21 августа 2016 года . Проверено 23 января 2023 г.
  347. ^ «Киберньюс» . Киберньюс .
  348. ^ «Блипингкомпьютер» . Мигающий компьютер . Проверено 23 января 2023 г.
  349. ^ «Домашняя страница» . Запись из Recorded Future News . Проверено 23 января 2023 г.
  350. ^ «HackRead | Последние киберпреступления — InfoSec-Tech — Новости хакерства» . 8 января 2022 г. Проверено 23 января 2023 г.
  351. ^ «Securelist | Исследования и отчеты Касперского об угрозах» . Securelist.com . Проверено 31 января 2023 г.
  352. ^ Харшоу, Кристофер Р.; Бриджес, Роберт А.; Яннаконе, Майкл Д.; Рид, Джоэл В.; Гудолл, Джон Р. (5 апреля 2016 г.). «Графпринтс» . Материалы 11-й ежегодной конференции по исследованию кибербезопасности и информационной безопасности . ЦИРЦ '16. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–4. дои : 10.1145/2897795.2897806 . ISBN  978-1-4503-3752-6 .
  353. ^ «Farsight Security, решения для кибербезопасности» . Безопасность Фарсайта . Проверено 13 февраля 2023 г.
  354. ^ «Шнайер о безопасности» . www.schneier.com . Проверено 13 февраля 2023 г.
  355. ^ «№1 в области облачной безопасности и кибербезопасности конечных точек» . Тренд Микро . Проверено 13 февраля 2023 г.
  356. ^ «Новости хакеров | Надежный сайт новостей кибербезопасности №1» . Хакерские новости . Проверено 13 февраля 2023 г.
  357. ^ «Кребс о безопасности – подробные новости и расследования в области безопасности» . Проверено 25 февраля 2023 г.
  358. ^ «График знаний MITRE D3FEND» . d3fend.mitre.org . Проверено 31 марта 2023 г.
  359. ^ «МИТР | АТЛАС™» . atlas.mitre.org . Проверено 31 марта 2023 г.
  360. ^ «MITRE Engage™ | Система взаимодействия с противниками от MITRE» . Проверено 1 апреля 2023 г.
  361. ^ «Уроки взлома — лучшие пошаговые руководства по хакерству» . Учебники по взлому . Проверено 1 апреля 2023 г.
  362. ^ «Центр знаний TCFD» . Центр знаний TCFD . Проверено 3 февраля 2023 г.
  363. ^ «ResponsibilityReports.com» . www.responsibilityreports.com . Проверено 3 февраля 2023 г.
  364. ^ «О — МГЭИК» . Проверено 20 февраля 2023 г.
  365. ^ «Альянс исследований корпоративной устойчивости | ARCS служит средством продвижения тщательных академических исследований по вопросам корпоративной устойчивости» . Corporate-sustainability.org . Проверено 2 марта 2023 г.
  366. ^ Мехра, Шришти; Лука, Роберт; Чжан, Исюнь (26 марта 2022 г.). «ESGBERT: языковая модель для помощи в задачах классификации, связанных с экологической, социальной и управленческой практикой компаний». Встроенные системы и приложения : 183–190. arXiv : 2203.16788 . дои : 10.5121/csit.2022.120616 . ISBN  9781925953657 . S2CID   247825524 .
  367. ^ В эту статью включен текст , доступный по лицензии CC BY 4.0 .
  368. ^ Диггельманн, Томас; Бойд-Грабер, Иордания; Булиан, Яннис; Чиарамита, Массимилиано; Лейппольд, Маркус (2 января 2021 г.). «КЛИМАТ-ЛИХОРАДКА: Набор данных для проверки реальных климатических заявлений». arXiv : 2012.00614 [ cs.CL ].
  369. ^ "климат-новости-дб" . www.climate-news-db.com . Проверено 3 февраля 2023 г.
  370. ^ «Климатекст» . www.sustainablefinance.uzh.ch . Проверено 19 февраля 2023 г.
  371. ^ «Гринбиз» . www.greenbiz.com . Проверено 2 марта 2023 г.
  372. ^ «Изучите горячий список @Reuters из 1000 ведущих ученых-климатологов» . Рейтер . Проверено 22 марта 2023 г.
  373. ^ «Блоги | Альянс исследований корпоративной устойчивости» . Corporate-sustainability.org . Проверено 27 марта 2023 г.
  374. ^ «Гринбиз» . www.greenbiz.com . Проверено 29 марта 2023 г.
  375. ^ «Новости КСО» . www.csrwire.com . Проверено 29 марта 2023 г.
  376. ^ «Домашняя страница CDP» . www.cdp.net . Проверено 29 марта 2023 г.
  377. ^ де Врис, Вред (2022). «Стек: 3 ТБ исходного кода с разрешительной лицензией». arXiv : 2211.15533 [ cs.CL ].
  378. ^ «Дедуляция стека» . Обнимающее лицо . Проверено 29 августа 2023 г.
  379. ^ «Блог о гибридном облаке» . content.cloud.redhat.com . Проверено 9 апреля 2023 г.
  380. ^ «Оркестровка контейнеров производственного уровня» . Кубернетес . Проверено 9 апреля 2023 г.
  381. ^ «Главная страница | Официальная документация Red Hat OpenShift» . docs.openshift.com . Проверено 9 апреля 2023 г.
  382. ^ «Фонд облачных вычислений» . Фонд облачных вычислений . Проверено 9 апреля 2023 г.
  383. ^ Презентации сообщества CNCF , Cloud Native Computing Foundation (CNCF), 11 апреля 2023 г. , получено 11 апреля 2023 г.
  384. ^ «Red Hat – Мы создаем технологии с открытым исходным кодом для предприятий» . www.redhat.com . Проверено 1 мая 2023 г.
  385. ^ Браун, Майкл Скотт, Майкл Дж. Пелоси и Генри Дирска. Генетический алгоритм с динамическим радиусом, сохраняющий виды, для финансового прогнозирования акций индекса Доу-Джонса. [ мертвая ссылка ] .. Машинное обучение и интеллектуальный анализ данных в распознавании образов . Springer Berlin Heidelberg, 2013. 27–41.
  386. ^ Шен, Као-И; Цзенг, Гво-Сюн (2015). «Модель VC-DRSA с нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем . 17 (3): 375–389. дои : 10.1007/s40815-015-0058-8 . S2CID   68241024 .
  387. ^ Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований . 27 (3): 221–234. CiteSeerX   10.1.1.18.4267 . дои : 10.1016/s0020-7373(87)80053-6 .
  388. ^ Хамерс, Барт; Суйкенс, Йохан АК; Де Мур, Барт (2003). «Связанное трансдуктивное ансамблевое обучение моделей ядра» (PDF) . Журнал исследований машинного обучения . 1 :1–48.
  389. ^ Шмуэли, Галит , Ральф П. Руссо и Вольфганг Янк. « БАРИСТА: модель поступления ставок на интернет-аукционах ». Анналы прикладной статистики (2007): 412–441.
  390. ^ Пэн, Цзе и Ханс-Георг Мюллер. « Дистанционная кластеризация редко наблюдаемых случайных процессов с применением к онлайн-аукционам ». Анналы прикладной статистики (2008): 1056–1077.
  391. ^ Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. « Генетическое программирование для классификации данных: разделение пространства поиска ». Материалы симпозиума ACM 2004 года по прикладным вычислениям . АКМ, 2004.
  392. ^ Моро, Сержио; Кортес, Пауло; Рита, Пауло (2014). «Подход, основанный на данных, для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений . 62 : 22–31. дои : 10.1016/j.dss.2014.03.001 . hdl : 10071/9499 . S2CID   14181100 .
  393. ^ Пейн, Ричард Д.; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv : 1411.5653 [ stat.ME ].
  394. ^ Акбилгыч, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель гибридных нейронных сетей RBF в качестве прогнозиста». Статистика и вычисления . 24 (3): 365–375. дои : 10.1007/s11222-013-9375-7 . S2CID   17764829 .
  395. ^ Джабин, Сурайя. « Прогнозирование фондового рынка с использованием искусственной нейронной сети прямого распространения ». Межд. Дж. Компьютер. Прил. (IJCA) 99,9 (2014 г.).
  396. ^ Да, И-Чэн; Че-хуэй, Лянь (2009). «Сравнение методов интеллектуального анализа данных для точности прогнозирования вероятности дефолта клиентов по кредитным картам». Экспертные системы с приложениями . 36 (2): 2473–2480. дои : 10.1016/j.eswa.2007.12.020 . S2CID   15696161 .
  397. ^ Линь, Шу Лин (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями . 36 (4): 8333–8341. дои : 10.1016/j.eswa.2008.10.015 .
  398. ^ Юмо Сюй и Шей Б. Коэн. 2018. Прогноз движения акций на основе твитов и исторических цен. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) , страницы 1970–1979, Мельбурн, Австралия. Ассоциация компьютерной лингвистики.
  399. ^ Пелкманс, Кристиан; и другие. (2005). «Дифференциограмма: непараметрическая оценка дисперсии шума и ее использование для выбора модели». Нейрокомпьютинг . 69 (1): 100–122. doi : 10.1016/j.neucom.2005.02.015 .
  400. ^ Бэй, Стивен Д.; и другие. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень ACM SIGKDD об исследованиях . 2 (2): 81–85. CiteSeerX   10.1.1.15.9776 . дои : 10.1145/380995.381030 . S2CID   534881 .
  401. ^ Лукас, Д.Д.; и другие. (2015). «Разработка оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости» . Геонаучные приборы, методы и системы данных . 4 (1): 121. Бибкод : 2015GI......4..121L . дои : 10.5194/gi-4-121-2015 .
  402. ^ Пэйлс, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований . 70 (24): 6053–6076. Бибкод : 1965JGR....70.6053P . дои : 10.1029/jz070i024p06053 .
  403. ^ Сиджиллито, Винсент Г. и др. «Классификация радиолокационных сигналов из ионосферы с использованием нейронных сетей». Технический дайджест Johns Hopkins APL 10.3 (1989): 262–266.
  404. ^ Чжан, Кун и Вэй Фань. « Прогнозирование искаженных стохастических озоновых дней: анализ, решения и не только ». Знания и информационные системы 14.3 (2008): 299–326.
  405. ^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. « Байесовская пространственная квантильная регрессия ». Журнал Американской статистической ассоциации (2012).
  406. ^ Кохави, Рон (1996). «Повышение точности классификаторов Наивного-Байеса: гибрид дерева решений». КДД . 96 .
  407. ^ Оза, Никундж К. и Стюарт Рассел. «Экспериментальное сравнение онлайн- и пакетной версий упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2001.
  408. ^ Бэй, Стивен Д. (2001). «Многомерная дискретизация для интеллектуального анализа множеств». Знания и информационные системы . 3 (4): 491–512. CiteSeerX   10.1.1.217.921 . дои : 10.1007/pl00011680 . S2CID   10945544 .
  409. ^ Рагглс, Стивен (1995). «Схемы выборки и ошибки выборки». Исторические методы . 28 (1): 40–46. дои : 10.1080/01615440.1995.9955312 .
  410. ^ Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. « Метод кривой обучения применительно к кластеризации ». АЙСТАТС . 2001.
  411. ^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая ансамблевые детекторы и базовые знания» . Прогресс в области искусственного интеллекта . 2 (2–3): 113–127. дои : 10.1007/s13748-013-0040-3 . S2CID   3345087 .
  412. ^ Жио, Ромен и Рафаэль Шерье. « Прогнозирование использования системы велопроката на день вперед ». Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г., Россия . ИИЭР, 2014.
  413. ^ Чжан, Сяньюань; и другие. (2013). «Оценка времени в пути по городскому маршруту с использованием крупномасштабных данных такси с частичной информацией». Транспортные исследования, часть C: Новые технологии . 33 : 37–49. дои : 10.1016/j.trc.2013.04.001 .
  414. ^ Морейра-Матиас, Луис; и другие. (2013). «Прогнозирование спроса пассажиров на такси с использованием потоковых данных» . Транзакции IEEE в интеллектуальных транспортных системах . 14 (3): 1393–1402. дои : 10.1109/tits.2013.2262376 . S2CID   14764358 .
  415. ^ Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки . 314 : 28–40. дои : 10.1016/j.ins.2015.03.068 .
  416. ^ Х.В. Джагадиш, Йоханнес Герке, Александрос Лабринидис, Яннис Папаконстантину, Джинеш М. Патель, Рагху Рамакришнан и Сайрус Шахаби. Большие данные и их технические проблемы. Коммун. акм, 57(7):86–94, июль 2014 г.
  417. ^ Кальтранс ПеМС
  418. ^ Мейзель, Роберт и др. « Структура графов в Интернете — анализ на разных уровнях агрегации ». Журнал веб-науки 1.1 (2015).
  419. ^ Кушмерик, Николас. « Учимся удалять интернет-рекламу ». Материалы третьей ежегодной конференции по автономным агентам . АКМ, 1999.
  420. ^ Фрадкин, Дмитрий и Дэвид Мэдиган. « Эксперименты со случайными прогнозами для машинного обучения ». Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2003.
  421. ^ Эти данные использовались в разделах статистической графики и вычислений Американской статистической ассоциации за 1999 год.
  422. ^ Ма, Джастин и др. « Выявление подозрительных URL-адресов: применение масштабного онлайн-обучения ». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ, 2009.
  423. ^ Левченко, Кирилл и др. « Траектории кликов: сквозной анализ цепочки создания стоимости спама ». Безопасность и конфиденциальность (SP), симпозиум IEEE 2011 г., посвященный . ИИЭР, 2011.
  424. ^ Мохаммад, Рами М., Фади Табта и Ли Маккласки. « Оценка особенностей, связанных с фишинговыми веб-сайтами, с использованием автоматизированной методики ». Интернет-технологии и защищенные транзакции, Международная конференция 2012 г. для . ИИЭР, 2012.
  425. ^ Сингх, Ашишкумар и др. « Эксперименты по кластеризации больших данных о транзакциях для сегментации рынка ». Материалы Международной конференции по науке о больших данных и вычислительной технике 2014 года . АКМ, 2014.
  426. ^ Боллакер, Курт и др. « Freebase: совместно созданная графовая база данных для структурирования человеческих знаний ». Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными . АКМ, 2008.
  427. ^ Минц, Майк и др. « Дистанционный контроль для извлечения отношений без помеченных данных ». Материалы совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции по обработке естественного языка AFNLP: Том 2-Том 2 . Ассоциация компьютерной лингвистики, 2009.
  428. ^ Mesterharm, Chris, and Michael J. Pazzani. "Active learning using on-line algorithms Archived 22 September 2017 at the Wayback Machine."Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011.
  429. ^ Wang, Shusen; Zhang, Zhihua (2013). "Improving CUR matrix decomposition and the Nyström approximation via adaptive sampling" (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
  430. ^ Jump up to: a b "The Pile". pile.eleuther.ai. Retrieved 14 April 2022.
  431. ^ "JSON Lines". jsonlines.org. Retrieved 14 April 2022.
  432. ^ Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL].
  433. ^ "OSCAR". oscar-project.org. Retrieved 12 August 2023.
  434. ^ Ortiz Suarez, Pedro, et al. "[2]." Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures. CMLC-7, 2019.
  435. ^ Abadji, Julien, et al. "[3]." Towards a Cleaner Document-Oriented Multilingual Crawled Corpus. LREC, 2022.
  436. ^ Cohen, Vanya. "OpenWebTextCorpus". OpenWebTextCorpus. Retrieved 9 January 2023.
  437. ^ "openwebtext · Datasets at Hugging Face". huggingface.co. 16 November 2022. Retrieved 9 January 2023.
  438. ^ Saulnier, Lucile (2023). "The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset". arXiv:2303.03915 [cs.CL].
  439. ^ "BigScience Data · Datasets at Hugging Face". huggingface.co. 29 August 2023. Retrieved 29 August 2023.
  440. ^ Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). "Evolutionary data mining with automatic rule generalization" (PDF). Recent Advances in Computers, Computing and Communications: 296–300. S2CID 18625415. Archived from the original (PDF) on 6 August 2019.
  441. ^ Burton, Ariel N.; Kelly, Paul H.J. (2006). "Performance prediction of paging workloads using lightweight tracing". Future Generation Computer Systems. 22 (7). Elsevier BV: 784–793. doi:10.1016/j.future.2006.02.003. ISSN 0167-739X.
  442. ^ Bain, Michael; Muggleton, Stephen (1994). "Learning optimal chess strategies". Machine Intelligence. 13. Oxford University Press, Inc.: 291–309. doi:10.1093/oso/9780198538509.003.0012. ISBN 978-0-19-853850-9.
  443. ^ Quilan, J.R (1983). "Learning Efficient Classification Procedures and Their Application to Chess End Games". Machine Learning – Learning Efficient Classification Procedures and Their Application to Chess End Games. Vol. 1. pp. 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9. {{cite book}}: |journal= ignored (help)
  444. ^ Shapiro, Alen D. (1987). Structured induction in expert systems. Addison-Wesley Longman Publishing Co., Inc.
  445. ^ Matheus, Christopher J.; Rendell, Larry A. (1989). "Constructive Induction on Decision Trees" (PDF). IJCAI. 89.[dead link]
  446. ^ Belsley, David A., Edwin Kuh, and Roy E. Welsch. Regression diagnostics: Identifying influential data and sources of collinearity. Vol. 571. John Wiley & Sons, 2005.
  447. ^ Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). "Knowledge-based linguistic annotation of digital cultural heritage collections" (PDF). IEEE Intelligent Systems. 24 (2): 64–75. doi:10.1109/MIS.2009.32. hdl:1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7. S2CID 6667472. Archived from the original (PDF) on 16 August 2017. Retrieved 6 December 2018.
  448. ^ Li, Lihong; Chu, Wei; Langford, John; Wang, Xuanhui (2011). "Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms". Proceedings of the fourth ACM international conference on Web search and data mining. pp. 297–306. arXiv:1003.5956. doi:10.1145/1935826.1935878. ISBN 9781450304931. S2CID 744200.
  449. ^ Yeung, Kam Fung, and Yanyan Yang. "A proactive personalized mobile news recommendation system." Developments in E-systems Engineering (DESE), 2010. IEEE, 2010.
  450. ^ Gass, Susan E.; Roberts, J. Murray (2006). "The occurrence of the cold-water coral Lophelia pertusa (Scleractinia) on oil and gas platforms in the North Sea: colony growth, recruitment and environmental controls on distribution". Marine Pollution Bulletin. 52 (5): 549–559. Bibcode:2006MarPB..52..549G. doi:10.1016/j.marpolbul.2005.10.002. PMID 16300800.
  451. ^ Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (2007). "Clustering aggregation". ACM Transactions on Knowledge Discovery from Data. 1 (1): 4. CiteSeerX 10.1.1.709.528. doi:10.1145/1217299.1217303. S2CID 433708.
  452. ^ Obradovic, Zoran, and Slobodan Vucetic.Challenges in Scientific Data Mining: Heterogeneous, Biased, and Large Samples. Technical Report, Center for Information Science and Technology Temple University, 2004.
  453. ^ Van Der Putten, Peter; van Someren, Maarten (2000). "CoIL challenge 2000: The insurance company case". Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report. 9: 1–43.
  454. ^ Mao, K. Z. (2002). "RBF neural network center selection based on Fisher ratio class separability measure". IEEE Transactions on Neural Networks. 13 (5): 1211–1217. doi:10.1109/tnn.2002.1031953. PMID 18244518.
  455. ^ Olave, Manuel; Rajkovic, Vladislav; Bohanec, Marko (1989). "An application for admission in public school systems" (PDF). Expert Systems in Public Administration. 1: 145–160.
  456. ^ Lizotte, Daniel J.; Madani, Omid; Greiner, Russell (2012). "Budgeted Learning of Naive-Bayes Classifiers". arXiv:1212.2472 [cs.LG].
  457. ^ Lebowitz, Michael (1986). "Concept learning in a rich input domain: Generalization-based memory". Machine Learning: An Artificial Intelligence Approach. 2: 193–214. ISBN 9780934613002.
  458. ^ Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Knowledge discovery on RFM model using Bernoulli sequence". Expert Systems with Applications. 36 (3): 5866–5871. doi:10.1016/j.eswa.2008.07.018.
  459. ^ Lee, Wen-Chen; Cheng, Bor-Wen (2011). "An intelligent system for improving performance of blood donation". Journal of Quality Vol. 18 (2): 173.
  460. ^ Schmidtmann, Irene, et al. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage Archived 6 December 2018 at the Wayback Machine." Abschlußbericht vom 11 (2009).
  461. ^ Sariyar, Murat; Borg, Andreas; Pommerening, Klaus (2011). "Controlling false match rates in record linkage using extreme value theory". Journal of Biomedical Informatics. 44 (4): 648–654. doi:10.1016/j.jbi.2011.02.008. PMID 21352952.
  462. ^ Candillier, Laurent, and Vincent Lemaire. "Design and Analysis of the Nomao challenge Active Learning in the Real-World." Proceedings of the ALRA: Active Learning in Real-world Applications, Workshop ECML-PKDD. 2012.
  463. ^ Marquez, Ivan Garrido. "A Domain Adaptation Method for Text Classification based on Self-adjusted Training Approach." (2013).
  464. ^ Nagesh, Harsha S., Sanjay Goil, and Alok N. Choudhary. "Adaptive Grids for Clustering Massive Data Sets." SDM. 2001.
  465. ^ Kuzilek, Jakub, et al. "OU Analyse: analysing at-risk students at The Open University." Learning Analytics Review (2015): 1–16.
  466. ^ Siemens, George, et al. Open Learning Analytics: an integrated & modularized platform[permanent dead link]. Diss. Open University Press, 2011.
  467. ^ Barlacchi, Gianni; De Nadai, Marco; Larcher, Roberto; Casella, Antonio; Chitic, Cristiana; Torrisi, Giovanni; Antonelli, Fabrizio; Vespignani, Alessandro; Pentland, Alex; Lepri, Bruno (2015). "A multi-source dataset of urban life in the city of Milan and the Province of Trentino". Scientific Data. 2: 150055. Bibcode:2015NatSD...250055B. doi:10.1038/sdata.2015.55. ISSN 2052-4463. PMC 4622222. PMID 26528394.
  468. ^ Vanschoren J, van Rijn JN, Bischl B, Torgo L (2013). "OpenML: networked science in machine learning". SIGKDD Explorations. 15 (2): 49–60. arXiv:1407.7722. doi:10.1145/2641190.2641198. S2CID 4977460.
  469. ^ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). "PMLB: a large benchmark suite for machine learning evaluation and comparison". BioData Mining. 10 (1): 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. doi:10.1186/s13040-017-0154-4. PMC 5725843. PMID 29238404.
  470. ^ "Off The Shelf Datasets". appen.com. Appen. Retrieved 30 December 2020.
  471. ^ "Open Source Datasets". appen.com. Appen. Retrieved 30 December 2020.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: FC9DF77C19FA7129660D077235C5F40B__1717605000
URL1:https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
Заголовок, (Title) документа по адресу, URL1:
List of datasets for machine-learning research - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)