Jump to content

Список наборов данных для исследований в области машинного обучения

Эти наборы данных используются в исследованиях машинного обучения (ML) и цитируются в рецензируемых научных журналах . Наборы данных являются неотъемлемой частью области машинного обучения. Крупные достижения в этой области могут быть результатом достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерного оборудования и, что менее интуитивно понятно, доступности высококачественных наборов обучающих данных. [1] Высококачественные помеченные наборы обучающих данных для контролируемых и полуконтролируемых машинного обучения алгоритмов обычно сложно и дорого создавать из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим. [2] [3] [4] [5]

Многие организации, включая правительства, публикуют и делятся своими наборами данных . Наборы данных классифицируются в зависимости от лицензий на открытые данные и неоткрытые данные .

Наборы данных различных государственных органов представлены в Списке открытых сайтов государственных данных . Наборы данных портируются на порталы открытых данных . Они доступны для поиска, размещения и доступа через такие интерфейсы, как Open API . Наборы данных доступны в различных отсортированных типах и подтипах.

Список сортировок, используемых для наборов данных

[ редактировать ]
Тип Подтипы
Конкретная категория Финансы , экономика , торговля , социальная сфера , здравоохранение , академия , спорт , еда , сельское хозяйство , путешествия , геопространственные , политические , потребительские товары , транспорт , логистика , окружающая среда , недвижимость , юридические , развлечения , энергетика , гостиничный бизнес
Объем Наднациональный Союз , Национальный , Субнациональный , Муниципальный , Городской , Сельский
Язык Китайский , испанский , английский , арабский , хинди , бенгали
Тип Табличный , график , текст , изображение , звук , видео
Использование Обучение, проверка и тестирование
Форматы файлов CSV , JSON , XML , KML , GeoJSON , шейп-файл , GML
Лицензии Creative-Commons , GPL , другие на закрытые данные лицензии
Последнее обновление Последний час, последний день, последняя неделя, последний месяц, последний год
Размер файла Минимум, Максимум, Диапазон
Статус Проверено, находится в стадии подготовки, деактивировано (или устарело)
Количество записей 100, 1000, 10 000, 100 000, миллионы
Количество переменных Менее 10, 10, 100, 1000, 10000
Услуги Индивидуальный, Агрегированный

Портал данных классифицируется в зависимости от типа лицензии. Порталы данных с открытым исходным кодом на основе лицензий известны как порталы открытых данных , которые используются многими правительственными организациями и академическими учреждениями .

Список порталов открытых данных

[ редактировать ]
Имя портала Лицензия Список установок портала Типичное использование
Комплексная сеть архивов знаний ( CKAN ) АГПЛ https://ckan.github.io/ckan-instances/

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
ДЭН лицензия GPL https://getdkan.org/community Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
Вселенная данных Апач https://dataverse.org/installations

https://dataverse.org/metrics

Решение для управления данными для научно-исследовательских институтов
DSpace БСД https://registry.lyrasis.org/ Решение для управления данными для научно-исследовательских институтов
OpenML БСД https://www.openml.org/search?type=data&sort=runs&status=active Решение для управления данными для обмена наборами данных, алгоритмами и результатами экспериментов через API.

Список порталов, подходящих для нескольких типов приложений

[ редактировать ]

Портал данных иногда перечисляет самые разнообразные подтипы наборов данных, относящиеся ко многим приложениям машинного обучения .

Академические торренты https://academictorrents.com
Наборы данных Amazon https://registry.opendata.aws/
Потрясающая коллекция общедоступных наборов данных https://github.com/awesomedata/awesome-public-datasets
data.world https://data.world/datasets/machine-learning
Datahub – основные наборы данных https://datahub.io/docs/core-data
DataONE https://www.dataone.org/
Порталы данных https://dataportals.org/
Datasetlist.com https://www.datasetlist.com
Глобальный индекс открытых данных – Фонд открытых знаний https://index.okfn.org/ Архивировано 25 мая 2020 г. в Wayback Machine.
Поиск набора данных Google https://datasetsearch.research.google.com/
Обнимающее лицо https://huggingface.co/docs/datasets/
Обмен данными IBM https://developer.ibm.com/exchanges/data/
Jupyter — Учебные данные https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
Каггл https://www.kaggle.com/datasets
Наборы данных машинного обучения https://macgence.com/data-sets-and-cataloges/
Крупные умные города с открытыми данными https://rlist.io/l/major-smart-cities-with-open-data-portals
Наборы данных Microsoft https://msropendata.com/datasets
Начало открытых данных https://opendatainception.io/
Opendatasoft https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
OpenDOAR https://v2.sherpa.ac.uk/opendoar/
OpenML https://www.openml.org/search?type=data
Документы с кодом https://paperswithcode.com/datasets
Тесты машинного обучения Penn https://github.com/EpistasisLab/pmlb/tree/master/datasets
Публичные API https://github.com/public-apis/public-apis
Реестр репозиториев открытого доступа http://roar.eprints.org/  
Реестр хранилищ данных исследований https://www.re3data.org/  
Репозиторий машинного обучения UCI http://mlr.cs.umass.edu/ml/ Архивировано 26 июня 2020 г. в Wayback Machine.
Речевой набор данных https://www.shaip.com/offerings/speech-data-catalog/
Визуальное обнаружение данных https://visualdata.io/discovery

Список порталов, подходящих для конкретного подтипа приложений

[ редактировать ]

Порталы данных, подходящие для определенного подтипа приложения машинного обучения, перечислены в последующих разделах.

Данные изображения

[ редактировать ]

Текстовые данные

[ редактировать ]

Эти наборы данных состоят в основном из текста для таких задач, как обработка естественного языка , анализ настроений , перевод и кластерный анализ .

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Амазонские обзоры Обзоры продуктов в США на Amazon.com . Никто. 233,1 миллиона Текст Классификация, анализ настроений 2015 (2018) [6] [7] Маколи и др.
Набор данных обзора OpinRank Обзоры автомобилей и отелей на Edmunds.com и TripAdvisor соответственно. Никто. 42 230 / ~ 259 000 соответственно Текст Анализ настроений, кластеризация 2011 [8] [9] К. Ганесан и др.
КиноОбъектив 22 000 000 оценок и 580 000 тегов присвоены 33 000 фильмам 240 000 пользователей. Никто. ~22 млн. Текст Регрессия, кластеризация, классификация 2016 [10] Группа исследований линз
Yahoo! Музыкальные рейтинги музыкальных исполнителей Более 10 миллионов оценок исполнителей от пользователей Yahoo. Ничего не описано. ~ 10М Текст Кластеризация, регрессия 2004 [11] [12] Yahoo!
Набор данных для оценки автомобиля Свойства автомобилей и их общая приемлемость. Даны шесть категориальных признаков. 1728 Текст Классификация 1997 [13] [14] М. Боханец
Набор данных о предпочтениях YouTube Comedy Slam Данные голосования пользователей за пары видеороликов, показанных на YouTube. Пользователи голосовали за более смешные видео. Метаданные видео предоставлены. 1,138,562 Текст Классификация 2012 [15] [16] Google
Набор данных отзывов пользователей Skytrax Отзывы пользователей об авиакомпаниях, аэропортах, местах и ​​залах ожидания от Skytrax. Рейтинги являются детальными и включают в себя множество аспектов опыта работы в аэропорту. 41396 Текст Классификация, регрессия 2015 [17] К. Нгуен
Набор данных для оценки помощника преподавателя Отзывы помощника преподавателя. Приведены характеристики каждого экземпляра, такие как класс, размер класса и инструктор. 151 Текст Классификация 1997 [18] [19] В. Лох и др.
Корпус отзывов вьетнамских студентов (UIT-VSFC) Отзывы студентов. Комментарии 16,000 Текст Классификация 1997 [20] Нгуен и др.
Вьетнамский корпус эмоций в социальных сетях (UIT-VSMEC) Комментарии пользователей Facebook. Комментарии 6,927 Текст Классификация 1997 [21] Нгуен и др.
Вьетнамский набор данных для обнаружения жалоб в открытом домене (ViOCD) Отзывы клиентов о продукции Комментарии 5,485 Текст Классификация 2021 [22] Нгуен и др.
ViHOS: вьетнамцы выявляют разжигание ненависти Тексты в социальных сетях Комментарии Содержит 26 тысяч промежутков на 11 тысяч комментариев. Текст Обнаружение диапазона 2021 [23] Хоанг и др.

Новостные статьи

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных NYSK Английские новостные статьи о деле, касающемся обвинений в сексуальном насилии против бывшего МВФ директора Доминика Стросс-Кана . Отфильтровано и представлено в формате XML. 10,421 XML, текст Анализ настроений, извлечение тем 2013 [24] Дермуш М. и др.
Корпус Reuters, том 1 Большой корпус Reuters новостей на английском языке. Детальная категоризация и коды тем. 810,000 Текст Классификация, кластеризация, обобщение 2002 [25] Рейтер
Корпус Reuters, том 2 Большой корпус Reuters новостей на нескольких языках. Детальная категоризация и коды тем. 487,000 Текст Классификация, кластеризация, обобщение 2005 [26] Рейтер
Коллекция текстовых исследований Thomson Reuters Большой корпус новостей. Подробности не описаны. 1,800,370 Текст Классификация, кластеризация, обобщение 2009 [27] Т. Роуз и др.
Корпус газет Саудовской Аравии 31 030 статей в арабских газетах. Метаданные извлечены. 31,030 JSON Обобщение, кластеризация 2015 [28] М. Альхагри
RE3D (набор данных для оценки извлечения связей и сущностей) Entity и Relation маркируют данные из различных новостных и правительственных источников. При поддержке Dstl Фильтрация, категоризация с использованием типов уса. не известно JSON Классификация, распознавание сущностей и отношений 2017 [29] Дстл
Examiner Каталог спама-кликбейта Кликбейт, спам, краудсорсинговые заголовки с 2010 по 2015 год. Дата публикации и заголовки 3,089,781 CSV-файл Кластеризация, События, Настроения 2016 [30] Р. Кулкарни
ABC Корпус новостей Australia Весь корпус новостей ABC Australia с 2003 по 2019 год. Дата публикации и заголовки 1,186,018 CSV-файл Кластеризация, События, Настроения 2020 [31] Р. Кулкарни
Мировые новости – совокупность 20 тысяч каналов Снимок всех онлайн-заголовков за неделю на более чем 20 языках. Время публикации, URL и заголовки 1,398,431 CSV-файл Кластеризация, события, определение языка 2018 [32] Р. Кулкарни
Reuters Заголовок новостей 11 лет событий с временными метками, опубликованных в новостной ленте Время публикации, текст заголовка 16,121,310 CSV-файл НЛП, Компьютерная лингвистика, События 2018 [33] Р. Кулкарни
The Irish Times Корпус новостей Ирландии 24 года новостей Ирландии с 1996 по 2019 год Время публикации, категория заголовка и текст 1,484,340 CSV-файл НЛП, Компьютерная лингвистика, События 2020 [34] Р. Кулкарни
Набор данных заголовков новостей для обнаружения сарказма Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей. Чистый, нормализованный текст 26,709 JSON НЛП, Классификация, Лингвистика 2018 [35] Ришаб Мишра

Сообщения

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных электронной почты Enron Электронные письма от сотрудников Enron упорядочены по папкам. Вложения удалены, недействительные адреса электронной почты преобразованы в [email protected] или [email protected] . ~ 500,000 Текст Сетевой анализ , анализ настроений 2004 (2015) [36] [37] Климт Б. и Ю. Ян
Набор данных линг-спама Корпус, содержащий как легальные, так и спам -сообщения. Четыре версии корпуса, определяющие, ли лемматизатор включен или стоп-лист. 2,412 Ему 481 Спам Текст Классификация 2000 [38] [39] Анрутсопулос Дж. и др.
Набор данных для сбора SMS-спама Сбор SMS-спама. Никто. 5,574 Текст Классификация 2011 [40] [41] Т. Алмейда и др.
Набор данных двадцати групп новостей Сообщения из 20 различных групп новостей. Никто. 20,000 Текст Обработка естественного языка 1999 [42] Т. Митчелл и др.
Набор данных базы спама Спам-письма. Извлечено множество текстовых функций. 4,601 Текст Обнаружение спама, классификация 1999 [43] М. Хопкинс и др.

Твиттер и твиты

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
КиноТвиты Набор данных о рейтингах фильмов, основанный на публичных и хорошо структурированных твитах. ~710,000 Текст Классификация, регрессия 2018 [44] С. Думс
Твиттер100 тыс. Пары изображений и твитов 100,000 Текст и изображения Межмедийный поиск 2017 [45] [46] Ю. Ху и др.
Чувство140 Данные твитов за 2009 год, включая исходный текст, отметку времени, пользователя и тональность. Засекречено с использованием дистанционного наблюдения по наличию смайлика в твите. 1,578,627 Твиты, запятая, разделенные значения Анализ настроений 2009 [47] [48] А. Го и др.
Набор данных ASU Twitter Данные сети Twitter, а не реальные твиты. Показывает связи между большим количеством пользователей. Никто. 11 316 811 пользователей, 85 331 846 подключений Текст Кластеризация, графовый анализ 2009 [49] [50] Р. Зафарани и др.
Социальные круги SNAP: база данных Twitter Большие данные сети Twitter. Особенности узлов, круги и эго-сети. 1,768,149 Текст Кластеризация, графовый анализ 2012 [51] [52] Дж. Маколи и др.
Набор данных Twitter для анализа настроений на арабском языке Арабские твиты. Образцы вручную помечаются как положительные или отрицательные. 2000 Текст Классификация 2014 [53] [54] Н. Абдулла
Ажиотаж в наборе данных социальных сетей Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. Данные представлены в виде окна, поэтому пользователь может попытаться предсказать события, которые приведут к ажиотажу в социальных сетях. 140,000 Текст Регрессия, Классификация 2013 [55] [56] Ф. Кавала и др.
Парафраз и семантическое сходство в Твиттере (PIT) Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение/информацию или нет. Маркировка вручную. токенизация, тегирование частей речи и именованных объектов 18,762 Текст Регрессия, Классификация 2015 [57] [58] Сюй и др.
Набор контрольных данных Geoparse Twitter Этот набор данных содержит твиты во время различных новостных мероприятий в разных странах. Упоминания местоположения, помеченные вручную. аннотации местоположения добавлены в метаданные JSON 6,386 Твиты, JSON Классификация, извлечение информации 2014 [59] [60] С.Э. Миддлтон и др.
Сарказм, воспринимаемый и преднамеренный, методом реактивного надзора (SPIRS) Намеренные и воспринимаемые саркастические твиты вместе с их контекстом, собранные с использованием реактивного надзора; равное количество отрицательных (несаркастических) образцов 30,000 Идентификаторы твитов, CSV Классификация 2020 [61] [62] Б. Шмуэли и др.
Голландская коллекция социальных сетей Этот набор данных содержит твиты о COVID-19, написанные носителями голландского языка или пользователями из Нидерландов. Данные были помечены машиной классифицировано по настроению, тексту твита и описанию пользователя, переведенному на английский язык. Упоминания отрасли извлечены 271,342 JSONL Настроения, классификация по нескольким меткам, машинный перевод 2020 [63] [64] [65] Ааакш Гупта, CoronaWhy
Набор данных ReactionGIF Набор данных из 30 тысяч твитов и их реакций в формате GIF. Классифицируется по настроениям, реакциям и эмоциям. 30,000 Идентификаторы твитов, JSONL Классифицируется по настроениям, реакциям и эмоциям. 2021 [66] [67] Б. Шмуэли и др.
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Корпус чата NPS Сообщения из возрастных онлайн-чатов. Конфиденциальность рук замаскирована, отмечена часть речи и диалоговый акт. ~ 500,000 XML НЛП, программирование, лингвистика 2007 [68] Форсайт Э., Лин Дж. и Мартелл К.
Тройной корпус Твиттера Тройки ABA взяты из Twitter. 4,232 Текст НЛП 2016 [69] Сордини А. и др.
Корпус UseNet Сообщения на форуме UseNet. Анонимные электронные письма и URL-адреса. Пропущены документы длиной менее 500 слов или > 500 000 слов или менее 90 % английского языка. 7 миллиардов Текст 2011 [70] Шауль К. и Вестбери К.
SMS-корпус НУС SMS-сообщения, собранные между двумя пользователями, с временным анализом. ~ 10,000 XML НЛП 2011 [71] ГДЕ, М
Reddit Все комментарии Корпус Все комментарии Reddit (по состоянию на 2015 год). ~ 1,7 миллиарда JSON НЛП, исследования 2015 [72] Застрял_В_Матрице
Корпус диалогов Ubuntu Диалоги извлечены из чата Ubuntu в IRC. 930 тысяч диалогов, 7,1 миллиона высказываний CSV-файл Исследование диалоговых систем 2015 [73] Лоу, Р. и др.
Задача отслеживания состояния диалогового окна Задачи отслеживания состояния диалога 2 и 3 (DSTC2 и 3) представляли собой исследовательскую задачу, направленную на улучшение современного состояния систем отслеживания состояния разговорных диалогов. Транскрипция устных диалогов с маркировкой DSTC2 содержит ~3,2 тыс. вызовов – DSTC3 содержит ~2,3 тыс. вызовов Json Отслеживание состояния диалога 2014 [74] Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д.
[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Свободное право Отфильтрованные данные из Court Listener, части проекта FreeLaw. Очищенный и нормализованный текст 4,940,710 Json НЛП, лингвистика 2020 [75] Т. Хоппе
Куча закона Корпус юридических и административных данных Очищено, нормализовано и приватизировано ~50,000,000 Json НЛП, лингвистика, сантименты 2022 [76] [77] Л. Чжэн; Н. Гуха; Б. Андерсон; П. Хендерсон; Д. Хо
Проект доступа к судебным делам Вся официальная, опубликованная в книгах прецедентная практика штата и федерального правительства США — каждый том или дело, обозначенное как официальный отчет о решениях суда на территории Соединенных Штатов. Очищенный и нормализованный текст ~10,000 Json НЛП, лингвистика 2022 [78] А. Айзман; С. Чепмен; Дж. Кушман; К. Дулин; Х. Эйдолон; и др.

Другой текст

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Web of Science Иерархические наборы данных для классификации текста Никто. 46,985 Текст Классификация,

Категоризация

2017 [79] [80] К. Ковсари и др.
Отчеты о судебных делах Дела Федерального суда Австралии с 2006 по 2009 год. Никто. 4,000 Текст Подведение итогов,

анализ цитирования

2012 [81] [82] Ф. Гальгани и др.
Корпус авторства блоггеров Записи в блогах 19 320 человек с сайта blogger.com. Блогер самостоятельно указал пол, возраст, сферу деятельности и астрологический знак. 681,288 Текст Анализ настроений, обобщение, классификация 2006 [83] [84] Дж. Шлер и др.
Социальная структура сетей Facebook Большой набор данных о социальной структуре Facebook. Никто. охвачено 100 колледжей Текст Сетевой анализ, кластеризация 2012 [85] [86] А. Трауд и др.
Набор данных для машинного понимания текста Истории и сопутствующие вопросы для проверки понимания текста. Никто. 660 Текст Обработка естественного языка, машинное понимание 2013 [87] [88] М. Ричардсон и др.
Проект Пенн-Трибанк Естественно встречающийся текст, аннотированный по языковой структуре. Текст разбивается на семантические деревья. ~ 1 млн слов Текст Обработка естественного языка, обобщение 1995 [89] [90] М. Маркус и др.
Набор данных ДЭКСТЕР Задача состоит в том, чтобы по приведенным признакам определить, какие статьи посвящены корпоративным приобретениям. Извлеченные особенности включают основы слов. Включены функции отвлечения. 2600 Текст Классификация 2008 [91] Рейтер
Google Книги N-граммы из очень большого корпуса книг Никто. 2,2 ТБ текста Текст Классификация, кластеризация, регрессия 2011 [92] [93] Google
Тело человека Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. Помимо обычных текстов приводятся синтаксически размеченные тексты. 145 Текст Классификация, регрессия 2008 [94] [95] К. Люйкс и др.
НажмитеShift Архивы сайтов социальных сетей, включая Reddit , Twitter и Hackernews . Текст извлечен и нормализован из WARC ~100 000 000 сообщений Json НЛП, сантименты, лингвистика 2022 [96] [97] Дж. Баумгартнер
Документы SEC ЭДГАР | Документы компании Текст извлечен. csv НЛП
Набор данных CNAE-9 Задача категоризации свободных текстовых описаний бразильских компаний. Частота слов была извлечена. 1080 Текст Классификация 2012 [98] [99] П. Сиарелли и др.
Набор данных предложений с маркировкой настроений 3000 настроений, помеченных предложениями. Настроение каждого предложения было вручную помечено как положительное или отрицательное. 3000 Текст Классификация, анализ настроений 2015 [100] [101] Д. Коциас
Набор данных обратной связи блога Набор данных для прогнозирования количества комментариев, которые получит сообщение, на основе особенностей этого сообщения. Извлечено множество особенностей каждого поста. 60,021 Текст Регрессия 2014 [102] [103] К. Губа
ПабМед Централ PubMed® включает более 35 миллионов ссылок на биомедицинскую литературу из MEDLINE, журналов по наукам о жизни и онлайн-книг. Никто 35 миллионов Текст НЛП
ВПТЗ США Ведомство США по патентам и товарным знакам Текст НЛП
Филпаперс Коллекция публикаций по философии в открытом доступе Текст НЛП
Книжный корпус Популярный крупномасштабный текстовый корпус. Никто Текст НЛП 2015 [104] Чжу, Юкунь и др.
Стэнфордский корпус вывода естественного языка (SNLI) Подписи к изображениям сочетались с вновь построенными предложениями, образуя пары следствий, противоречий или нейтральных пар. Метки классов Entailment, синтаксический анализ с помощью парсера Stanford PCFG. 570,000 Текст Вывод на естественном языке/распознавание текстовых последствий 2015 [105] С. Боуман и др.
Коллекция корпусов DSL (DSLCC) Многоязычный сборник коротких отрывков публицистических текстов на близких языках и диалектах. Никто 294 000 фраз Текст Различение похожих языков 2017 [106] И Лилинг и др.
городского словаря Набор данных Корпус слов, голосов и определений Имена пользователей анонимизированы 2,580,925 CSV-файл НЛП, Машинное понимание 2016 май [107] Анонимный
Т-РЕкс Рефераты Википедии, соответствующие Викиданных объектам Согласование троек Викиданных с рефератами Википедии 11M выровненных троек JSON и NIF [4] НЛП, Извлечение отношений 2018 [108] Х. Эльсахар и др.
Общая оценка понимания языка (GLUE) Тест из девяти задач Различный ~1 млн предложений и пар предложений НЛУ 2018 [109] [110] [111] Ван и др.
Понимание контрактов Набор данных Atticus (CUAD) (ранее известный как Набор данных открытого контракта Atticus (AOK)) Набор данных юридических контрактов с обширными экспертными аннотациями ~13 000 этикеток CSV и PDF Обработка естественного языка, QnA 2021 Проект Аттикус
Набор данных подписей к изображениям на вьетнамском языке (UIT-ViIC) Набор данных для подписей к изображениям на вьетнамском языке 19 250 подписей к 3 850 изображениям CSV и PDF Обработка естественного языка, Компьютерное зрение 2020 [112] Лам и др.
Вьетнамские имена с указанием пола (UIT-ViNames) Вьетнамские имена с указанием пола 26 850 полных имен на вьетнамском языке с указанием пола. CSV-файл Обработка естественного языка 2020 [113] Два и др.
Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке (UIT-ViCTSD) Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке 10 000 комментариев вьетнамских пользователей к интернет-газетам на 10 доменах. CSV-файл Обработка естественного языка 2021 [114] Нгуен и др.
PG-19 Набор книг, извлеченных из книжной библиотеки Project Gutenberg. Текст Обработка естественного языка 2019 Джек В. и др.
Глубокая математика Математические пары вопросов и ответов. Текст Обработка естественного языка 2018 [115] Д. Сакстон и др.
Архив Анны Полный архив опубликованных книг и статей. Никто 100,356,641 Текст, epub, PDF Обработка естественного языка 2024

Звуковые данные

[ редактировать ]

Эти наборы данных состоят из звуков и звуковых характеристик, используемых для таких задач, как распознавание и синтез речи .

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Конкурс речи с нулевыми ресурсами 2015 года Спонтанная речь (английский), Чтение речи (Сицонга). Нет, необработанные файлы WAV. Английский: 5 часов, 12 носителей; Ситсонга: 2 часа 30 минут, 24 динамика WAV (только аудио) Неконтролируемое обнаружение особенностей речи/единиц подслов/единиц слов 2015 [116] [117] Верстиг и др.
Набор речевых данных Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Извлечены особенности голоса, болезнь оценена врачом с использованием единой шкалы оценки болезни Паркинсона . 1,040 Текст Классификация, регрессия 2013 [118] [119] Б.Е. Сакар и др.
Разговорные арабские цифры Разговорные арабские цифры от 44 мужчин и 44 женщин. Временные ряды мел-частотных коэффициентов кепстра. 8,800 Текст Классификация 2010 [120] [121] М. Бедда и др.
Набор данных ISOLET Разговорные названия букв. Особенности, извлеченные из звуков. 7797 Текст Классификация 1994 [122] [123] Р. Коул и др.
Набор данных японских гласных Девять носителей мужского пола последовательно произнесли две японские гласные. Применил к нему 12-градусный анализ линейного прогнозирования, чтобы получить дискретный временной ряд с 12 кепстральными коэффициентами. 640 Текст Классификация 1999 [124] [125] М. Кудо и др.
Набор данных телемониторинга Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Звуковые особенности извлечены. 5875 Текст Классификация 2009 [126] [127] А. Цанас и др.
ТИОН Записи 630 носителей восьми основных диалектов американского английского, каждый из которых читает десять фонетически богатых предложений. Речь лексически и фонематически транскрибируется. 6300 Текст Распознавание речи, классификация. 1986 [128] [129] Дж. Гарофоло и др.
Корпус арабской речи (MSA) для одного говорящего Речевой корпус современного стандартного арабского языка с фонетическими и орфографическими расшифровками, согласованными с уровнем фонем. Речь орфографически и фонетически транскрибируется со знаками ударения. ~1900 Текст, WAV Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. 2016 [130] Н. Халаби
Общий голос Общедоступная база данных краудсорсинговых данных на широком спектре диалектов. Проверка другими пользователями. Английский: 1118 часов MP3 с соответствующими текстовыми файлами Распознавание речи июнь 2017 г. (декабрь 2019 г.) [131] Мозилла
LJРечь Сборник аудиокниг , являющихся общественным достоянием, на английском языке , разделенных на короткие отрывки знаками препинания. Проверка качества, нормализация транскрипции рядом с оригиналом. 13,100 CSV, WAV Синтез речи 2017 [132] Кит Ито, Линда Джонсон
Набор данных арабских речевых команд Собрано от 30 участников и сгруппировано по 40 ключевым словам. Необработанные файлы WAV 12,000 WAV, CSV Распознавание речи, определение ключевых слов 2021 [133] Абдулкадер Гандура
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Географическое происхождение набора музыкальных данных Аудио особенности музыкальных сэмплов из разных мест. Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. 1,059 Текст Географическая классификация, кластеризация 2014 [134] [135] Ф. Чжоу и др.
Набор данных «Миллион песен» Аудио функции из миллиона разных песен. Аудио функции извлечены. Текст Классификация, кластеризация 2011 [136] [137] Т. Бертен-Маье и др.
MUSDB18 Многодорожечные записи популярной музыки Необработанный звук 150 MP4, WAV Разделение источников 2017 [138] З. Рафии и др.
Бесплатный музыкальный архив Аудио под Creative Commons из 100 тысяч песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданными, пользовательскими данными, текстом в произвольной форме. Необработанный звук и аудиофункции. 106,574 Текст, MP3 Классификация, рекомендации 2017 [139] М. Дефферрард и др.
Набор данных хоровой гармонии Баха Хоральные аккорды Баха. Аудио функции извлечены. 5665 Текст Классификация 2014 [140] [141] Д. Радичиони и др.

Другие звуки

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
UrbanSound Маркированные звукозаписи звуков, таких как работа кондиционера, автомобильные гудки и игра детей. Сортировка по папкам по классам событий, а также метаданные в файле JSON и аннотации в файле CSV. 1,059 Звук

( ВАВ )

Классификация 2014 [142] [143] Дж. Саламон и др.
АудиоСет 10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 ярлыков. 128-мерный PCA в стиле VGG воспроизводится каждые 1 секунду. 2,084,320 Текстовые (CSV) и файлы записей TensorFlow. Классификация 2017 [144] Дж. Геммеке и др., Google
Задача обнаружения звука птиц Звук со станций мониторинга окружающей среды, а также краудсорсинговые записи 17,000+ Классификация 2016 (2018) [145] [146] Университет Королевы Марии и Общество обработки сигналов IEEE
Хипстерские эмбиентные смеси WSJ0 Звук с WSJ0, смешанный с шумом, записанный в районе залива Сан-Франциско. Шумовые клипы, соответствующие клипам WSJ0. 28,000 Звук ( WAV ) Разделение источников звука 2019 [147] Вичерн Г. и др., Whisper and MERL.
ткань 4981 аудиосэмпл длиной от 15 до 30 секунд, каждый аудиосэмпл имеет пять разных подписей длиной от 8 до 20 слов. 24,905 Звук ( WAV ) и текст ( CSV ) Автоматизированные аудио субтитры 2020 [148] [149] К. Дроссос, С. Липпинг и Т. Виртанен

Данные сигнала

[ редактировать ]

Наборы данных, содержащие информацию об электрическом сигнале, требующую какой-либо обработки сигнала для дальнейшего анализа.

Электрический

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных остроумного червя Набор данных, подробно описывающий распространение червя Witty и зараженных компьютеров. Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую ​​​​как заголовки IP и UDP. 55 909 IP-адресов Текст Классификация 2004 [150] [151] Центр прикладного анализа интернет-данных
Набор данных для оценки артериального давления без манжеты Очищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. Жизненно важные функции на частоте 125 Гц были очищены. 12,000 Текст Классификация, регрессия 2015 [152] [153] М. Качуи и др.
Набор данных о дрейфе матрицы газовых датчиков Измерения от 16 химических датчиков, используемых в моделировании для компенсации дрейфа. Представлено большое количество функций. 13,910 Текст Классификация 2012 [154] [155] А. Вергара
Набор данных сервопривода Данные, охватывающие нелинейные зависимости, наблюдаемые в схеме сервоусилителя. Приведены уровни различных компонентов в зависимости от других компонентов. 167 Текст Регрессия 1993 [156] [157] К. Ульрих
Набор данных UJIIndoorLoc-Mag База данных внутренней локализации для тестирования систем внутреннего позиционирования. Данные основаны на магнитном поле. Даны разделения на обучение и тестирование. 40,000 Текст Классификация, регрессия, кластеризация 2015 [158] [159] Д. Рамбла и др.
Набор данных диагностики бездатчикового привода Электрические сигналы от двигателей с неисправными компонентами. Извлечены статистические характеристики. 58,508 Текст Классификация 2015 [160] [161] М. Батор

Отслеживание движения

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Носимые компьютеры: Классификация поз и движений тела (PUC-Рио) Люди выполняют пять стандартных действий, используя трекеры движения. Никто. 165,632 Текст Классификация 2013 [162] [163] Папский католический университет Рио-де-Жанейро
Набор данных сегментации фазы жестов Фрагменты, извлеченные из видео людей, делающих различные жесты. Извлеченные особенности направлены на изучение сегментации фаз жестов. 9900 Текст Классификация, кластеризация 2014 [164] [165] Р. Мадео и
Набор данных о физическом воздействии Vicon 10 нормальных и 10 агрессивных физических действий, измеряющих активность человека, отслеживаемых 3D-трекером. Многие параметры фиксируются 3D трекером. 3000 Текст Классификация 2011 [166] [167] Т. Теодоридис
Набор данных о ежедневных и спортивных мероприятиях Данные датчика моторики для 19 ежедневных и спортивных занятий. Имеется множество датчиков, предварительная обработка сигналов не производится. 9120 Текст Классификация 2013 [168] [169] Б. Баршан и др.
Распознавание человеческой деятельности с использованием набора данных смартфонов Данные гироскопа и акселерометра людей, носящих смартфоны и выполняющих обычные действия. Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет шума. 10,299 Текст Классификация 2012 [170] [171] Дж. Рейес-Ортис и др.
Знаки австралийского языка жестов Знаки австралийского языка жестов, снятые с помощью перчаток, отслеживающих движение. Никто. 2565 Текст Классификация 2002 [172] [173] М. Кадус
Упражнения по поднятию тяжестей контролируются с помощью инерционных измерительных приборов Пять вариантов упражнения на сгибание рук на бицепс, контролируемые с помощью IMU. Некоторые статистические данные рассчитаны на основе необработанных данных. 39,242 Текст Классификация 2013 [174] [175] В. Угулино и др.
sEMG для базовых движений рук. Набор данных Две базы данных поверхностных электромиографических сигналов 6 движений руки. Никто. 3000 Текст Классификация 2014 [176] [177] К. Сапсанис и др.
Набор данных распознавания действий REALDISP Оценить методы борьбы с эффектами смещения датчиков при распознавании активности носимых устройств. Никто. 1419 Текст Классификация 2014 [177] [178] О. Банос и др.
Набор данных для распознавания гетерогенной активности Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. Никто. 43,930,257 Текст Классификация, кластеризация 2015 [179] [180] А. Стисен и др.
Прогноз движения пользователей внутри помещений на основе данных RSS Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. Никто. 13,197 Текст Классификация 2016 [181] [182] Д. Баччу
Набор данных мониторинга физической активности PAMAP2 18 различных видов физической активности, выполняемых 9 субъектами, носящими 3 ИДУ. Никто. 3,850,505 Текст Классификация 2012 [183] А. Рейсс
Набор данных для распознавания активности ВОЗМОЖНОСТИ Распознавание человеческой деятельности с помощью носимых датчиков, датчиков предметов и окружающей среды — это набор данных, разработанный для сравнения алгоритмов распознавания человеческой деятельности. Никто. 2551 Текст Классификация 2012 [184] [185] Д. Рогген и др.
Набор данных для распознавания действий в реальном мире Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков. Никто. 3 150 000 (на датчик) Текст Классификация 2016 [186] Т. Штайлер и др.
Набор данных позы после инсульта в Реабилитационном центре Торонто 3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с использованием робота для реабилитации после инсульта. Никто. 10 здоровых и 9 перенесших инсульт (3500–6000 кадров на человека) CSV-файл Классификация 2017 [187] [188] [189] Э. Долатабади и др.
Корпус социальных контактов (CoST) 7805 снимков 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежном, нормальном и грубом, на сетке датчика давления, обернутой вокруг руки манекена. Выполняемые сенсорные жесты сегментируются и помечаются. 7805 захватов жестов CSV-файл Классификация 2016 [190] [191] М. Юнг и др.

Другие сигналы

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных вина Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. Приведены 13 свойств каждого вина. 178 Текст Классификация, регрессия 1991 [192] [193] М. Форина и др.
Набор данных электростанции комбинированного цикла Данные от различных датчиков на электростанции, работающей в течение 6 лет. Никто 9568 Текст Регрессия 2014 [194] [195] П. Туфекчи и др.

Физические данные

[ редактировать ]

Наборы данных из физических систем.

Физика высоких энергий

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных ХИГГС Моделирование столкновений ускорителей частиц методом Монте-Карло. Приведены 28 особенностей каждого столкновения. 11М Текст Классификация 2014 [196] [197] [198] Д. Уайтсон
Набор данных HEPMASS Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель — отделить сигнал от шума. Приведены 28 особенностей каждого столкновения. 10,500,000 Текст Классификация 2016 [197] [198] [199] Д. Уайтсон
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных по гидродинамике яхты Производительность яхты в зависимости от размеров. Для каждой яхты дано шесть характеристик. 308 Текст Регрессия 2013 [200] [201] Р. Лопес
Набор данных о сбоях выполнения робота 5 наборов данных, которые сосредоточены на неспособности роботов выполнять стандартные задачи. Целочисленные функции, такие как крутящий момент и другие измерения датчика. 463 Текст Классификация 1999 [202] Л. Сибра и др.
Набор данных Питтсбургских мостов Описание конструкции дано с точки зрения нескольких свойств различных мостов. Приведены различные характеристики моста. 108 Текст Классификация 1990 [203] [204] Ю. Райх и др.
Набор автомобильных данных Данные об автомобилях, их страховом риске и нормированных убытках. Извлечены характеристики автомобиля. 205 Текст Регрессия 1987 [205] [206] Дж. Шиммер и др.
Набор данных Auto MPG Данные MPG для автомобилей. Приведены восемь особенностей каждого автомобиля. 398 Текст Регрессия 1993 [207] Университет Карнеги-Меллона
Набор данных по энергоэффективности Требования к отоплению и охлаждению указаны в зависимости от параметров здания. Указаны параметры здания. 768 Текст Классификация, регрессия 2012 [208] [209] А. Ксифара и др.
Набор данных собственного шума профиля Серия аэродинамических и акустических испытаний двух и трехмерных секций лопастей аэродинамического профиля. Приводятся данные о частоте, угле атаки и т.д. 1503 Текст Регрессия 2014 [210] Р. Лопес
Набор данных об уплотнительных кольцах космического корабля Challenger USA Попытайтесь спрогнозировать проблемы с уплотнительными кольцами, учитывая прошлые данные Challenger. Приведены некоторые характеристики каждого полета, например, температура запуска. 23 Текст Регрессия 1993 [211] [212] Д. Дрейпер и др.
Набор данных журнала статистики (Шаттл) Наборы данных космического корабля НАСА. Даны девять функций. 58,000 Текст Классификация 2002 [213] НАСА

Астрономия

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы на Венере - набор данных эксперимента JARtool Изображения Венеры, полученные космическим кораблем Магеллан. Изображения маркируются людьми. не дано Изображения Классификация 1991 [214] [215] М. Берл
Набор данных гамма-телескопа MAGIC Монте-Карло генерировал события с гамма-частицами высоких энергий. Многочисленные функции, извлеченные из моделирования. 19,020 Текст Классификация 2007 [215] [216] Р. Бок
Набор данных о солнечных вспышках Измерения количества определенных типов солнечных вспышек, происходящих за 24 часа. Приведены многие особенности солнечных вспышек. 1389 Текст Регрессия, классификация 1989 [217] Дж. Брэдшоу
Многополевой набор данных CAMELS 2D-карты и 3D-сетки на основе тысяч N-тел и современного гидродинамического моделирования, охватывающего широкий диапазон значений космологических и астрофизических параметров. С каждой картой и сеткой связано 6 космологических и астрофизических параметров. 405 000 2D-карт и 405 000 3D-сеток 2D-карты и 3D-сетки Регрессия 2021 [218] Франсиско Вильяескуза-Наварро и др.

Науки о Земле

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы мира Данные об извержениях вулканов для всех известных вулканических событий на Земле. Приводятся такие подробности, как регион, субрегион, тектоническая обстановка, доминирующий тип горных пород. 1535 Текст Регрессия, классификация 2013 [219] Э. Венцке и др.
Набор данных сейсмических ударов Сейсмическая активность на угольной шахте. Сейсмическая активность классифицировалась как опасная или нет. 2584 Текст Классификация 2013 [220] [221] М. Сикора и др.
ВЕРБЛЮДЫ - США Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регрессия 2017 [222] [223] Н. Аддор и др. / А. Ньюман и др.
ВЕРБЛЮДЫ-Чили Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 516 CSV, текст, шейп-файл Регрессия 2018 [224] К. Альварес-Гарретон и др.
ВЕРБЛЮДЫ-Бразилия Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 897 CSV, текст, шейп-файл Регрессия 2020 [225] V. Chagas et al.
ВЕРБЛЮДЫ-ГБ Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регрессия 2020 [226] Г. Коксон и др.
ВЕРблюды-Австралия Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 222 CSV, текст, шейп-файл Регрессия 2021 [227] К. Фаулер и др.
OldH -CE Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 859 CSV, текст, шейп-файл Регрессия 2021 [228] К. Клинглер и др.

Другие физические

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных по прочности бетона на сжатие Набор данных о свойствах бетона и прочности на сжатие. Для каждого образца дано девять признаков. 1030 Текст Регрессия 2007 [229] [230] Я. Да
Набор данных для испытаний на осадку бетона Текучесть осадка бетона, заданная с точки зрения свойств. Приведены характеристики бетона, такие как летучая зола, вода и т. д. 103 Текст Регрессия 2009 [231] [232] Я. Да
Набор данных Маска Предскажите, будет ли молекула, учитывая ее характеристики, мускусной или немускусной. Для каждой молекулы дано 168 признаков. 6598 Текст Классификация 1994 [233] Аррис Фармасьютикал Корп.
Набор данных о повреждениях стальных пластин Стальные пластины 7 разных видов. Для каждого образца дано 27 признаков. 1941 Текст Классификация 2010 [234] Семенионовский научный центр
Наборы данных по монометаллическим наночастицам благородных металлов Особенности переработки и строения монометаллических наночастиц, метки – энергия образования. Для каждого образца дано 85-182 признака. от 425 до 4000 CSV-файл Регрессия 2017–2023 гг. [235] [236] [237] [238] [239] [240] А. Барнард и Г. Оплетал
Наборы данных по биметаллическим наночастицам благородных металлов Особенности переработки и строения биметаллических наночастиц, метки – энергия образования. Для каждого образца дано 922 признака. с 138147 по 162770 CSV-файл Регрессия 2023 [241] [242] [243] [244] [245] [246] [247] [248] [249] [250] [251] [252] Дж. Тинг и др.
Набор данных по триметаллическим наночастицам AuPdPt Технологические и структурные особенности наночастиц AuPdPt, меткой является энергия образования. Для каждого образца дано 1958 характеристик. 48136 CSV-файл Регрессия 2023 [253] К. Лу и др.

Биологические данные

[ редактировать ]

Наборы данных из биологических систем.

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о возрасте Структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей. Общественное достояние. Пятиэтапный метод определения года рождения и смерти, пола и рода занятий на основе данных, предоставленных сообществом во всех языковых версиях проекта Википедии. 1,223,009 Текст Регрессия, Классификация 2022 Бумага [254]

Набор данных [255]

Амораднежад и др.
Синтетический набор данных глазного дна [256] Фотореалистичные изображения сетчатки и сегментация сосудов. Общественное достояние. 2500 изображений размером 1500*1152 пикселей, полезных для сегментации и классификации вен и артерий на одном фоне. 2500 Изображения Классификация, Сегментация 2020 [257] К. Валенти и др.
База данных ЭЭГ Исследование по изучению ЭЭГ-коррелятов генетической предрасположенности к алкоголизму. Измерения с 64 электродов, помещенных на кожу головы, производились при частоте 256 Гц (период 3,9 мс) в течение 1 секунды. 122 Текст Классификация 1999 [258] Х. Компаньон
Набор данных интерфейса P300 Данные девяти субъектов собраны с использованием интерфейса «мозг-компьютер» на базе P300 для людей с ограниченными возможностями. Разделить на четыре занятия по каждому предмету. MATLAB Дан код . 1,224 Текст Классификация 2008 [259] [260] У. Хоффман и др.
Набор данных о сердечных заболеваниях Приписывается больным с сердечно-сосудистыми заболеваниями и без них. Для каждого пациента задано 75 атрибутов с некоторыми пропущенными значениями. 303 Текст Классификация 1988 [261] [262] А. Янози и др.
Набор данных рака молочной железы, Висконсин (диагностика) Набор данных особенностей образований молочной железы. Диагнозы ставит врач. Приведено по 10 признаков для каждого образца. 569 Текст Классификация 1995 [263] [264] В. Вольберг и др.
Национальное исследование по употреблению наркотиков и здоровью Крупномасштабное исследование здоровья и употребления наркотиков в США. Никто. 55,268 Текст Классификация, регрессия 2012 [265] Министерство здравоохранения и социальных служб США
Набор данных рака легких Набор данных о раке легких без определений атрибутов Для каждого случая дано 56 функций 32 Текст Классификация 1992 [266] [267] З. Хонг и др.
Набор данных об аритмии Данные для группы пациентов, из которых у части пациентов имеется сердечная аритмия. 276 функций для каждого экземпляра. 452 Текст Классификация 1998 [268] [269] Х. Алтай и др.
Диабет 130 больниц США за 1999–2008 гг. Набор данных Данные о повторной госпитализации пациентов с диабетом за 9 лет в 130 больницах США. Приведены многие особенности каждой реадмиссии. 100,000 Текст Классификация, кластеризация 2014 [270] [271] Дж. Клор и др.
Набор данных о диабетической ретинопатии в Дебрецене Особенности, извлеченные из изображений глаз с диабетической ретинопатией и без нее. Извлечены особенности и диагностированы состояния. 1151 Текст Классификация 2014 [272] [273] Б. Антал и др.
Набор данных Мессидора о диабетической ретинопатии Методы оценки методов сегментации и индексации в области офтальмологии сетчатки (MESSIDOR) Особенности степени ретинопатии и риска макулярного отека 1200 Изображения, Текст Классификация, Сегментация 2008 [274] [275] Проект Мессидор
Набор данных о заболеваниях печени Данные для людей с заболеваниями печени. Семь биологических особенностей приведены для каждого пациента. 345 Текст Классификация 1990 [276] [277] Бупа Медицинские Исследования Лтд.
Набор данных о заболеваниях щитовидной железы 10 баз данных данных пациентов с заболеваниями щитовидной железы. Никто. 7200 Текст Классификация 1987 [278] [279] Р. Куинлан
Набор данных мезотелиомы Данные пациентов с мезотелиомой. Приведено большое количество особенностей, в том числе воздействие асбеста. 324 Текст Классификация 2016 [280] [281] А. Танрикулу и др.
Набор данных для оценки позы Паркинсона на основе зрения 2D-оценка человеческой позы пациентов с болезнью Паркинсона, выполняющих различные задачи. На траекториях убрано дрожание камеры. 134 Текст Классификация, регрессия 2017 [282] [283] [284] М. Ли и др.
Набор данных сети метаболических реакций KEGG (ненаправленный) Сеть метаболических путей. реакционная сеть и сеть отношений Даны . Приведены подробные характеристики каждого сетевого узла и пути. 65,554 Текст Классификация, кластеризация, регрессия 2011 [285] М. Наим и др.
Модифицированный набор данных анализа морфологии спермы человека (MHSMA) Изображения спермы человека от 235 пациентов с мужским фактором бесплодия, с маркировкой нормальных или аномальных акросом, головки, вакуоли и хвоста сперматозоида. Обрезано вокруг одиночной головки сперматозоида. Увеличение нормализовалось. Созданы разделения обучающего, валидационного и тестового наборов. 1,540 .npy-файлы Классификация 2019 [286] [287] С. Джавади и С. А. Миррошандель

Животное

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных морского ушка Физические измерения морского ушка. Также указаны погодные условия и местоположение. Никто. 4177 Текст Регрессия 1995 [288] Лаборатории морских исследований - Таруна
Набор данных зоопарка Набор искусственных данных, охватывающий 7 классов животных. Животные разделены на 7 категорий и для каждой указаны особенности. 101 Текст Классификация 1990 [289] Р. Форсайт
Набор данных демоспонгий Данные о морских губках. 503 губки класса Demosponge характеризуются различными признаками. 503 Текст Классификация 2010 [290] Э. Арменгол и др.
Данные о сельскохозяйственных животных Инвентаризация данных PLF (коровы, свиньи; местоположение, ускорение и т. д.). Маркированные наборы данных. Список постоянно обновляется Текст Классификация 2020 [291] В. Блох
Набор данных последовательностей генов сплайс-соединения Последовательности генов сплайсинга (ДНК) приматов и связанная с ними теория несовершенных доменов. Никто. 3190 Текст Классификация 1992 [267] Г. Тоуэлл и др.
Набор данных по экспрессии белков мышей Уровни экспрессии 77 белков измерены в коре головного мозга мышей. Никто. 1080 Текст Классификация, кластеризация 2015 [292] [293] К. Хигера и др.
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных грибов UCI Признаки и классификация грибов. Приведены многие свойства каждого гриба. 8124 Текст Классификация 1987 [294] Дж. Хуже
Вторичный набор данных о грибах Атрибуты и классификация грибов Смоделированные данные из более крупных и реалистичных первичных записей о грибах. Полностью воспроизводимый. 61069 Текст Классификация 2020 [295] [296] Д. Вагнер и др.

Растение

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о лесных пожарах Лесные пожары и их свойства. Выделено 13 особенностей каждого пожара. 517 Текст Регрессия 2008 [297] [298] П. Кортес и др.
Набор данных Ирис Три типа ирисов описываются четырьмя разными признаками. Никто. 150 Текст Классификация 1936 [299] [300] Р. Фишер
Набор данных о листьях видов растений Шестнадцать образцов листьев каждого из ста видов растений. Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстур. 1600 Текст Классификация 2012 [301] [302] Дж. Коуп и др.
Набор данных по сое База данных больных растений сои. Даны 35 признаков для каждого растения. Растения разделены на 19 категорий. 307 Текст Классификация 1988 [303] Р. Михальски и др.
Набор данных семян Измерения геометрических свойств зерен трех разных сортов пшеницы. Никто. 210 Текст Классификация, кластеризация 2012 [304] [305] Чаританович и др.
Набор данных типа обложки Данные для прогнозирования типа лесного покрова строго на основе картографических переменных. Даны многие географические объекты. 581,012 Текст Классификация 1998 [306] [307] Дж. Блэкард и др.
Набор данных сети передачи сигналов абсцизовой кислоты Данные для сети сигнализации предприятия. Цель состоит в том, чтобы определить набор правил, которые управляют сетью. Никто. 300 Текст Причинно-следственное открытие 2008 [308] Дж. Дженкенс и др.
Набор данных фолио По 20 фотографий листьев каждого из 32 видов. Никто. 637 Изображения, текст Классификация, кластеризация 2015 [309] [310] Т. Мунисами и др.
Оксфордский набор цветочных данных Набор данных из 17 категорий цветов. Разделение поездов/тестов, маркированные изображения, 1360 Изображения, текст Классификация 2006 [311] [312] М. Е. Нильсбек и др.
Набор данных о саженцах растений Набор данных из 12 категорий саженцев растений. Маркированные изображения, сегментированные изображения, 5544 Изображения Классификация, обнаружение 2017 [313] Гизельссон и др.
Фрукты-360 База данных с изображениями 131 фрукта и овоща. 100x100 пикселей, белый фон. 90483 Изображения (jpg) Классификация 2017–2024 [314] Михай Олтян
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Эколи Сайты локализации белков. Приведены различные особенности мест локализации белков. 336 Текст Классификация 1996 [315] [316] К. Накаи и др.
Набор данных MicroMass Идентификация микроорганизмов по данным масс-спектрометрии. Различные функции масс-спектрометра. 931 Текст Классификация 2013 [317] [318] П. Маэ и др.
Набор данных о дрожжах Прогнозы мест клеточной локализации белков. Восемь функций даны для каждого экземпляра. 1484 Текст Классификация 1996 [319] [320] К. Накаи и др.

Открытие лекарств

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Tox21 Прогнозирование результатов биологических анализов. Даны химические дескрипторы молекул. 12707 Текст Классификация 2016 [321] А. Майр и др.

Данные об аномалиях

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Тест нумента-аномалий (NAB) Данные представляют собой упорядоченные однозначные метрики с отметкой времени. Все файлы данных содержат аномалии, если не указано иное. Никто 50+ файлов CSV-файл Обнаружение аномалий 2016 (постоянно обновляется) [322] Имя
Сколтехский тест аномалий (SKAB) Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. Существует две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменений (коллективные аномалии). 30+ файлов (v0.9) CSV-файл Обнаружение аномалий 2020 (постоянно обновляется)

[323] [324]

Кацер Юрий Дмитриевич и Козицын Вячеслав Олегович
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование Большинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые взяты из литературы. обрабатывается на предмет пропущенных значений, только числовые атрибуты, различный процент аномалий, метки 1000+ файлов АРФФ Обнаружение аномалий 2016 г. (возможно, дополнено новыми наборами данных и/или результатами)

[325]

Кампос и др.

Данные для ответов на вопросы

[ редактировать ]

В этот раздел включены наборы данных, посвященные структурированным данным.

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных нейронных ответов на вопросы DBpedia (DBNQA) Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронной сети открытого домена в базе знаний DBpedia. Этот набор данных содержит большую коллекцию шаблонов Open Neural SPARQL и экземпляров для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотирования, а также тремя экспертами SPARQL. 894,499 Пары вопрос-запрос Вопрос Ответ 2018 [326] [327] Хартманн, Сору и Маркс и др.
Набор данных для ответов на вьетнамские вопросы (UIT-ViQuAD) Большая коллекция вопросов на вьетнамском языке для оценки моделей MRC. Этот набор данных включает более 23 000 пар вопросов и ответов, созданных человеком, на основе 5 109 отрывков из 174 вьетнамских статей из Википедии. 23,074 Пары вопрос-ответ Вопрос Ответ 2020 [328] Нгуен и др.
Вьетнамский корпус машинного чтения с множественным выбором (ViMMRC) Сборник вопросов с несколькими вариантами ответов на вьетнамском языке для оценки моделей MRC. Этот корпус включает 2783 вопроса на вьетнамском языке с несколькими вариантами ответов. 2,783 Пары вопрос-ответ Ответы на вопросы/понимание машинного чтения 2020 [329] Нгуен и др.
Ответы на открытые вопросы становятся диалоговыми благодаря переписыванию вопросов Сквозной ответ на открытый вопрос. Этот набор данных включает 14 000 разговоров с 81 000 парами вопросов и ответов. Контекст, Вопрос, Переписать, Ответ, URL_ответа, Номер_разговора, Номер_поворота, Источник_разговора

Более подробная информация представлена ​​в репозитории проекта на GitHub и в соответствующей карточке набора данных Hugging Face .

Вопрос Ответ 2021 [330] Ананта и Вакуленко и др.
Унифицированный контроль качества Данные вопросов-ответов Обработанный набор данных Вопрос Ответ 2020 [331] Хашаби и др.

Данные диалога или инструкции

[ редактировать ]

В этом разделе представлены наборы данных, которые...

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Надсмотрщик «Корпус Taskmaster состоит из ТРЕХ наборов данных: Taskmaster-1 (TM-1), Taskmaster-2 (TM-2) и Taskmaster-3 (TM-3), включающих более 55 000 устных и письменных диалогов, ориентированных на задачи, в более чем дюжину доменов». [332] Надсмотрщик-1: целенаправленный разговорный набор данных. Он включает в себя 13 215 диалогов на основе задач, состоящих из шести доменов.

Taskmaster-2: 17 289 диалогов в семи доменах (рестораны, заказ еды, кино, отели, авиабилеты, музыка и спорт).

Надсмотрщик-3: 23 757 диалогов с билетами в кино.

Надсмотрщик-1 и Надсмотрщик-2: идентификатор разговора, высказывания, идентификатор инструкции

Надсмотрщик-3: идентификатор разговора, высказывания, вертикаль, сценарий, инструкции.

Для получения более подробной информации проверьте репозиторий проекта на GitHub или карточки набора данных Hugging Face ( Taskmaster-1 , Taskmaster-2 , Taskmaster-3 ).

Диалоговое окно/инструкция 2019 [333] Бирн и Кришнамурти и др.
DrRepair Размеченный набор данных для программного восстановления. Предварительно обработанные данные Подробные сведения о формате см. на листе проекта . Диалоговое окно/инструкция 2020 [334] Мичихиро и др.
Естественные инструкции v2 Большой набор данных, охватывающий более широкий спектр способностей к рассуждению. Каждая задача состоит из ввода/вывода и определения задачи.

Кроме того, каждый запрос содержит определение задачи.

Дополнительная информация представлена ​​в GitHub репозитории проекта на и на карточке данных Hugging Face .

Ввод/вывод и определение задачи 2022 [335] Ван и др.
ЛАМБАДА «ЛАМБАДА — это совокупность повествовательных отрывков, обладающая тем свойством, что испытуемые-люди способны угадать свое последнее слово, если они прочитают весь отрывок, а не если они увидят только последнее предложение, предшествующее целевому слову». [336] Информация о формате этого набора данных доступна в карточке набора данных HuggingFace и на сайте проекта .

Набор данных можно скачать здесь , а отклоненные данные — здесь .

2016 [337] Паперно и др.
ФЛАН Повторно обработанная версия набора данных FLAN с обновлениями с момента выпуска исходного набора данных FLAN доступна в Hugging Face :
  1. данные испытаний
  2. данные поезда
  3. данные проверки

Скрипты для обработки данных доступны в репозитории GitHub, упомянутом в документе: https://github.com/google-research/FLAN/tree/main/flan .

еще один репозиторий FLAN на GitHub Также был создан . Это та карта, которая связана с карточкой набора данных в Hugging Face.

2021 [338] Вэй и др.

Кибербезопасность

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
МИТРА АТАКА ATT&CK — это глобально доступная база знаний о тактике и методах противника. Данные можно загрузить из двух репозиториев GitHub: версии 2.1 и версии 2.0. [339] МИТРА АТАКА
ЦАТЭК Перечень и классификация распространенных шаблонов атак Данные можно скачать с сайта CAPEC :

Механизмы атаки Области атаки

[340] ЦАТЭК
CVE CVE — это список публично раскрытых уязвимостей кибербезопасности, который можно бесплатно искать, использовать и включать в продукты и услуги. Данные можно скачать с: Allitems [341] CVE
КВЕ Данные перечисления общих слабостей. Данные можно скачать с:

Разработка программного обеспечения Проектирование оборудования [ постоянная мертвая ссылка ] Концепции исследования

[342] КВЕ
MalwareTextDB Аннотированная база данных текстов вредоносного ПО. Репозиторий проекта на GitHub содержит данные для загрузки. [343] Киат и др.
Материалы симпозиума USENIX по безопасности Сборник материалов по безопасности симпозиума USENIX по безопасности - технических сессий с 1995 по 2022 год. Эти данные не подвергаются предварительной обработке. 1995 , 1996 , 1997 , 1998 , 1999 , 2000 , 2001 , 2002 , 2003 , 2004 , 2005 , 2006 , 2007 , 2008 ,

2009 , 2010 2011 , 2012 , 2013 , 2014 , 2015 , 2016 , 2017 , 2018 , 2019 , 2020 , 2021 , 2022 .

[344] Симпозиум USENIX по безопасности
APTПримечания Сборник общедоступных документов, технических документов и статей о кампаниях APT. Все документы являются общедоступными данными. Эти данные не подвергаются предварительной обработке. В GitHub репозитории проекта на есть файл со ссылками на данные, хранящиеся в box.

Файлы данных также можно скачать здесь .

[345] Примечания к APT
Документы по криптографии и безопасности arXiv Сборник статей о кибербезопасности Эти данные не подвергаются предварительной обработке. Все статьи доступны здесь . [346] arXiv
Электронные книги по безопасности бесплатно Небольшая коллекция электронных книг по безопасности и общедоступных презентаций по безопасности. Эти данные не подвергаются предварительной обработке. [347] [348] [349] [350] [351] [352] [353] [354] [355] [356] [357] [358]
Репозиторий национальной стратегии кибербезопасности Репозиторий всемирных стратегических документов по кибербезопасности. Эти данные не подвергаются предварительной обработке. [359]
Кибербезопасность Обработка естественного языка Данные о стратегиях кибербезопасности из более чем 75 стран. Токенизация, удаление бессмысленно-частых слов. [360] Яньлинь Чен, Юньцзянь Вэй, Ифань Юй, Вэнь Сюэ, Сянья Цинь
Коллекция отчетов APT Образцы отчетов APT, вредоносных программ, технологий и сбора разведывательной информации Доступны необработанные и токенизированные данные. Все данные доступны в этом репозитории GitHub . [ нужна ссылка ] черная птица
Набор данных для идентификации оскорбительного языка (OLID) Данные доступны на сайте проекта .

Данные также доступны здесь .

[361] Зампьери и др.
Киберотчеты Национального центра кибербезопасности Эти данные не подвергаются предварительной обработке. Отчеты об угрозах , отчеты и рекомендации , новости , сообщения в блогах , выступления .

Альтернативный список отчетов .

[362]
APT-отчеты Касперского Эти данные не подвергаются предварительной обработке. [363]
Киберпровод Эти данные не подвергаются предварительной обработке. Информационные бюллетени , подкасты и истории . [364]
Новости об утечках данных Эти данные не подвергаются предварительной обработке. Новости , список новостей с августа 2022 по февраль 2023 года. [365]
Киберньюс Эти данные не подвергаются предварительной обработке. Новости , кураторский список новостей [366]
Мигающийкомпьютер Эти данные не подвергаются предварительной обработке. Новости [367]
запись Эти данные не подвергаются предварительной обработке. Новости киберпреступности [368]
Взломать Эти данные не подвергаются предварительной обработке. Новости взлома [369]
Список безопасности Эти данные не подвергаются предварительной обработке. Отчеты APT , архив , отчеты о DDOS , инциденты , бюллетень безопасности Касперского , промышленные угрозы , отчеты о вредоносных программах , мнения , публикации , исследования и SAS . [370]
Лепной проект Проект Stucco собирает данные, которые обычно не интегрируются в системы безопасности. Эти данные не подвергаются предварительной обработке Веб-сайт проекта с информацией о данных. Проверенный источник со ссылками на источники данных. [371]
Фарсайтбезопасность Веб-сайт с технической информацией, отчетами и многим другим по темам безопасности. Эти данные не подвергаются предварительной обработке Техническая информация , исследования , отчеты . [372]
Шнайер Веб-сайт с научными статьями по темам безопасности. Эти данные не подвергаются предварительной обработке Статьи по категориям , архив статей по дате . [373]
Трендмикро Веб-сайт с исследованиями, новостями и взглядами на темы безопасности. Эти данные не подвергаются предварительной обработке Обзорный список исследований, новостей и перспектив Trendmicro . [374]
Хакерские новости Новости на тему кибербезопасности. Эти данные не подвергаются предварительной обработке утечки данных , кибератаки , уязвимости , новости о вредоносном ПО . [375]
Кребсонбезопасность Новости безопасности и расследования Эти данные не подвергаются предварительной обработке тщательно подобранный список новостей [376]
Митра Защитить Матрица защитных артефактов JSON-файлы [377]
Митра Атлас Mitre Atlas — это база знаний о тактиках, методах противодействия и тематических исследованиях для систем машинного обучения (ML), основанная на реальных наблюдениях. Эти данные не подвергаются предварительной обработке [378]
Митра Энгейдж MITRE Engage — это платформа для планирования и обсуждения операций по взаимодействию с противниками, которая позволяет вам взаимодействовать с противниками и достигать своих целей в области кибербезопасности. Эти данные не подвергаются предварительной обработке [379]
Учебники по взлому Эти данные не подвергаются предварительной обработке [380]

Климат и устойчивость

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Отчеты TCFD База данных отчетов компаний, включающих раскрытие информации, связанной с TCFD. Эти данные не подвергаются предварительной обработке Прямая ссылка на отчеты Кураторский список отчетов [381] Центр знаний TCFD
Отчеты о корпоративной социальной ответственности Список отчетов об ответственности в Интернете. Эти данные не подвергаются предварительной обработке Кураторский список отчетов [382] ОтветственностьОтчеты
Межправительственная группа экспертов по изменению климата (МГЭИК) Сборник комплексных отчетов об оценке знаний об изменении климата, его причинах, потенциальных последствиях и вариантах реагирования. Эти данные не подвергаются предварительной обработке Отчеты Кураторский список отчетов [383] МГЭИК
Альянс исследований корпоративной устойчивости Эти данные не подвергаются предварительной обработке Кураторский список сообщений в блоге [384] АРКС
Корпус ESG: Центр знаний по учету устойчивого развития Эти данные не подвергаются предварительной обработке Руководства , тематические исследования , блоги , отчеты и опросы . [385] Мехра и др.
КЛИМАТ-ЛИХОРАДКА Набор данных, основанный на методологии FEVER, состоящий из 1535 реальных утверждений об изменении климата, собранных в Интернете. Каждое утверждение сопровождается пятью аннотированными вручную предложениями-доказательствами, полученными из английской Википедии, которые подтверждают, опровергают или не дают достаточно информации для подтверждения утверждения, в общей сложности состоящего из 7675 пар утверждение-доказательство. [386] Карта набора данных HF проекта на , и репозиторий GitHub . [387] Диггельманн и др.
Набор данных «Климатические новости» Набор данных для исследователей НЛП и СМИ, посвященных изменению климата. Набор данных состоит из ряда артефактов данных (текстовые файлы JSON, JSONL и CSV и база данных SQLite). База данных климатических новостей проекта на GitHub , репозиторий [388] ADGEэффективность
Климаттекст Climatext — это набор данных для определения тем, связанных с изменением климата, на основе предложений. набор ВЧ-данных [389] Университет Цюриха
ГринБиз Сборник статей и новостей о климате и устойчивом развитии Эти данные не подвергаются предварительной обработке Кураторский список статей о климате Кураторский список статей об устойчивом развитии [390]
Лучшие препринты исследований в области климата и устойчивого развития Список препринтов исследователей в горячем списке Reuters Эти данные не подвергаются предварительной обработке Кураторский список препринтов [391] Морис Тамман
АРКС Эти данные не подвергаются предварительной обработке Кураторский список блогов о корпоративном устойчивом развитии [392]
ГринБиз Веб-сайт со статьями о климате и устойчивом развитии Эти данные не подвергаются предварительной обработке [393] ГринБиз
CSRWIRE Эти данные не подвергаются предварительной обработке Кураторский список статей [394] CSRWIRE
CDP Статьи о климате , воде и лесах Эти данные не подвергаются предварительной обработке [395] CDP

Данные кода

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Стек Набор данных объемом 3,1 ТБ, состоящий из лицензированного исходного кода на 30 языках программирования. Фильтруется посредством обнаружения лицензий и дедупликации. 6 ТБ, 51,76 МБ файлов (до дедупликации); 3 ТБ, файлы 5,28Б (после). 358 языков программирования. Паркет Языковое моделирование, автодополнение, синтез программ. 2022 [396] [397] Д. Кочетков, Р. Ли, Л. Бен Аллаль, Л. фон Верра, Х. де Врис
Репозитории GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub : 61 62 , 63 64 , 68 , 69 , 70 , 71 , , 72 , , 65 66, 67 , , 73 , 74 , 75, 76 , 77 101.
Публичные репозитории IBM на GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub.
Публичные репозитории RedHat на GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub.
Файлы Public Archive.org StackExchange Эти данные не подвергаются предварительной обработке Кураторский список файлов с Archive.org.
Публичные репозитории Gitlab Эти данные не подвергаются предварительной обработке Кураторский список репозиториев Gitlab : 1 2
Публичные репозитории Ansible Collections Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub .
Набор данных кода CodeParrot GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев Hugging Face : 1 2 3 4 5 6 7 8 9 10
ОКД Распространение Kubernetes от сообщества, лежащее в основе Red Hat OpenShift Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Опеншифт Дистрибутив Kubernetes, удобный для разработчиков и эксплуатации. Список репозиториев проекта на GitHub
Кубернетес Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Разработчик Red Hat GitHub — главная страница программы Red Hat Developer. Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная шляпа

Мастер-классы

Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes SIG Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Конвейер Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Торговая площадка RedHat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Блог Redhat Эти данные не подвергаются предварительной обработке [398]
Кубернетес ио Эти данные не подвергаются предварительной обработке [399]
Документы Эти данные не подвергаются предварительной обработке [400]
cncf я Эти данные не подвергаются предварительной обработке [401]
Презентации Кубернетеса Список общедоступных презентаций Kubernetes Эти данные не подвергаются предварительной обработке канал передачи данных
Лаборатории открытых инноваций Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Демонстрации Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Red Hat OpenShift онлайн Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Коллекции программного обеспечения Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная шляпа Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Правительство Красной Шляпы Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Ред Хэт Консалтинг Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Сообщества практиков Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Партнер Red Hat Tech Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Документация Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
ИБМ Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
IBM Облако Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Команда создания лаборатории Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Терраформировать IBM-модули Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Облачные схемы Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Демонстрации мощности OCP Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Модернизация приложений IBM  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes OperationHub  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Фонд облачных вычислений (CNCF)  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Структура оператора Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub [402]
Репозитории GitHub, на которые есть ссылки в Artehub.io. Эти данные не подвергаются предварительной обработке Список репозиториев GitHub в Artehub.io
Сообщества практиков Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Партнер Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Репозитории IBM Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Команда создания лаборатории Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Структура оператора Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Репозитории GitHub Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная шляпа Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Шаблоны Кубернетеса Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Шаблоны развертывания и безопасности Kubernetes Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes для Full-Stack разработчиков Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Метрики балансировщика нагрузки Cloudwatch Эти данные не подвергаются предварительной обработке GitHub репозиторий проекта
Дайнатрейс Эти данные не подвергаются предварительной обработке [5]
Данные AIOps Challenge 2020 Эти данные не подвергаются предварительной обработке GitHub репозиторий проекта
Логхаб Эти данные не подвергаются предварительной обработке Список репозиториев
HTML-страницы Эти данные не подвергаются предварительной обработке Список HTML-страниц
Электронные книги Opensift Эти данные не подвергаются предварительной обработке [403]
Электронные книги по Кубернетесу Эти данные не подвергаются предварительной обработке Шаблоны Kubernetes , Развертывание Kubernetes , Kubernetes для разработчиков полного стека
Kubernetes для Full-Stack разработчиков Эти данные не подвергаются предварительной обработке Kubernetes для Full-Stack разработчиков
Список публичных и лицензированных репозиториев Github Эти данные не подвергаются предварительной обработке Список репозиториев

Многомерные данные

[ редактировать ]

Финансовый

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Индекс Доу-Джонса Еженедельные данные по акциям за первый и второй кварталы 2011 года. В расчет включены такие значения, как процентное изменение и лаги. 750 Значения, разделенные запятыми Классификация, регрессия, временные ряды 2014 [404] [405] М. Браун и др.
Statlog (австралийское одобрение кредита) Заявки на получение кредитной карты принимаются или отклоняются, а также сведения о заявке. Имена атрибутов удаляются, а также идентифицирующая информация. Факторы были переименованы. 690 Значения, разделенные запятыми Классификация 1987 [406] [407] Р. Куинлан
данные аукциона eBay Данные аукционов различных объектов eBay.com по аукционам различной продолжительности. Содержит все ставки, идентификатор участника торгов, время ставок и цены открытия. ~ 550 Текст Регрессия, классификация 2012 [408] [409] Г. Шмуэли и др.
Статлог (кредитные данные Германии) Классификация двоичных кредитов на «хорошие» и «плохие» со многими особенностями. Приведены различные финансовые особенности каждого человека. 690 Текст Классификация 1994 [410] Х. Хофманн
Набор данных банковского маркетинга Данные крупной маркетинговой кампании, проведенной крупным банком. Приводятся многие характеристики клиентов, с которыми связались. Также указывается, если клиент подписался на банк. 45,211 Текст Классификация 2012 [411] [412] С. Моро и др.
Набор данных Стамбульской фондовой биржи Несколько фондовых индексов отслеживались в течение почти двух лет. Никто. 536 Текст Классификация, регрессия 2013 [413] [414] О. Акбилгич
Дефолт клиентов по кредитным картам Данные о кредитном дефолте для тайваньских кредиторов. Приводятся различные особенности каждой учетной записи. 30,000 Текст Классификация 2016 [415] [416] Я. Да
Стокнет Прогноз движения акций на основе твитов и исторических цен на акции Никто Текст НЛП 2018 [417] Юмо Сюй и Шей Б. Коэн
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Облачный набор данных Данные о 1024 различных облаках. Извлечены особенности изображения. 1024 Текст Классификация, кластеризация 1989 [418] П. Коллард
Набор данных Эль-Ниньо Океанографические и приземные метеорологические данные, полученные с ряда буев, расположенных по всей экваториальной части Тихого океана. На каждом буе измеряются 12 погодных атрибутов. 178080 Текст Регрессия 1999 [419] Тихоокеанская лаборатория морской окружающей среды
Набор данных сети наблюдений за парниковыми газами Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. Никто. 2921 Текст Регрессия 2015 [420] Д. Лукас
Атмосферный CO 2 из непрерывных проб воздуха в обсерватории Мауна-Лоа Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. Никто. 44 года Текст Регрессия 2001 [421] Обсерватория горы Лоа
Набор данных ионосферы Радиолокационные данные из ионосферы. Задача состоит в том, чтобы классифицировать радиолокационные сигналы на хорошие и плохие. Приведены многие функции радара. 351 Текст Классификация 1989 [279] [422] Университет Джонса Хопкинса
Набор данных для определения уровня озона Два набора данных об уровне приземного озона. Приведено множество характеристик, включая погодные условия во время измерения. 2536 Текст Классификация 2008 [423] [424] К. Чжан и др.

Перепись

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных для взрослых Данные переписи населения 1994 года, содержащие демографические характеристики взрослого населения и их доходы. Очищено и анонимизировано. 48,842 Значения, разделенные запятыми Классификация 1996 [425] Бюро переписи населения США
Переписной доход (KDD) Взвешенные данные переписи населения, полученные в ходе текущих обследований населения 1994 и 1995 годов . Разделить на обучающие и тестовые наборы. 299,285 Значения, разделенные запятыми Классификация 2000 [426] [427] Бюро переписи населения США
База данных переписи населения IPUMS Данные переписи населения в районах Лос-Анджелеса и Лонг-Бич. Никто 256,932 Текст Классификация, регрессия 1999 [428] ИПУМС
Данные переписи населения США 1990 г. Частичные данные переписи населения США 1990 года. Результаты рандомизированы и выбраны полезные атрибуты. 2,458,285 Текст Классификация, регрессия 1990 [429] Бюро переписи населения США
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Bike Sharing DatasetHourly and daily count of rental bikes in a large city.Many features, including weather, length of trip, etc., are given.17,389TextRegression2013[430][431]H. Fanaee-T
New York City Taxi Trip DataTrip data for yellow and green taxis in New York City.Gives pick up and drop off locations, fares, and other details of trips.6 yearsTextClassification, clustering2015[432]New York City Taxi and Limousine Commission
Taxi Service Trajectory ECML PKDDTrajectories of all taxis in a large city.Many features given, including start and stop points.1,710,671TextClustering, causal-discovery2015[433][434]M. Ferreira et al.
METR-LASpeed from loop detectors in the highway of Los Angeles County.Average speed in 5 minutes timesteps.7,094,304 from 207 sensors and 34,272 timestepsComma separated valuesRegression, Forecasting2014[435]Jagadish et al.
PeMSSpeed, flow, occupancy and other metrics from loop detectors and other sensors in the freeway of the State of California, U.S.A..Metric usually aggregated via Average into 5 minutes timesteps.39,000 individual detectors, each containing years of timeseriesComma separated valuesRegression, Forecasting, Nowcasting, Interpolation(updated realtime)[436]California Department of Transportation

Internet

[edit]
Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Webpages from Common Crawl 2012Large collection of webpages and how they are connected via hyperlinksNone.3.5BTextclustering, classification2013[437]V. Granville
Internet Advertisements DatasetDataset for predicting if a given image is an advertisement or not.Features encode geometry of ads and phrases occurring in the URL.3279TextClassification1998[438][439]N. Kushmerick
Internet Usage DatasetGeneral demographics of internet users.None.10,104TextClassification, clustering1999[440]D. Cook
URL Dataset120 days of URL data from a large conference.Many features of each URL are given.2,396,130TextClassification2009[441][442]J. Ma
Phishing Websites DatasetDataset of phishing websites.Many features of each site are given.2456TextClassification2015[443]R. Mustafa et al.
Online Retail DatasetOnline transactions for a UK online retailer.Details of each transaction given.541,909TextClassification, clustering2015[444]D. Chen
Freebase Simple Topic DumpFreebase is an online effort to structure all human knowledge.Topics from Freebase have been extracted.largeTextClassification, clustering2011[445][446]Freebase
Farm Ads DatasetThe text of farm ads from websites. Binary approval or disapproval by content owners is given.SVMlight sparse vectors of text words in ads calculated.4143TextClassification2011[447][448]C. Masterharm et al.
The PileAssembling several large datasets of diverse and unstructured textsVarious (removing HTML and Javascript from websites, removing duplicated sentences)825 GiB English textJSON Lines[449][450]Natural Language Processing, Text Prediction2021[451][449]Gao et al.
OSCARLarge collection of monolingual corpora extracted from web data (Common Crawl dumps) covering 150+ languagesVarious (filtering, language classification, adult-content detection and other labelling)3.4 TB English text, 1.4 TB Chinese text, 1.1 TB Russian text, 595 MB German text, 431 MB French text, and data for 150+ languages (figures for version 23.01)JSON Lines[452]Natural Language Processing, Text Prediction2021[453][454]Ortiz Suarez, Abadji, Sagot et al.
OpenWebTextAn open-source recreation of the WebText corpus. The text is web content extracted from URLs shared on Reddit with at least three upvotes.Extracted non-HTML content, deduplicated, and tokenized.8,013,769 Documents, 38GBTextNatural Language Processing, Text Prediction2019[455][456]A. Gokaslan, V. Cohen
ROOTSA well-documented and representative multilingual dataset with the explicit goal of doing good for and by the people whose data was collected.Extracted non-HTML content, cleaned out UI and ads, deduplicated, removed PII, and tokenized.1.6 TB, 59 languages.ParquetNatural Language Processing, Text Prediction2022[457][458]H. Laurençon, L. Saulnier, T. Wang, C. Akiki, A. Villanova del Moral, T. Le Scao

Games

[edit]
Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Poker Hand Dataset5 card hands from a standard 52 card deck.Attributes of each hand are given, including the Poker hands formed by the cards it contains.1,025,010TextRegression, classification2007[459]R. Cattral
Connect-4 DatasetContains all legal 8-ply positions in the game of connect-4 in which neither player has won yet, and in which the next move is not forced.None.67,557TextClassification1995[460]J. Tromp
Chess (King-Rook vs. King) DatasetEndgame Database for White King and Rook against Black King.None.28,056TextClassification1994[461][462]M. Bain et al.
Chess (King-Rook vs. King-Pawn) DatasetKing+Rook versus King+Pawn on a7.None.3196TextClassification1989[463]R. Holte
Tic-Tac-Toe Endgame DatasetBinary classification for win conditions in tic-tac-toe.None.958TextClassification1991[464]D. Aha

Other multivariate

[edit]
Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Housing Data SetMedian home values of Boston with associated home and neighborhood attributes.None.506TextRegression1993[465]D. Harrison et al.
The Getty Vocabulariesstructured terminology for art and other material culture, archival materials, visual surrogates, and bibliographic materials.None.largeTextClassification2015[466]Getty Center
Yahoo! Front Page Today Module User Click LogUser click log for news articles displayed in the Featured Tab of the Today Module on Yahoo! Front Page.Conjoint analysis with a bilinear model.45,811,883 user visitsTextRegression, clustering2009[467][468]Chu et al.
British Oceanographic Data CentreBiological, chemical, physical and geophysical data for oceans. 22K variables tracked.Various.22K variables, many instancesTextRegression, clustering2015[469]British Oceanographic Data Centre
Congressional Voting Records DatasetVoting data for all USA representatives on 16 issues.Beyond the raw voting data, various other features are provided.435TextClassification1987[470]J. Schlimmer
Entree Chicago Recommendation DatasetRecord of user interactions with Entree Chicago recommendation system.Details of each users usage of the app are recorded in detail.50,672TextRegression, recommendation2000[471]R. Burke
Insurance Company Benchmark (COIL 2000)Information on customers of an insurance company.Many features of each customer and the services they use.9,000TextRegression, classification2000[472][473]P. van der Putten
Nursery DatasetData from applicants to nursery schools.Data about applicant's family and various other factors included.12,960TextClassification1997[474][475]V. Rajkovic et al.
University DatasetData describing attributed of a large number of universities.None.285TextClustering, classification1988[476]S. Sounders et al.
Blood Transfusion Service Center DatasetData from blood transfusion service center. Gives data on donors return rate, frequency, etc.None.748TextClassification2008[477][478]I. Yeh
Record Linkage Comparison Patterns DatasetLarge dataset of records. Task is to link relevant records together.Blocking procedure applied to select only certain record pairs.5,749,132TextClassification2011[479][480]University of Mainz
Nomao DatasetNomao collects data about places from many different sources. Task is to detect items that describe the same place.Duplicates labeled.34,465TextClassification2012[481][482]Nomao Labs
Movie DatasetData for 10,000 movies.Several features for each movie are given.10,000TextClustering, classification1999[483]G. Wiederhold
Open University Learning Analytics DatasetInformation about students and their interactions with a virtual learning environment.None.~ 30,000TextClassification, clustering, regression2015[484][485]J. Kuzilek et al.
Mobile phone recordsTelecommunications activity and interactionsAggregation per geographical grid cells and every 15 minutes.largeTextClassification, Clustering, Regression2015[486]G. Barlacchi et al.

Curated repositories of datasets

[edit]

As datasets come in myriad formats and can sometimes be difficult to use, there has been considerable work put into curating and standardizing the format of datasets to make them easier to use for machine learning research.

  • OpenML:[487] Web platform with Python, R, Java, and other APIs for downloading hundreds of machine learning datasets, evaluating algorithms on datasets, and benchmarking algorithm performance against dozens of other algorithms.
  • PMLB:[488] A large, curated repository of benchmark datasets for evaluating supervised machine learning algorithms. Provides classification and regression datasets in a standardized format that are accessible through a Python API.
  • Metatext NLP: https://metatext.io/datasets web repository maintained by community, containing nearly 1000 benchmark datasets, and counting. Provides many tasks from classification to QA, and various languages from English, Portuguese to Arabic.
  • Appen: Off The Shelf and Open Source Datasets hosted and maintained by the company. These biological, image, physical, question answering, signal, sound, text, and video resources number over 250 and can be applied to over 25 different use cases.[489][490]

See also

[edit]

References

[edit]
  1. ^ Wissner-Gross, A. "Datasets Over Algorithms". Edge.com. Retrieved 8 January 2016.
  2. ^ Weiss, G. M.; Provost, F. (1 September 2003). "Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction". Journal of Artificial Intelligence Research. 19. AI Access Foundation: 315–354. doi:10.1613/jair.1199. ISSN 1076-9757. S2CID 2344521.
  3. ^ Turney, Peter (2000). "Types of cost in inductive concept learning". arXiv:cs/0212034.
  4. ^ Abney, Steven (17 September 2007). Semisupervised Learning for Computational Linguistics. CRC Press. ISBN 978-1-4200-1080-0.
  5. ^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Active Learning with Evolving Streaming Data". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. Vol. 6913. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 597–612. doi:10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9. ISSN 0302-9743.
  6. ^ McAuley, Julian; Targett, Christopher; Shi, Qinfeng; Anton van den Hengel (2015). "Image-based Recommendations on Styles and Substitutes". arXiv:1506.04757 [cs.CV].
  7. ^ "Amazon review data". nijianmo.github.io. Retrieved 8 October 2021.
  8. ^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Information Retrieval. 15 (2): 116–150. doi:10.1007/s10791-011-9174-8. hdl:2142/15252. S2CID 16258727.
  9. ^ Lv, Yuanhua, Dimitrios Lymberopoulos, and Qiang Wu. "An exploration of ranking heuristics in mobile local search." Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012.
  10. ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". ACM Transactions on Interactive Intelligent Systems. 5 (4): 19. doi:10.1145/2827872. S2CID 16619709.
  11. ^ Koenigstein, Noam, Gideon Dror, and Yehuda Koren. "Yahoo! music recommendations: modeling music ratings with temporal dynamics and item taxonomy." Proceedings of the fifth ACM conference on Recommender systems. ACM, 2011.
  12. ^ McFee, Brian, et al. "The million song dataset challenge." Proceedings of the 21st international conference companion on World Wide Web. ACM, 2012.
  13. ^ Bohanec, Marko, and Vladislav Rajkovic. "Knowledge acquisition and explanation for multi-attribute decision making." 8th Intl Workshop on Expert Systems and their Applications. 1988.
  14. ^ Tan, Peter J., and David L. Dowe. "MML inference of decision graphs with multi-way joins." Australian Joint Conference on Artificial Intelligence. 2002.
  15. ^ "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Retrieved 26 October 2020.
  16. ^ Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Communications in Computer and Information Science. Vol. 310. pp. 505–512. doi:10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2.
  17. ^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339.
  18. ^ Loh, Wei-Yin, and Yu-Shan Shih. "Split selection methods for classification trees." Statistica sinica(1997): 815–840.
  19. ^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Machine Learning. 40 (3): 203–228. doi:10.1023/a:1007608224229. S2CID 17030953.
  20. ^ Kiet Van Nguyen, Vu Duc Nguyen, Phu X. V. Nguyen, Tham T. H. Truong, Ngan Luu-Thuy Nguyen. "UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis
  21. ^ Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Emotion Recognition for Vietnamese Social Media Text". Computational Linguistics. Communications in Computer and Information Science. Vol. 1215. pp. 319–333. arXiv:1911.09339. doi:10.1007/978-981-15-6168-9_27. ISBN 978-981-15-6167-2. S2CID 208202333.
  22. ^ Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 April 2021). "Vietnamese Open-domain Complaint Detection in E-Commerce Websites". arXiv:2104.11969 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
  23. ^ Phu Gia Hoang, Canh Duc Luu, Khanh Quoc Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (26 January 2023). "ViHOS: Hate Speech Spans Detection for Vietnamese". arXiv:2301.10186 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
  24. ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). "A Joint Model for Topic-Sentiment Evolution over Time". 2014 IEEE International Conference on Data Mining. IEEE. pp. 773–778. doi:10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9.
  25. ^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF). LREC. 2. S2CID 9239414. Archived from the original (PDF) on 6 August 2019.
  26. ^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views – an Application to Multilingual Text Categorization". Advances in Neural Information Processing Systems. 22: 28–36.
  27. ^ Liu, Ming; et al. (2015). "VRCA: a clustering algorithm for massive amount of texts". Proceedings of the 24th International Conference on Artificial Intelligence. AAAI Press. Archived from the original on 5 November 2021. Retrieved 6 August 2019.
  28. ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
  29. ^ "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". GitHub. 17 December 2018.
  30. ^ "The Examiner – SpamClickBait Catalogue".
  31. ^ "A Million News Headlines".
  32. ^ "One Week of Global News Feeds".
  33. ^ Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, doi:10.7910/DVN/XDB74W
  34. ^ "IrishTimes – the Waxy-Wany News".
  35. ^ "News Headlines Dataset For Sarcasm Detection". kaggle.com. Retrieved 27 April 2019.
  36. ^ Klimt, Bryan, and Yiming Yang. "Introducing the Enron Corpus." CEAS. 2004.
  37. ^ Kossinets, Gueorgi; Kleinberg, Jon; Watts, Duncan (2008). "The Structure of Information Pathways in a Social Communication Network". arXiv:0806.3201 [physics.soc-ph].
  38. ^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. Vol. 11. pp. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.
  39. ^ Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). The Journal of Machine Learning Research. 7: 2673–2698.
  40. ^ Almeida, Tiago A., José María G. Hidalgo, and Akebo Yamakami. "Contributions to the study of SMS spam filtering: new collection and results."Proceedings of the 11th ACM symposium on Document engineering. ACM, 2011.
  41. ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Expert Systems with Applications. 39 (10): 9899–9908. doi:10.1016/j.eswa.2012.02.053. S2CID 15546924.
  42. ^ Joachims, Thorsten. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. No. CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa dept of computer science, 1996.
  43. ^ Dimitrakakis, Christos, and Samy Bengio. Online Policy Adaptation for Ensemble Algorithms. No. EPFL-REPORT-82788. IDIAP, 2002.
  44. ^ Dooms, S. et al. "Movietweetings: a movie rating dataset collected from twitter, 2013. Available from https://github.com/sidooms/MovieTweetings."
  45. ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV].
  46. ^ "huyt16/Twitter100k". GitHub. Retrieved 26 March 2018.
  47. ^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
  48. ^ Chikersal, Prerna, Soujanya Poria, and Erik Cambria. "SeNTU: sentiment analysis of tweets by combining a rule-based classifier with supervised learning." Proceedings of the International Workshop on Semantic Evaluation, SemEval. 2015.
  49. ^ Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).
  50. ^ Data Science Course by DataTrained Education "IBM Certified Data Science Course[dead link]." IBM Certified Online Data Science Course
  51. ^ McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
  52. ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Scientific Reports. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4E6496S. doi:10.1038/srep06496. PMC 4178292. PMID 25263231.
  53. ^ Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.
  54. ^ Abooraig, Raddad, et al. "On the automatic categorization of Arabic articles based on their political orientation." Third International Conference on Informatics Engineering and Information Science (ICIEIS2014). 2014.
  55. ^ Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.
  56. ^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG].
  57. ^ Xu et al. "SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT)" Proceedings of the 9th International Workshop on Semantic Evaluation. 2015.
  58. ^ Xu et al. "Extracting Lexically Divergent Paraphrases from Twitter" Transactions of the Association for Computational (TACL). 2014.
  59. ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). IEEE Intelligent Systems. 29 (2): 9–17. doi:10.1109/MIS.2013.126. S2CID 15139204.
  60. ^ "geoparsepy". 2016. Python PyPI library
  61. ^ Shmueli, Boaz; Ku, Lun-Wei; Ray, Soumya (2020). "Reactive Supervision: A New Method for Collecting Sarcasm Data". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. pp. 2553–2559. doi:10.18653/v1/2020.emnlp-main.201. S2CID 221970454.
  62. ^ Shmueli, Boaz. "SPIRS Sarcasm Dataset". GitHub.
  63. ^ Gupta, Aakash (2020). "Dutch social media collection". COVID-19 Data Hub. doi:10.5072/FK2/MTPTL7. Retrieved 11 November 2023.
  64. ^ "Streamlit". huggingface.co. Retrieved 18 December 2020.
  65. ^ "Dutch Social media collection". kaggle.com. Retrieved 18 December 2020.
  66. ^ Shmueli, Boaz; Ray, Soumya; Lun-Wei (2021). "Happy Dance, Slow Clap: Using Reaction GIFs to Predict Induced Affect on Twitter". Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Vol. Association for Computational Linguistics. As. pp. 395–401. doi:10.18653/v1/2021.acl-short.50. S2CID 235125510.
  67. ^ Shmueli, Boaz (5 May 2023), ReactionGIF, retrieved 6 October 2023
  68. ^ Forsyth, E., Lin, J., & Martell, C. (2008, June 25). The NPS Chat Corpus. Retrieved from http://faculty.nps.edu/cmartell/NPSChat.htm
  69. ^ Sordoni, Alessandro; Galley, Michel; Auli, Michael; Brockett, Chris; Ji, Yangfeng; Mitchell, Margaret; Nie, Jian-Yun; Gao, Jianfeng; Dolan, Bill (2015). "A Neural Network Approach to Context-Sensitive Generation of Conversational Responses". arXiv:1506.06714 [cs.CL].
  70. ^ Shaoul, C. & Westbury C. (2013) A reduced redundancy USENET corpus (2005–2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html)
  71. ^ KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Retrieved from http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/ Archived 29 June 2018 at the Wayback Machine
  72. ^ Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Message posted to https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
  73. ^ Lowe, Ryan; Pow, Nissan; Serban, Iulian; Pineau, Joelle (2015). "The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems". arXiv:1506.08909 [cs.CL].
  74. ^ Jason Williams Antoine Raux Matthew Henderson, "[1]", Dialogue & Discourse | April 2016 .
  75. ^ Hoppe, Travis (16 December 2021), The-Pile-FreeLaw, retrieved 11 January 2023
  76. ^ Zheng, Lucia; Guha, Neel; Anderson, Brandon R.; Henderson, Peter; Ho, Daniel E. (21 June 2021). "When does pretraining help?". Proceedings of the Eighteenth International Conference on Artificial Intelligence and Law. New York, NY, USA: ACM. pp. 159–168. doi:10.1145/3462757.3466088. ISBN 9781450385268. S2CID 233296302.
  77. ^ "pile-of-law/pile-of-law · Datasets at Hugging Face". huggingface.co. 4 July 2022. Retrieved 11 January 2023.
  78. ^ "About | Caselaw Access Project". case.law. Retrieved 11 January 2023.
  79. ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364–371. doi:10.1109/ICMLA.2017.0-134
  80. ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "Web of Science Dataset", doi:10.17632/9rw3vkcfy4.6
  81. ^ Galgani, Filippo, Paul Compton, and Achim Hoffmann. "Combining different summarization techniques for legal text." Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Association for Computational Linguistics, 2012.
  82. ^ Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Journal of Big Data. 2 (1): 1–18. doi:10.1186/s40537-015-0020-5.
  83. ^ Schler, Jonathan; et al. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6. Archived from the original (PDF) on 14 November 2020. Retrieved 6 August 2019.
  84. ^ Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.
  85. ^ Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Statistical Mechanics and its Applications391.16 (2012): 4165–4180.
  86. ^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS].
  87. ^ Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.
  88. ^ Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI].
  89. ^ Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Computational Linguistics. 19 (2): 313–330.
  90. ^ Коллинз, Майкл (2003). «Головные статистические модели для анализа естественного языка» . Компьютерная лингвистика . 29 (4): 589–637. дои : 10.1162/089120103322753356 .
  91. ^ Гийон, Изабель и др., ред. Извлечение функций: основы и приложения . Том. 207. Спрингер, 2008.
  92. ^ Лин, Юрий и др. « Синтаксические аннотации для корпуса ngram книг Google ». Материалы демонстраций системы ACL 2012 . Ассоциация компьютерной лингвистики, 2012.
  93. ^ Кришнамурти, Ниведа; и др. (2013). «Создание описаний видео на естественном языке с использованием текстовых знаний» . АААИ . 1 . Архивировано из оригинала 6 августа 2019 года . Проверено 6 августа 2019 г.
  94. ^ Люйкс, Ким и Уолтер Далеманс. « Персоны: корпус предсказаний автора и личности на основе текста» [ мертвая ссылка ] ЛРЭЦ . 2008.
  95. ^ Солорио, Тамар, Рагиб Хасан и Майнул Мизан. « Пример обнаружения кукол в Википедии ». Семинар по языковому анализу в социальных сетях (LASM) в NAACL HLT . 2013.
  96. ^ «Файлы сдвига» . файлы.pushshift.io . Архивировано из оригинала 12 января 2023 года . Проверено 12 января 2023 г.
  97. ^ Баумгартнер, Джейсон; Занетту, Саввас; Киган, Брайан; Сквайр, Меган; Блэкберн, Джереми (23 января 2020 г.). «Набор данных Pushshift Reddit». arXiv : 2001.08435 [ cs.SI ].
  98. ^ Сиарелли, Патрик Маркес и Элиас Оливейра. « Агломерация и устранение условий понижения размерности ». Проектирование и применение интеллектуальных систем, 2009. ISDA'09. Девятая международная конференция по . ИИЭР, 2009.
  99. ^ Чжоу, Минъюань, Оскар Эрнан Мадрид Падилья и Джеймс Г. Скотт. «Априорные данные для матриц случайного счета, полученных из семейства отрицательных биномиальных процессов». журнал Американской статистической ассоциации (2015 г.): 00–00. Только что принятый
  100. ^ Коциас, Димитриос и др. « От группы к индивидуальным меткам с использованием глубоких функций ». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. АКМ, 2015.
  101. ^ Нин, Юэ; Мутия, Сатхаппан; Рангвала, Хузефа; Рамакришнан, Нарен (2016). «Моделирование предшественников для прогнозирования событий посредством вложенного многоэкземплярного обучения». arXiv : 1602.08033 [ cs.SI ].
  102. ^ Буза, Кристиан. « Прогнозирование обратной связи для блогов ». Анализ данных, машинное обучение и обнаружение знаний . Springer International Publishing, 2014. 145–152.
  103. ^ Сойсал, Омер М (2015). «Анализ правил ассоциации с преимущественно связанными последовательными шаблонами». Экспертные системы с приложениями . 42 (5): 2582–2592. дои : 10.1016/j.eswa.2014.10.049 .
  104. ^ Чжу, Юкун и др. «Совмещение книг и фильмов: к визуальным объяснениям, похожим на истории, путем просмотра фильмов и чтения книг». Материалы международной конференции IEEE по компьютерному зрению . 2015.
  105. ^ Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). «Большой аннотированный корпус для изучения вывода на естественном языке». arXiv : 1508.05326 [ cs.CL ].
  106. ^ «Коллекция корпуса DSL» . ttg.uni-saarland.de . Проверено 22 сентября 2017 г.
  107. ^ «Городской словарь слов и определений» .
  108. ^ Х. Эльсахар, П. Вугиуклис, А. Ремачи, К. Гравье, Дж. Хэйр, Ф. Лафорест, Э. Симперл, « T-REx: крупномасштабное согласование естественного языка с тройками базы знаний », Труды Одиннадцатая Международная конференция по языковым ресурсам и оценке (LREC-2018).
  109. ^ Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омер; Боуман, Сэмюэл Р. (2018). «GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка». arXiv : 1804.07461 [ cs.CL ].
  110. ^ «Компьютеры учатся читать, но они все еще не такие умные» . Проводной . Проверено 29 декабря 2019 г.
  111. ^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Проверено 25 февраля 2019 г.
  112. ^ Цюань, Хоанг Лам; Куанг, Дуй Ле; Ван Киет, Нгуен; Нган, Луу-Туй Нгуен. «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке» .
  113. ^ Куок Хай; Нгуен, Ван Киет; Нгуен, Луу Туй Нган; Нгуен, Гиа Туан Ань (2020). «Прогнозирование пола на основе вьетнамских имен с использованием методов машинного обучения». Материалы 4-й Международной конференции по обработке естественного языка и поиску информации . стр. 55–60. arXiv : 2010.10852 . дои : 10.1145/3443279.3443309 . ISBN  9781450377607 . S2CID   224814110 .
  114. ^ Нгуен, Луан Тхань; Ван Нгуен, Киет; Нгуен, Нган Луу-Туи (18 марта 2021 г.). «Обнаружение конструктивной и токсичной речи для комментариев в социальных сетях в открытом доступе на вьетнамском языке». Достижения и тенденции в области искусственного интеллекта. Практика искусственного интеллекта . Конспекты лекций по информатике. Том. 12798. стр. 572–583. arXiv : 2103.10069 . дои : 10.1007/978-3-030-79457-6_49 . ISBN  978-3-030-79456-9 . S2CID   232269671 .
  115. ^ Сакстон, Дэвид и др. «Анализ способностей нейронных моделей к математическому мышлению». Международная конференция по обучению представлений . 2018.
  116. ^ М. Верстег, Р. Тиольер, Т. Шац, X.-N. Цао, К. Ангера, А. Янсен и Э. Дюпу (2015). «The Zero Resource Speech Challenge 2015», в рамках INTERSPEECH-2015.
  117. ^ М. Верстег, X. Ангера, А. Янсен и Э. Дюпу (2016). « Вызов речи с нулевыми ресурсами 2015: предлагаемые подходы и результаты », на SLTU-2016.
  118. ^ Сакар, Бетул Эрдогду; и др. (2013). «Сбор и анализ набора речевых данных Паркинсона с несколькими типами звукозаписей». Журнал IEEE по биомедицинской и медицинской информатике . 17 (4): 828–834. дои : 10.1109/jbhi.2013.2245674 . ПМИД   25055311 . S2CID   15491516 .
  119. ^ Чжао, Шунан и др. « Автоматическое обнаружение выраженных эмоций при болезни Паркинсона ». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
  120. ^ Используется в: Хаммами, Насереддине и Моулди Бедде. «Улучшенная древовидная модель распознавания арабской речи». Компьютерные науки и информационные технологии (ICCSIT), 2010 г. 3-я Международная конференция IEEE по . Том. 5. ИИЭР, 2010.
  121. ^ Маатен, Лоуренс. « Изучение дискриминационных ядер Фишера ». Материалы 28-й Международной конференции по машинному обучению (ICML-11) . 2011.
  122. ^ Коул, Рональд и Марк Фэнти. « Распознавание устной буквы ». Учеб. Третий семинар DARPA по речи и естественному языку . 1990.
  123. ^ Шапель, Оливье; Синдхвани, Викас; Кирти, Сатья С. (2008). «Методы оптимизации для полуконтролируемых машин опорных векторов» (PDF) . Журнал исследований машинного обучения . 9 : 203–233.
  124. ^ Кудо, Минеичи; Тояма, Джун; Симбо, Масару (1999). «Классификация многомерных кривых с использованием областей прохождения». Буквы для распознавания образов . 20 (11): 1103–1111. Бибкод : 1999PaReL..20.1103K . CiteSeerX   10.1.1.46.2515 . дои : 10.1016/s0167-8655(99)00077-x .
  125. ^ Джагер, Герберт; и др. (2007). «Оптимизация и применение сетей эхо-состояний с нейронами вытекающего интегратора». Нейронные сети . 20 (3): 335–352. дои : 10.1016/j.neunet.2007.04.016 . ПМИД   17517495 .
  126. ^ Цанас, Афанасий; и др. (2010). «Точный телемониторинг прогрессирования болезни Паркинсона с помощью неинвазивных речевых тестов» . Транзакции IEEE по биомедицинской инженерии (представленная рукопись). 57 (4): 884–893. дои : 10.1109/tbme.2009.2036000 . ПМИД   19932995 . S2CID   7382779 .
  127. ^ Клиффорд, Гари Д.; Клифтон, Дэвид (2012). «Беспроводные технологии в лечении заболеваний и медицине». Ежегодный обзор медицины . 63 : 479–492. doi : 10.1146/annurev-med-051210-114650 . ПМИД   22053737 .
  128. ^ Зуэ, Виктор; Сенефф, Стефани; Гласс, Джеймс (1990). «Разработка речевых баз данных в Массачусетском технологическом институте: TIMIT и за его пределами». Речевое общение . 9 (4): 351–356. дои : 10.1016/0167-6393(90)90010-7 .
  129. ^ Кападиа, Садик, Валчо Валчев и С. Дж. Янг. «Тренинг MMI для непрерывного распознавания фонем в базе данных TIMIT». Акустика, речь и обработка сигналов, 1993. ICASSP-93., 1993 Международная конференция IEEE по . Том. 2. ИИЭР, 1993.
  130. ^ Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (докторская диссертация). Университет Саутгемптона , Школа электроники и информатики.
  131. ^ Ардила, Розана; Брэнсон, Меган; Дэвис, Келли; Хенретти, Майкл; Колер, Майкл; Мейер, Джош; Мораис, Рубен; Сондерс, Линдси; Тайерс, Фрэнсис М.; Вебер, Грегор (13 декабря 2019 г.). «Общий голос: массово-многоязычный речевой корпус». arXiv : 1912.06670v2 [ cs.CL ].
  132. ^ «Набор речевых данных ЖЖ» . keithito.com . Проверено 13 апреля 2022 г.
  133. ^ Гандура, Абдулкадер; Хьябо, Фарук; Аль-Даккак, Умайма (июнь 2021 г.). «Создание и сравнение набора данных арабских речевых команд для обнаружения небольших ключевых слов» . Инженерные применения искусственного интеллекта . 102 : 104267. doi : 10.1016/j.engappai.2021.104267 . ISSN   0952-1976 . S2CID   235637809 .
  134. ^ Чжоу, Фанг, К. Клэр и Росс Д. Кинг. « Предсказание географического происхождения музыки ». Data Mining (ICDM), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
  135. ^ Сакченти, Эдоардо; Камачо, Хосе (2015). «Об использовании k-кратной операции наблюдения в перекрестной проверке PCA». Журнал хемометрики . 29 (8): 467–478. дои : 10.1002/cem.2726 . hdl : 10481/55302 . S2CID   62248957 .
  136. ^ Бертен-Маье, Тьерри и др. «Набор данных о миллионе песен». ISMIR 2011: Материалы 12-й конференции Международного общества по поиску музыкальной информации, 24–28 октября 2011 г., Майами, Флорида . Университет Майами, 2011.
  137. ^ Хенафф, Микаэль; и др. (2011). «Неконтролируемое изучение редких функций для масштабируемой классификации аудио» (PDF) . ИСМИР . 11 .
  138. ^ Рафии, Зафар (2017). "Музыка". MUSDB18 — корпус музыкального разделения . дои : 10.5281/zenodo.1117372 .
  139. ^ Дефферрард, Микаэль; Бензи, Кирелл; Вандергейнст, Пьер; Брессон, Ксавье (6 декабря 2016 г.). «FMA: набор данных для музыкального анализа». arXiv : 1612.01840 [ cs.SD ].
  140. ^ Эспозито, Роберто; Радичони, Даниэле П. (2009). «Carpediem: Оптимизация алгоритма Витерби и приложений для контролируемого последовательного обучения» (PDF) . Журнал исследований машинного обучения . 10 : 1851–1880.
  141. ^ Сурати, Джамшид; и др. (2016). «Классификация активного обучения на основе взаимной информации» . Энтропия . 18 (2): 51. Бибкод : 2016Entrp..18...51S . дои : 10.3390/e18020051 .
  142. ^ Саламон, Джастин; Джейкоби, Кристофер; Белло, Хуан Пабло. « Набор данных и таксономия для исследования городского звука ». Материалы Международной конференции ACM по мультимедиа . АКМ, 2014.
  143. ^ Лагранж, Матье; Лафай, Грегуар; Россиньоль, Матиас; Бенетос, Эммануил; Робель, Аксель (2015). «Среда оценки для обнаружения событий с использованием морфологической модели акустических сцен». arXiv : 1502.00141 [ стат.ML ].
  144. ^ Геммеке, Йорт Ф. и др. «Набор аудио: онтология и набор данных, помеченных человеком, для аудиособытий». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2017.
  145. ^ «Берегитесь, птицеловы: искусственный интеллект научился распознавать птиц по их песням» . Наука | АААС . 18 июля 2018 года . Проверено 22 июля 2018 г.
  146. ^ «Задание по обнаружению птиц по звуку» . Лаборатория машинного прослушивания в Университете Королевы Марии . 3 мая 2016 года . Проверено 22 июля 2018 г.
  147. ^ Вичерн, Гордон; Антоньини, Джо; Флинн, Майкл; Личэн Ричард Чжу; Маккуинн, Эммет; Ворона, Дуайт; Манилоу, Итан; Джонатан Ле Ру (2019). «WHAM !: Расширение разделения речи на шумную среду». arXiv : 1907.01160 [ cs.SD ].
  148. ^ Дроссос К., Липпинг С. и Виртанен Т. «Клото: набор данных для аудиотитров» Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2020.
  149. ^ Дроссос К., Липпинг С. и Виртанен Т. (2019). Набор данных Clotho (Версия 1.0) [Набор данных]. Зенодо . http://doi.org/10.5281/zenodo.3490684
  150. ^ Набор данных CAIDA UCSD по Witty Worm - 19–24 марта 2004 г., http://www.caida.org/data/passive/witty_worm_dataset.xml
  151. ^ Чен, Зешэн и Чуаньи Цзи. « Оптимальный метод сканирования червей с использованием дистрибутивов уязвимых хостов ». Международный журнал безопасности и сетей 2.1–2 (2007): 71–80.
  152. ^ Качуи, Мохамад и др. « Высокоточная оценка артериального давления без манжеты без калибровки с использованием времени прохождения импульса [ постоянная мертвая ссылка ] . Схемы и системы (ISCAS), 2015 г. Международный симпозиум IEEE по . IEEE, 2015 г.
  153. ^ PhysioBank, PhysioToolkit. «PhysioNet: компоненты нового исследовательского ресурса для сложных физиологических сигналов». Тираж. v101 и23. е215-е220 .
  154. ^ Вергара, Александр; и др. (2012). «Компенсация дрейфа датчика химического газа с использованием ансамблей классификаторов». Датчики и исполнительные механизмы B: Химические вещества . 166 : 320–329. Бибкод : 2012SeAcB.166..320В . дои : 10.1016/j.snb.2012.01.074 .
  155. ^ Коротценков Г.; Чо, БК (2014). «Инженерные подходы к улучшению параметров кондуктометрических датчиков газа. Часть 2. Снижение рассеиваемой (потребляемой) мощности и повышение стабильности и надежности». Датчики и исполнительные механизмы B: Химические вещества . 198 : 316–341. Бибкод : 2014SeAcB.198..316K . дои : 10.1016/j.snb.2014.03.069 .
  156. ^ Куинлан, Джон Р. (1992). «Обучение с помощью непрерывных занятий» (PDF) . 5-я Австралийская совместная конференция по искусственному интеллекту . 92 .
  157. ^ Мерц, Кристофер Дж.; Паццани, Майкл Дж. (1999). «Подход на основе главных компонентов к объединению оценок регрессии» . Машинное обучение . 36 (1–2): 9–32. дои : 10.1023/а:1007507221352 .
  158. ^ Торрес-Соспедра, Хоакин и др. «UJIIndoorLoc-Mag: новая база данных для задач локализации по магнитному полю». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. по . ИИЭР, 2015.
  159. ^ Берквенс, Рафаэль, Маартен Вейн и Герберт Переманс. « Средняя взаимная информация вероятностной локализации Wi-Fi ». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. Банф, Канада: IPIN . 2015.
  160. ^ Пашке, Фабиан и др. «Бездатчиковый контроль состояния синхронных двигателей». Слушания. 23-й семинар по вычислительному интеллекту, Дортмунд, 5-6. Декабрь 2013 года . КИТ Научное Издательство, 2013.
  161. ^ Лессмайер, Кристиан и др. « Сбор данных и анализ сигналов на основе измеренных токов двигателя для обнаружения дефектов в электромеханических приводных системах ».
  162. ^ Угулино, Уоллес и др. « Носимые компьютеры: классификация поз и движений тела по данным акселерометров. Архивировано 25 сентября 2020 года в Wayback Machine ». Достижения в области искусственного интеллекта – SBIA 2012 . Springer Berlin Heidelberg, 2012. 52–61.
  163. ^ Шнайдер, Ян; и др. (2015). «Усиление чувств: обзор поддержки обучения на основе датчиков» . Датчики . 15 (2): 4097–4133. Бибкод : 2015Senso..15.4097S . дои : 10.3390/s150204097 . ПМК   4367401 . ПМИД   25679313 .
  164. ^ Мадео, Рената CB, Клодоальдо А.М. Лима и Сараджейн М. Перес. « Сегментация единиц жестов с использованием машин опорных векторов: сегментация жестов из исходных положений ». Материалы 28-го ежегодного симпозиума ACM по прикладным вычислениям . АКМ, 2013.
  165. ^ Лун, Роанна; Чжао, Вэньбин (2015). «Обзор приложений и распознавания движений человека с помощью Microsoft Kinect» . Международный журнал распознавания образов и искусственного интеллекта . 29 (5): 1555008. doi : 10.1142/s0218001415550083 .
  166. ^ Теодоридис, Теодорос и Хуошэн Ху. « Классификация действий трехмерных моделей человека с использованием динамических ИНС для наблюдения за мобильными роботами . Архивировано 6 августа 2019 года в Wayback Machine ». Робототехника и биомиметика, 2007. РОБИО 2007. Международная конференция IEEE по . ИИЭР, 2007.
  167. ^ Этемад, Сейед Али и Али Арья. « 3D-распознавание действий человека и трансформация стиля с использованием устойчивых нейронных сетей обратного распространения ошибки». Интеллектуальные вычисления и интеллектуальные системы, 2009. ICIS 2009. Международная конференция IEEE по . Том. 4. ИИЭР, 2009.
  168. ^ Алтун, Керем; Баршан, Биллур; Тунчель, Оркун (2010). «Сравнительное исследование классификации деятельности человека с помощью миниатюрных инерционных и магнитных датчиков». Распознавание образов . 43 (10): 3605–3620. Бибкод : 2010PatRe..43.3605A . дои : 10.1016/j.patcog.2010.04.019 . hdl : 11693/11947 .
  169. ^ Натан, Ран ; и др. (2012). «Использование данных трехосного ускорения для определения поведенческих режимов животных, находящихся на свободном выгуле: общие концепции и инструменты, проиллюстрированные для белоголовых сипов» . Журнал экспериментальной биологии . 215 (6): 986–996. дои : 10.1242/jeb.058602 . ПМЦ   3284320 . ПМИД   22357592 .
  170. ^ Ангита, Давиде и др. « Распознавание активности человека на смартфонах с использованием многоклассовой аппаратно-совместимой машины опорных векторов ». Окружающая среда, сопровождаемая проживанием и уходом на дому . Springer Berlin Heidelberg, 2012. 216–223.
  171. ^ Су, Син; Тонг, Ханхан; Цзи, Пин (2014). «Распознавание активности с помощью датчиков смартфона». Цинхуа Наука и Технология . 19 (3): 235–249. дои : 10.1109/tst.2014.6838194 . S2CID   62751498 .
  172. ^ Кадус, Мохаммед Валид. Временная классификация: распространение парадигмы классификации на многомерные временные ряды . Дисс. Университет Нового Южного Уэльса, 2002 г.
  173. ^ Грейвс, Алекс и др. « Коннекционистская временная классификация: маркировка несегментированных последовательностей данных с помощью рекуррентных нейронных сетей ». Материалы 23-й международной конференции по машинному обучению . АКМ, 2006.
  174. ^ Веллосо, Эдуардо и др. « Качественное распознавание активности упражнений по поднятию тяжестей ». Материалы 4-й Международной конференции по дополненному человеку . АКМ, 2013.
  175. ^ Мортазави, Бобак Джек и др. « Определение единой наилучшей оси для распознавания повторений упражнений и расчет умных часов. Архивировано 4 ноября 2021 года в Wayback Machine ». Сети носимых и имплантируемых датчиков тела (BSN), 2014 11-я Международная конференция по . ИИЭР, 2014.
  176. ^ Сапсанис, Христос и др. « Улучшение классификации основных движений рук на основе ЭМГ с использованием ЭМД ». Общество инженерии в медицине и биологии (EMBC), 2013 г., 35-я ежегодная международная конференция IEEE . ИИЭР, 2013.
  177. ^ Перейти обратно: а б Андрианезис, Константинос; Цзес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем . 78 (2): 257–289. дои : 10.1007/s10846-014-0061-6 . S2CID   207174078 .
  178. ^ Банос, Орешти; и др. (2014). «Работа с эффектами смещения датчика при распознавании активности носимых устройств» . Датчики . 14 (6): 9995–10023. Бибкод : 2014Senso..14.9995B . дои : 10.3390/s140609995 . ПМЦ   4118358 . ПМИД   24915181 .
  179. ^ Стисен, Аллан и др. « Умные устройства разные: оценка и смягчение неоднородностей мобильных датчиков для распознавания активности ». Материалы 13-й конференции ACM по встраиваемым сетевым сенсорным системам . АКМ, 2015.
  180. ^ Бхаттачарья, Сурав и Николас Д. Лейн. « От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения ».
  181. ^ Баччу, Давиде; и др. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях для престарелых». Нейронные вычисления и их приложения . 24 (6): 1451–1464. дои : 10.1007/s00521-013-1364-4 . hdl : 11568/237959 . S2CID   14124013 .
  182. ^ Палумбо, Филиппо; Барсокки, Паоло; Галличкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Мультисенсорное объединение данных для распознавания активности на основе вычислений резервуара» . Оценка систем AAL посредством сравнительного анализа конкурентов . Коммуникации в компьютерной и информатике. Том. 386. стр. 24–35. дои : 10.1007/978-3-642-41043-7_3 . ISBN  978-3-642-41042-0 .
  183. ^ Рейсс, Аттила и Дидье Стрикер. « Представляем новый набор эталонных данных для мониторинга активности ». Носимые компьютеры (ISWC), 2012 г. 16-й международный симпозиум по . ИИЭР, 2012.
  184. ^ Рогген, Дэниел и др. « ВОЗМОЖНОСТИ: К оппортунистической деятельности и системам распознавания контекста ». Мир беспроводных, мобильных и мультимедийных сетей и семинаров, 2009. WoWMoM 2009. Международный симпозиум IEEE по . ИИЭР, 2009.
  185. ^ Курц, Марк и др. « Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах ». Конференция по автомобильным технологиям (весна VTC), 73-я конференция IEEE 2011 г. ИИЭР, 2011.
  186. ^ Штайлер, Тимо и Хайнер Штукеншмидт. « Локализация носимых устройств на теле: исследование распознавания активности с учетом положения ». Повсеместные вычисления и коммуникации (PerCom), Международная конференция IEEE 2016 г., посвященная . ИИЭР, 2016.
  187. ^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х.; Долатабади, Эльхам; Ван, Розали Х.; Таати, Бабак (2018). «Автоматическое обнаружение компенсации во время роботизированной реабилитационной терапии после инсульта» . Журнал IEEE трансляционной инженерии в здравоохранении и медицине . 6 : 2100107. doi : 10.1109/JTEHM.2017.2780836 . ISSN   2168-2372 . ПМЦ   5788403 . ПМИД   29404226 .
  188. ^ Долатабади, Эльхам; Чжи, Ин Сюань; Да, Бинг; Коаран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). «Набор данных позы реабилитации после инсульта в Торонто для выявления компенсации во время реабилитационной терапии после инсульта». Материалы 11-й Международной конференции EAI по всеобъемлющим вычислительным технологиям в здравоохранении . АКМ. стр. 375–381. дои : 10.1145/3154862.3154925 . ISBN  9781450363631 . S2CID   24581930 .
  189. ^ «Набор данных по позы реабилитации после инсульта в Торонто» .
  190. ^ Юнг, Мерел М.; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К.Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социальных прикосновений». Журнал о мультимодальных пользовательских интерфейсах . 11 (1): 81–96. дои : 10.1007/s12193-016-0232-9 . ISSN   1783-8738 . S2CID   1802116 .
  191. ^ Юнг, ММ (Мерель) (1 июня 2016 г.). «Корпус социальных контактов (CoST)» . Университет Твенте. doi : 10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  192. ^ Эберхард, С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в условиях большой размерности». Кафедра математики. Статистик, Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Реп 92-02 (1992).
  193. ^ Басу, Сугато. « Полуконтролируемая кластеризация с ограниченными базовыми знаниями ». АААИ . 2004.
  194. ^ Тюфекчи, Пинар (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла с базовой нагрузкой с использованием методов машинного обучения». Международный журнал электроэнергетики и энергетических систем . 60 : 126–140. Бибкод : 2014IJEPE..60..126T . дои : 10.1016/j.ijepes.2014.02.027 .
  195. ^ Кая, Хейсем, Пинар Тюфекчи и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной технике (ICETCEE'2012), Дубай . 2012.
  196. ^ Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Природные коммуникации . 5 : 2014. arXiv : 1402.4735 . Бибкод : 2014NatCo...5.4308B . дои : 10.1038/ncomms5308 . ПМИД   24986233 . S2CID   195953 .
  197. ^ Перейти обратно: а б Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2015). «Усовершенствованный поиск бозона Хиггса до τ+ τ− с помощью глубокого обучения». Письма о физических отзывах . 114 (11): 111801. arXiv : 1410.3469 . Бибкод : 2015PhRvL.114k1801B . дои : 10.1103/physrevlett.114.111801 . ПМИД   25839260 . S2CID   2339142 .
  198. ^ Перейти обратно: а б Адам-Бурдариос, К.; Коуэн, Г.; Жермен-Рено, К.; Гийон, И.; Кегль, Б.; Руссо, Д. (2015). «Задача машинного обучения Хиггса» . Физический журнал: серия конференций . 664 (7): 072015. Бибкод : 2015JPhCS.664g2015A . дои : 10.1088/1742-6596/664/7/072015 .
  199. ^ Бальди, Пьер; Кранмер, Кайл; Фосетт, Тейлор; Садовский, Питер; Уайтсон, Дэниел (2016). «Параметризованные нейронные сети для физики высоких энергий». Европейский физический журнал C . 76 (5): 235. arXiv : 1601.07913 . Бибкод : 2016EPJC...76..235B . doi : 10.1140/epjc/s10052-016-4099-4 . S2CID   254108545 .
  200. ^ Ортигоса, И.; Лопес, Р.; Гарсия, Дж. «Подход нейронных сетей к прогнозированию остаточного сопротивления парусных яхт». Материалы Международной конференции по морской технике MARINE . 2007 .
  201. ^ Герритсма, Дж., Р. Оннинк и А. Верслуис. Геометрия, устойчивость и устойчивость серии корпусов яхт Delft System . Делфтский технологический университет, 1981 год.
  202. ^ Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных . Springer Science & Business Media, 1998.
  203. ^ Райх, Йорам. Переход к знаниям идеального дизайна путем обучения . [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.
  204. ^ Тодоровский, Люпчо; Джероски, Сашо (1999). «Эксперименты по метауровенному обучению с помощью ILP» . Принципы интеллектуального анализа данных и обнаружения знаний . Конспекты лекций по информатике. Том. 1704. стр. 98–106. дои : 10.1007/978-3-540-48247-5_11 . ISBN  978-3-540-66490-1 . S2CID   39382993 .
  205. ^ Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности . Дисс. Университет Вайкато, 2000 г.
  206. ^ Киблер, Деннис; Ага, Дэвид В.; Альберт, Марк К. (1989). «Прогнозирование действительных атрибутов на основе экземпляров» . Вычислительный интеллект . 5 (2): 51–57. дои : 10.1111/j.1467-8640.1989.tb00315.x . S2CID   40800413 .
  207. ^ Палмер, Кристофер Р. и Христос Фалуцос. « Электричество основано на внешнем сходстве категориальных признаков ». Достижения в области обнаружения знаний и интеллектуального анализа данных . Springer Berlin Heidelberg, 2003. 486–500.
  208. ^ Цанас, Афанасий; Хифара, Анжелики (2012). «Точная количественная оценка энергоэффективности жилых зданий с использованием статистических инструментов машинного обучения». Энергия и здания . 49 : 560–567. Бибкод : 2012EneBu..49..560T . дои : 10.1016/j.enbuild.2012.03.003 .
  209. ^ Де Уайльд, Питер (2014). «Разрыв между прогнозируемыми и измеренными энергетическими характеристиками зданий: основа для исследования». Автоматизация в строительстве . 41 : 40–49. дои : 10.1016/j.autcon.2014.02.009 .
  210. ^ Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум профиля и прогнозирование . Том. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научной и технической информации, 1989.
  211. ^ Дрейпер, Дэвид. « Оценка и распространение неопределенности модели ». Журнал Королевского статистического общества, серия B (методологический) (1995): 45–97.
  212. ^ Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительных кольцах космического корабля». Журнал Американской статистической ассоциации . 86 (416): 919–921. дои : 10.1080/01621459.1991.10475132 .
  213. ^ Ван, Цзюнь, Бэй Ю и Лес Гассер. « Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства ». Data Mining, 2002. ICDM 2003. Труды. Международная конференция IEEE 2002 г. по . ИИЭР, 2002.
  214. ^ Петтенгилл, Гордон Х.; Форд, Питер Г.; Джонсон, Уильям Т.К.; Рэйни, Р. Кейт; Содерблом, Лоуренс А. (1991). «Магеллан: характеристики радаров и продукты для обработки данных» . Наука . 252 (5003): 260–265. Бибкод : 1991Sci...252..260P . дои : 10.1126/science.252.5003.260 . ПМИД   17769272 . S2CID   43398343 .
  215. ^ Перейти обратно: а б Агаронян Ф.; и др. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма о физических отзывах . 101 (26): 261104. arXiv : 0811.3894 . Бибкод : 2008PhRvL.101z1104A . doi : 10.1103/PhysRevLett.101.261104 . HDL : 2440/51450 . ПМИД   19437632 . S2CID   41850528 .
  216. ^ Бок, РК; и др. (2004). «Методы многомерной классификации событий: пример использования изображений черенковского гамма-телескопа». Ядерные приборы и методы в физических исследованиях. Раздел А: Ускорители, спектрометры, детекторы и сопутствующее оборудование . 516 (2): 511–528. Бибкод : 2004NIMPA.516..511B . дои : 10.1016/j.nima.2003.08.157 .
  217. ^ Ли, Цзинььян; и др. (2004). «Deeps: новая система ленивого обнаружения и классификации на основе экземпляров» . Машинное обучение . 54 (2): 99–124. doi : 10.1023/b:mach.0000011804.08528.7d .
  218. ^ Вильяэскуса-Наварро, Франциско; др. и др. (2022). «Многополевой набор данных CAMELS: изучение фундаментальных параметров Вселенной с помощью искусственного интеллекта» . Серия дополнений к астрофизическому журналу . 259 (2): 61. arXiv : 2109.10915 . Бибкод : 2022ApJS..259...61В . дои : 10.3847/1538-4365/ac5ab0 . S2CID   237604997 .
  219. ^ Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог голоценовых вулканов и их извержений». (2014).
  220. ^ Сикора, Марек; Врубель, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собираемых системами мониторинга сейсмической опасности на угольных шахтах» . Архив горных наук . 55 (1): 91–114.
  221. ^ Сикора, Марек и Беата Сикора. «Грубый мониторинг природных опасностей». Грубые наборы: избранные методы и приложения в менеджменте и технике . Springer London, 2012. 163–179.
  222. ^ Аддор, Нанс; Ньюман, Эндрю Дж.; Мизуками, Наоки; Кларк, Мартин П. (20 октября 2017 г.). «Набор данных CAMELS: атрибуты водосбора и метеорология для исследований на больших выборках» . Гидрология и науки о системе Земли . 21 (10): 5293–5313. Бибкод : 2017HESS...21.5293A . doi : 10.5194/hess-21-5293-2017 . ISSN   1607-7938 .
  223. ^ Ньюман, Эй Джей; Кларк, член парламента; Сэмпсон, К.; Вуд, А.; Хэй, LE; Бок, А.; Вигер, Р.Дж.; Блоджетт, Д.; Брекке, Л.; Арнольд-младший; Хопсон, Т. (14 января 2015 г.). «Разработка большого набора гидрометеорологических данных в масштабе водораздела для прилегающих территорий США: характеристики набора данных и оценка региональной изменчивости характеристик гидрологической модели» . Гидрология и науки о системе Земли . 19 (1): 209–223. Бибкод : 2015HESS...19..209N . дои : 10.5194/hess-19-209-2015 . ISSN   1607-7938 .
  224. ^ Альварес-Гарретон, Камила; Мендоса, Пол А.; Буазье, Джон Пол; Аддор, Нэнси; Гальегильос, Морис; Самбрано-Биджарини, Морис; Лара, Энтони; Пуэльма, Кристофер; Корты, Гонсало; Гарро, Рене; Макфи, Джеймс (13 ноября 2018 г.). «Набор данных CAMELS-CL: атрибуты водосбора и метеорология для крупных выборочных исследований – набор данных Чили» . Гидрология и науки о системе Земли . 22 (11): 5817–5846. Бибкод : 2018HESS...22.5817A . дои : 10.5194/hess-22-5817-2018 . ISSN   1607-7938 . S2CID   133955609 .
  225. ^ Чагас, Винисиус Б.П.; Чаффе, Педро Л.Б.; Аддор, Нанс; Фан, Фернандо М.; Флейшманн, Аян С.; Пайва, Родриго CD; Сикейра, Винисиус А. (8 сентября 2020 г.). «CAMELS-BR: гидрометеорологические временные ряды и атрибуты ландшафта для 897 водосборных бассейнов Бразилии» . Данные науки о системе Земли . 12 (3): 2075–2096. Бибкод : 2020ESSD...12.2075C . doi : 10.5194/essd-12-2075-2020 . ISSN   1866-3516 . S2CID   234737197 .
  226. ^ Коксон, Джемма; Аддор, Нанс; Блумфилд, Джон П.; Фрир, Джим; Фрай, Мэтт; Ханнафорд, Джейми; Хауден, Николас Дж. К.; Лейн, Розанна; Льюис, Мелинда; Робинсон, Эмма Л.; Вагенер, Торстен (12 октября 2020 г.). «CAMELS-GB: гидрометеорологические временные ряды и атрибуты ландшафта для 671 водосборного бассейна Великобритании» . Данные науки о системе Земли . 12 (4): 2459–2483. Бибкод : 2020ESSD...12.2459C . doi : 10.5194/essd-12-2459-2020 . ISSN   1866-3516 . S2CID   226192657 .
  227. ^ Фаулер, Кейрнан Дж.А.; Ачарья, Суваш Чандра; Аддор, Нанс; Чжоу, Чичжун; Пил, Мюррей К. (6 августа 2021 г.). «CAMELS-AUS: гидрометеорологические временные ряды и характеристики ландшафта для 222 водосборных бассейнов Австралии» . Данные науки о системе Земли . 13 (8): 3847–3867. Бибкод : 2021ESSD...13.3847F . doi : 10.5194/essd-13-3847-2021 . ISSN   1866-3516 . S2CID   238796784 .
  228. ^ Клинглер, Кристоф; Шульц, Карстен; Хернеггер, Мэтью (16 сентября 2021 г.). «LamaH-CE: БОЛЬШАЯ ВЫБОРКА ДАННЫХ для гидрологии и наук об окружающей среде для Центральной Европы» . Данные науки о системе Земли . 13 (9): 4529–4565. Бибкод : 2021ESSD...13.4529K . дои : 10.5194/essd-13-4529-2021 . ISSN   1866-3516 . S2CID   240533508 .
  229. ^ Да, I – C (1998). «Моделирование прочности высокопрочного бетона с использованием искусственных нейронных сетей». Исследования цемента и бетона . 28 (12): 1797–1808. дои : 10.1016/s0008-8846(98)00165-3 .
  230. ^ Заранди, М. Х. Фазель; и др. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления . 8 (1): 488–498. Бибкод : 2008ApSoC...8...79S . дои : 10.1016/j.asoc.2007.02.010 .
  231. ^ Да, И. «Моделирование осадки бетона с помощью летучей золы и суперпластификатора». Компьютеры и бетон 5.6 (2008): 559–572.
  232. ^ Генсель, Осман; и др. (2011). «Сравнение искусственных нейронных сетей и общих подходов к линейной модели для анализа абразивного износа бетона». Строительство и строительные материалы . 25 (8): 3486–3494. дои : 10.1016/j.conbuildmat.2011.03.040 .
  233. ^ Dietterich, Thomas G., et al. "A comparison of dynamic reposing and tangent distance for drug activity prediction Archived 7 December 2019 at the Wayback Machine." Advances in Neural Information Processing Systems (1994): 216–216.
  234. ^ Buscema, Massimo, William J. Tastle, and Stefano Terzi. "Meta net: A new meta-classifier family."Data Mining Applications Using Artificial Adaptive Systems. Springer New York, 2013. 141–182.
  235. ^ Barnard, Amanda; Sun, Baichuan; Motevalli Soumehsaraei, Ben; & Opletal, George (2019): Silver Nanoparticle Data Set. v3. CSIRO. Data Collection. https://doi.org/10.25919/5d22d20bc543e
  236. ^ Barnard, Amanda; Sun, Baichuan; & Opletal, George (2019): Platinum Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/5d3958d9bf5f7
  237. ^ Barnard, Amanda; & Opletal, George (2019): Gold Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5d395ef9a4291
  238. ^ Barnard, Amanda; & Opletal, George (2019): Ruthenium Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30b8fa67484
  239. ^ Barnard, Amanda; & Opletal, George (2019): Copper Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30ba386311f
  240. ^ Barnard, Amanda; & Opletal, George (2023): Palladium Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/epxd-8p61
  241. ^ Ting, Jonathan; Barnard, Amanda; Opletal, George (2023): AuCo Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/7h3x-1343
  242. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/jzh8-rd31
  243. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/tdnv-jp30
  244. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/qced-2e85
  245. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/az9t-vr97
  246. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/0bs4-sn79
  247. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/em3a-9a89
  248. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/991j-hg07
  249. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/7zh9-3f67
  250. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/9sz9-3a85
  251. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/6ajg-1275
  252. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/v0r5-sw08
  253. ^ Lu, Kaihan; Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/psvw-am47
  254. ^ Amoradnejad, Issa; Amoradnejad, Rahimberdi; et al. (2022). "Age dataset: A structured general-purpose dataset on life, work, and death of 1.22 million distinguished people". Workshop Proceedings of the 16th International AAAI Conference on Web and Social Media (ICWSM). 3. ICWSM: 1–4. doi:10.36190/2022.82. S2CID 249668669.
  255. ^ "Age Dataset". GitHub. 7 June 2022.
  256. ^ "Synthetic Fundus Dataset". Archived from the original on 29 November 2021. Retrieved 22 February 2023.
  257. ^ Lo Castro, Dario; et al. (2020). "A visual framework to create photorealistic retinal vessels for diagnosis purposes". Journal of Biomedical Informatics. 108: 103490. doi:10.1016/j.jbi.2020.103490. PMID 32640292. S2CID 220429697.
  258. ^ Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.
  259. ^ Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.
  260. ^ Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179. S2CID 84043.
  261. ^ Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.
  262. ^ Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. Bibcode:1997PatRe..30.1145B. doi:10.1016/s0031-3203(96)00142-2. S2CID 13806304.
  263. ^ Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S; Goldgof, Dmitry B (eds.). Biomedical Image Processing and Biomedical Visualization. Vol. 1905. pp. 861–870. doi:10.1117/12.148698. S2CID 14922543.
  264. ^ Demir, Cigdem, and Bülent Yener. "Automated cancer diagnosis based on histopathological images: a systematic survey." Rensselaer Polytechnic Institute, Tech. Rep (2005).
  265. ^ Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." Rockville, MD: Substance Abuse and Mental Health Services Administration 201 (2011).
  266. ^ Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. Bibcode:1991PatRe..24..317H. doi:10.1016/0031-3203(91)90074-f.
  267. ^ Jump up to: a b Li, Jinyan, and Limsoon Wong. "Using rules to analyse bio-medical data: a comparison between C4. 5 and PCL." Advances in Web-Age Information Management. Springer Berlin Heidelberg, 2003. 254–265.
  268. ^ Güvenir, H. Altay, et al. "A supervised machine learning algorithm for arrhythmia analysis."Computers in Cardiology 1997. IEEE, 1997.
  269. ^ Lagus, Krista, et al. "Independent variable group analysis in learning compact representations for data." Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR'05), T. Honkela, V. Könönen, M. Pöllä, and O. Simula, Eds., Espoo, Finland. 2005.
  270. ^ Strack, Beata, et al. "Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical database patient records." BioMed Research International 2014; 2014
  271. ^ Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.
  272. ^ Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.
  273. ^ Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].
  274. ^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.{{cite web}}: CS1 maint: multiple names: authors list (link)
  275. ^ Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231–234. doi:10.5566/ias.1155. ISSN 1854-5165.
  276. ^ Bagirov, A. M.; et al. (2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007/bf02578945. S2CID 14165678.
  277. ^ Fung, Glenn, et al. "A fast iterative algorithm for fisher discriminant using heterogeneous kernels."Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
  278. ^ Quinlan, John Ross, et al. "Inductive knowledge acquisition: a case study." Proceedings of the Second Australian Conference on Applications of expert systems. Addison-Wesley Longman Publishing Co., Inc., 1987.
  279. ^ Jump up to: a b Zhou, Zhi-Hua; Jiang, Yuan (2004). "NeC4. 5: neural ensemble based C4. 5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109/tkde.2004.11. S2CID 1024861.
  280. ^ Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.
  281. ^ Er, Orhan, A. Çetin Tanrikulu, and Abdurrahman Abakay. "Use of artificial intelligence techniques for diagnosis of malignant pleural mesothelioma."Dicle Tıp Dergisi 42.1 (2015).
  282. ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.
  283. ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (May 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112. S2CID 13666294.
  284. ^ "Parkinson's Vision-Based Pose Estimation Dataset | Kaggle". kaggle.com. Retrieved 22 August 2018.
  285. ^ Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.
  286. ^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902. S2CID 146809768.
  287. ^ "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.
  288. ^ Clark, David, Zoltan Schreter, and Anthony Adams. "A quantitative comparison of dystal and backpropagation." Proceedings of 1996 Australian Conference on Neural Networks. 1996.
  289. ^ Jiang, Yuan, and Zhi-Hua Zhou. "Editing training data for kNN classifiers with neural network ensemble." Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
  290. ^ Ontañón, Santiago, and Enric Plaza. "On similarity measures based on a refinement lattice." Case-Based Reasoning Research and Development. Springer Berlin Heidelberg, 2009. 240–255.
  291. ^ "PLF data inventory". GitHub. 5 November 2021.
  292. ^ Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.
  293. ^ Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.
  294. ^ Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73. Archived from the original (PDF) on 6 August 2019. Retrieved 6 August 2019.
  295. ^ "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.
  296. ^ Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. Bibcode:2021NatSR..11.8134W. doi:10.1038/s41598-021-87602-3. ISSN 2045-2322. PMC 8046754. PMID 33854157.
  297. ^ Cortez, Paulo, and Aníbal de Jesus Raimundo Morais. "A data mining approach to predict forest fires using meteorological data." (2007).
  298. ^ Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.
  299. ^ Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
  300. ^ Ghahramani, Zoubin, and Michael I. Jordan. "Supervised learning from incomplete data via an EM approach Archived 22 April 2017 at the Wayback Machine." Advances in neural information processing systems 6. 1994.
  301. ^ Mallah, Charles; Cope, James; Orwell, James (2013). "Plant leaf classification using probabilistic integration of shape, texture and margin features". Signal Processing, Pattern Recognition and Applications. 5: 1.
  302. ^ Yahiaoui, Itheri, Olfa Mzoughi, and Nozha Boujemaa. "Leaf shape descriptor for tree species identification Archived 6 August 2019 at the Wayback Machine." Multimedia and Expo (ICME), 2012 IEEE International Conference on. IEEE, 2012.
  303. ^ Tan, Ming, and Larry Eshelman. "Using weighted networks to represent classification knowledge in noisy domains." Proceedings of the Fifth International Conference on Machine Learning. 2014.
  304. ^ Charytanowicz, Małgorzata, et al. "Complete gradient clustering algorithm for features analysis of x-ray images." Information technologies in biomedicine. Springer Berlin Heidelberg, 2010. 15–24.
  305. ^ Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.
  306. ^ Blackard, Jock A.; Dean, Denis J. (1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. Bibcode:1999CEAgr..24..131B. CiteSeerX 10.1.1.128.2475. doi:10.1016/s0168-1699(99)00046-0. S2CID 13985407.
  307. ^ Fürnkranz, Johannes. "Round robin rule learning."Proceedings of the 18th International Conference on Machine Learning (ICML-01): 146—153. 2001.
  308. ^ Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.
  309. ^ Мунисами, Тришен; и др. (2015). «Распознавание листьев растений с использованием особенностей формы и цветовой гистограммы с помощью классификаторов K-ближайших соседей» . Procedia Информатика . 58 : 740–747. дои : 10.1016/j.procs.2015.08.095 .
  310. ^ Ли, Бай (2016). «Сопоставление атомных потенциалов: эволюционный подход к распознаванию целей, основанный на краевых характеристиках». Оптик . 127 (5): 3162–3168. Бибкод : 2016Оптик.127.3162Л . дои : 10.1016/j.ijleo.2015.11.186 .
  311. ^ Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.
  312. ^ Нильсбак, Мария-Елена и Эндрю Зиссерман. « Визуальный словарь классификации цветов ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.
  313. ^ Гизельссон, Томас М.; и др. (2017). «Общедоступная база данных изображений для эталонных алгоритмов классификации саженцев растений». arXiv : 1711.05458 [ cs.CV ].
  314. ^ Олтян, Михай (2017). «Набор данных Fruits-360» . Гитхаб .
  315. ^ Накаи, Кента; Канехиса, Минору (1991). «Экспертная система прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика . 11 (2): 95–110. дои : 10.1002/прот.340110203 . ПМИД   1946347 . S2CID   27606447 .
  316. ^ Линг, Чарльз X. и др. « Деревья решений с минимальными затратами ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
  317. ^ Маэ, Пьер и др. « Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF ». Биоинформатика (2014): btu022.
  318. ^ Барбано, Дуэйн; и др. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием времяпролетной масс-спектрометрии с матричной лазерной десорбцией и ионизацией (MALDI-TOF MS)» . ПЛОС ОДИН . 10 (8): e0135337. Бибкод : 2015PLoSO..1035337B . дои : 10.1371/journal.pone.0135337 . ПМЦ   4536233 . ПМИД   26271045 .
  319. ^ Хортон, Пол; Накаи, Кента (1996). «Вероятностная система классификации для прогнозирования мест клеточной локализации белков» (PDF) . Протокол ISMB-96 . 4 : 109–15. ПМИД   8877510 . Архивировано из оригинала (PDF) 4 ноября 2021 года . Проверено 6 августа 2019 г.
  320. ^ Оллвейн, Эрин Л.; Шапире, Роберт Э.; Певец Йорам (2001). «Превращение мультикласса в двоичный: объединяющий подход для классификаторов полей» (PDF) . Журнал исследований машинного обучения . 1 : 113–141.
  321. ^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: прогнозирование токсичности с помощью глубокого обучения» . Границы в науке об окружающей среде . 3 : 80. дои : 10.3389/fenvs.2015.00080 .
  322. ^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). «Оценка алгоритмов обнаружения аномалий в реальном времени — эталонный тест Numenta Anomaly». 2015 г., 14-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA) . стр. 38–44. arXiv : 1510.03336 . дои : 10.1109/ICMLA.2015.141 . ISBN  978-1-5090-0287-0 . S2CID   6842305 .
  323. ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович. «Репозиторий SKAB GitHub» . Гитхаб . Проверено 12 января 2021 г.
  324. ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович (2020). «Бенчмарк аномалий Сколтеха (СКАБ)» . Кэггл. doi : 10.34740/KAGGLE/DSV/1693952 (неактивен 17 марта 2024 г.) . Проверено 12 января 2021 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь ) CS1 maint: DOI неактивен с марта 2024 г. ( ссылка )
  325. ^ Кампос, Гильерме О.; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Г.Б.; Миценкова, Барбора; Шуберт, Эрих; Согласен, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. doi : 10.1007/s10618-015-0444-8 . ISSN   1384-5810 . S2CID   1952214 .
  326. ^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для нейронных ответов на вопросы в базе знаний DBpedia . 2018.
  327. ^ Томмазо Сору, Эдгард Маркс. Диего Муссаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык . 2018.
  328. ^ Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения . КОЛИНГ 2020.
  329. ^ Киет Ван Нгуен, Кхием Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Расширение лексического подхода с использованием внешних знаний для понимания машинного чтения на вьетнамском языке с множественным выбором . Доступ IEEE. 2020.
  330. ^ Ананта, Равитея; Вакуленко Светлана; Ту, Чжучэн; Лонгпре, Шейн; Пулман, Стивен; Чаппиди, Шринивас (2020). «Ответы на вопросы в открытой области становятся диалоговыми благодаря переписыванию вопросов». arXiv : 2010.04898 [ cs.IR ].
  331. ^ Хашаби, Дэниел; Мин, Севон; Хот, Тушар; Сабхарвал, Ашиш; Тафьорд, Ойвинд; Кларк, Питер; Хаджиширзи, Ханнане (ноябрь 2020 г.). «UNIFIEDQA: пересекая границы форматов с помощью единой системы контроля качества» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2020 . Онлайн: Ассоциация компьютерной лингвистики: 1896–1907. arXiv : 2005.00700 . doi : 10.18653/v1/2020.findings-emnlp.171 . S2CID   218487109 .
  332. ^ Taskmaster , Наборы данных исследований Google, 17 декабря 2022 г. , получено 7 января 2023 г.
  333. ^ Бирн, Билл; Кришнамурти, Картик; Санкар, Чиннадхурай; Нилакантан, Арвинд; Дакворт, Дэниел; Явуз, Семих; Гудрич, Бен; Дубей, Амит; Цедильник, Энди; Ким, Кю Ён (1 сентября 2019 г.). «Наставник задач-1: к реалистичному и разнообразному набору данных диалога». arXiv : 1909.05358 [ cs.CL ].
  334. ^ Ясунага, Мичихиро; Лян, Перси (21 ноября 2020 г.). «Восстановление программ с самоконтролем на основе графиков на основе диагностической обратной связи» . Международная конференция по машинному обучению . ПМЛР: 10799–10808. arXiv : 2005.10636 .
  335. ^ Ван, Ичжун; Мишра, Сваруп; Алипурмолабаши, Пега; Корди, Йегане; Мирзаи, Амирреза; Арункумар, Анджана; Ашок, Арджун; Дханасекаран, Арут Сельван; Наик, Атхарва; Стапп, Дэвид; Патхак, Эшаан; Караманолакис, Яннис; Лай, Хайжи Гэри; Пурохит, Ишан; Мондал, Ишани (24 октября 2022 г.). «Сверхестественные инструкции: обобщение с помощью декларативных инструкций для более чем 1600 задач НЛП». arXiv : 2204.07705 [ cs.CL ].
  336. ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Куан Нгок; Бернарди, Рафаэлла; Пеццелле, Сандро Барони, Марко; Боледа, Джемма; Фернандес, Ракель (7 августа 2016 г.), Набор данных LAMBADA , номер doi : 10.5281/zenodo.2630551 , получено 7 января 2023 г.
  337. ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Нгок Куан; Бернарди, Рафаэлла; Пеццелле, Сандро; Барони, Марко; Боледа, Джемма; Фернандес, Ракель (август 2016 г.). «Набор данных LAMBADA: предсказание слов, требующее широкого контекста дискурса» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 1525–1534 гг. дои : 10.18653/v1/P16-1144 . hdl : 10230/32702 . S2CID   2381275 .
  338. ^ Вэй, Джейсон; Босма, Мартен; Чжао, Винсент; Гуу, Кельвин; Ю, Адамс Вэй; Лестер, Брайан; Ду, Нэн; Дай, Эндрю М.; Ле, Куок В. (10 февраля 2022 г.). «Точно настроенные языковые модели — это ученики с нулевым шансом» . arXiv : 2109.01652 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  339. ^ «Работа с ATT&CK | MITRE ATT&CK®» . Attack.mitre.org . Проверено 14 января 2023 г.
  340. ^ «CAPEC — Перечисление и классификация общих шаблонов атак (CAPEC™)» . capec.mitre.org . Проверено 14 января 2023 г.
  341. ^ «CVE — Главная» . cve.mitre.org . Проверено 14 января 2023 г.
  342. ^ «CWE — Перечень общих слабостей» . cwe.mitre.org . Проверено 14 января 2023 г.
  343. ^ Лим, Суи Киат; Муис, Алдриан Обаха; Лу, Вэй; Онг, Чэнь Хуэй (июль 2017 г.). «MalwareTextDB: база данных для аннотированных статей о вредоносном ПО» . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Ванкувер, Канада: Ассоциация компьютерной лингвистики: 1557–1567. дои : 10.18653/v1/P17-1143 . S2CID   7816596 .
  344. ^ «ЮСЕНИКС» . УСЕНИКС . Проверено 19 января 2023 г.
  345. ^ «APTnotes | Прочтите документацию» . readthedocs.org . Проверено 19 января 2023 г.
  346. ^ «Недавние публикации авторов/названий в области криптографии и безопасности» . arxiv.org . Проверено 19 января 2023 г.
  347. ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 0» . f0.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
  348. ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 1» . f1.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
  349. ^ Винсент, Адам. «Взлом и усиление защиты веб-сервисов» (PDF) . owasp.org .
  350. ^ МакКрей, Джо. «Расширенное внедрение SQL» (PDF) . defcon.org .
  351. ^ Шах, Шрирадж. «Техника обнаружения и использования слепого внедрения SQL» (PDF) . blueinfy.com .
  352. ^ Палцер, КЦ «Этический хакерство» (PDF) . текстовые файлы .
  353. ^ «Раскрытые секреты взлома — информационно-методическое руководство» (PDF) .
  354. ^ Парк, Алексис. «Взломать любой сайт» (PDF) .
  355. ^ Серрудо, Сезар; Мартинес Файо, Эстебан. «Взлом баз данных для владения вашими данными» (PDF) . черная шляпа .
  356. ^ О'Коннор, Тиджей. «Violent Python — кулинарная книга для хакеров, судебных аналитиков, тестеров на проникновение и инженеров по безопасности» (PDF) . Гитхаб .
  357. ^ Гранд, Джо. «Реверс-инжиниринг оборудования: доступ, анализ и поражение» (PDF) . черная шляпа .
  358. ^ Чанг, Джейсон В. «Компьютерный взлом: обоснование требований к национальной отчетности» (PDF) . cyber.harvard.edu .
  359. ^ «Репозиторий национальных стратегий кибербезопасности» . МСЭ . Проверено 20 января 2023 г.
  360. ^ Чен, Яньлинь (31 августа 2022 г.), Cyber ​​Security Natural Language Processing , получено 20 января 2023 г.
  361. ^ Зампиери, Маркос; Мальмаси, Шервин; Наков, Преслав; Розенталь, Сара; Фарра, Нура; Кумар, Ритеш (16 апреля 2019 г.). «Прогнозирование типа и цели оскорбительных публикаций в социальных сетях». arXiv : 1902.09666 [ cs.CL ].
  362. ^ «Сообщения об угрозах» . www.ncsc.gov.uk. ​Проверено 20 января 2023 г.
  363. ^ «Категория: Отчеты APT | Securelist» . Securelist.com . Проверено 23 января 2023 г.
  364. ^ «Ваша связь с новостями о кибербезопасности - Киберновости | CyberWire» . КиберВайр . Проверено 23 января 2023 г.
  365. ^ «Новости» . 21 августа 2016 года . Проверено 23 января 2023 г.
  366. ^ «Киберньюс» . Киберньюс .
  367. ^ «Блипингкомпьютер» . Мигающий компьютер . Проверено 23 января 2023 г.
  368. ^ «Домашняя страница» . Запись из Recorded Future News . Проверено 23 января 2023 г.
  369. ^ «HackRead | Последние киберпреступления — InfoSec-Tech — Новости хакерства» . 8 января 2022 г. Проверено 23 января 2023 г.
  370. ^ «Securelist | Исследования и отчеты Касперского об угрозах» . Securelist.com . Проверено 31 января 2023 г.
  371. ^ Харшоу, Кристофер Р.; Бриджес, Роберт А.; Яннаконе, Майкл Д.; Рид, Джоэл В.; Гудолл, Джон Р. (5 апреля 2016 г.). «Графпринтс» . Материалы 11-й ежегодной конференции по исследованию кибербезопасности и информационной безопасности . ЦИРЦ '16. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–4. дои : 10.1145/2897795.2897806 . ISBN  978-1-4503-3752-6 .
  372. ^ «Farsight Security, решения для кибербезопасности» . Безопасность Фарсайта . Проверено 13 февраля 2023 г.
  373. ^ «Шнайер о безопасности» . www.schneier.com . Проверено 13 февраля 2023 г.
  374. ^ «№1 в области облачной безопасности и кибербезопасности конечных точек» . Тренд Микро . Проверено 13 февраля 2023 г.
  375. ^ «Новости хакеров | Надежный сайт новостей кибербезопасности №1» . Хакерские новости . Проверено 13 февраля 2023 г.
  376. ^ «Кребс о безопасности – подробные новости и расследования в области безопасности» . Проверено 25 февраля 2023 г.
  377. ^ «График знаний MITRE D3FEND» . d3fend.mitre.org . Проверено 31 марта 2023 г.
  378. ^ «МИТР | АТЛАС™» . atlas.mitre.org . Проверено 31 марта 2023 г.
  379. ^ «MITRE Engage™ | Система взаимодействия с противниками от MITRE» . Проверено 1 апреля 2023 г.
  380. ^ «Уроки взлома — лучшие пошаговые руководства по хакерству» . Учебники по взлому . Проверено 1 апреля 2023 г.
  381. ^ «Центр знаний TCFD» . Центр знаний TCFD . Проверено 3 февраля 2023 г.
  382. ^ «ResponsibilityReports.com» . www.responsibilityreports.com . Проверено 3 февраля 2023 г.
  383. ^ «О — МГЭИК» . Проверено 20 февраля 2023 г.
  384. ^ «Альянс исследований корпоративной устойчивости | ARCS служит средством продвижения тщательных академических исследований по вопросам корпоративной устойчивости» . Corporate-sustainability.org . Проверено 2 марта 2023 г.
  385. ^ Мехра, Шришти; Лука, Роберт; Чжан, Исюнь (26 марта 2022 г.). «ESGBERT: языковая модель для помощи в задачах классификации, связанных с экологической, социальной и управленческой практикой компаний». Встроенные системы и приложения : 183–190. arXiv : 2203.16788 . дои : 10.5121/csit.2022.120616 . ISBN  9781925953657 . S2CID   247825524 .
  386. ^ В эту статью включен текст , доступный по лицензии CC BY 4.0 .
  387. ^ Диггельманн, Томас; Бойд-Грабер, Иордания; Булиан, Яннис; Чиарамита, Массимилиано; Лейппольд, Маркус (2 января 2021 г.). «КЛИМАТНАЯ ЛИХОРАДКА: набор данных для проверки реальных климатических заявлений». arXiv : 2012.00614 [ cs.CL ].
  388. ^ "климат-новости-дб" . www.climate-news-db.com . Проверено 3 февраля 2023 г.
  389. ^ «Климатекст» . www.sustainablefinance.uzh.ch . Проверено 19 февраля 2023 г.
  390. ^ «Гринбиз» . www.greenbiz.com . Проверено 2 марта 2023 г.
  391. ^ «Изучите горячий список @Reuters из 1000 ведущих ученых-климатологов» . Рейтер . Проверено 22 марта 2023 г.
  392. ^ «Блоги | Альянс исследований корпоративной устойчивости» . Corporate-sustainability.org . Проверено 27 марта 2023 г.
  393. ^ «Гринбиз» . www.greenbiz.com . Проверено 29 марта 2023 г.
  394. ^ «Новости КСО» . www.csrwire.com . Проверено 29 марта 2023 г.
  395. ^ «Домашняя страница CDP» . www.cdp.net . Проверено 29 марта 2023 г.
  396. ^ де Врис, Вред (2022). «Стек: 3 ТБ исходного кода с разрешительной лицензией». arXiv : 2211.15533 [ cs.CL ].
  397. ^ «Дедуляция стека» . Обнимающее лицо . Проверено 29 августа 2023 г.
  398. ^ «Блог о гибридном облаке» . content.cloud.redhat.com . Проверено 9 апреля 2023 г.
  399. ^ «Оркестровка контейнеров производственного уровня» . Кубернетес . Проверено 9 апреля 2023 г.
  400. ^ «Главная страница | Официальная документация Red Hat OpenShift» . docs.openshift.com . Проверено 9 апреля 2023 г.
  401. ^ «Фонд облачных вычислений» . Фонд облачных вычислений . Проверено 9 апреля 2023 г.
  402. ^ Презентации сообщества CNCF , Cloud Native Computing Foundation (CNCF), 11 апреля 2023 г. , получено 11 апреля 2023 г.
  403. ^ «Red Hat – Мы создаем технологии с открытым исходным кодом для предприятий» . www.redhat.com . Проверено 1 мая 2023 г.
  404. ^ Браун, Майкл Скотт, Майкл Дж. Пелоси и Генри Дирска. Генетический алгоритм с динамическим радиусом, сохраняющий виды, для финансового прогнозирования акций индекса Доу-Джонса. [ мертвая ссылка ] .. Машинное обучение и интеллектуальный анализ данных в распознавании образов . Springer Berlin Heidelberg, 2013. 27–41.
  405. ^ Шен, Као-И; Цзенг, Гво-Сюн (2015). «Модель VC-DRSA с нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем . 17 (3): 375–389. дои : 10.1007/s40815-015-0058-8 . S2CID   68241024 .
  406. ^ Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований . 27 (3): 221–234. CiteSeerX   10.1.1.18.4267 . дои : 10.1016/s0020-7373(87)80053-6 .
  407. ^ Хамерс, Барт; Суйкенс, Йохан АК; Де Мур, Барт (2003). «Связанное трансдуктивное ансамблевое обучение моделей ядра» (PDF) . Журнал исследований машинного обучения . 1 :1–48.
  408. ^ Шмуэли, Галит , Ральф П. Руссо и Вольфганг Янк. « БАРИСТА: модель поступления ставок на интернет-аукционах ». Анналы прикладной статистики (2007): 412–441.
  409. ^ Пэн, Цзе и Ханс-Георг Мюллер. « Дистанционная кластеризация редко наблюдаемых случайных процессов с применением к онлайн-аукционам ». Анналы прикладной статистики (2008): 1056–1077.
  410. ^ Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. « Генетическое программирование для классификации данных: разделение пространства поиска ». Материалы симпозиума ACM 2004 года по прикладным вычислениям . АКМ, 2004.
  411. ^ Моро, Сержио; Кортес, Пауло; Рита, Пауло (2014). «Подход, основанный на данных, для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений . 62 : 22–31. дои : 10.1016/j.dss.2014.03.001 . hdl : 10071/9499 . S2CID   14181100 .
  412. ^ Пейн, Ричард Д.; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv : 1411.5653 [ stat.ME ].
  413. ^ Акбилгыч, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель гибридных нейронных сетей RBF в качестве прогнозиста». Статистика и вычисления . 24 (3): 365–375. дои : 10.1007/s11222-013-9375-7 . S2CID   17764829 .
  414. ^ Джабин, Сурайя. « Прогнозирование фондового рынка с использованием искусственной нейронной сети прямого распространения ». Межд. Дж. Компьютер. Прил. (IJCA) 99,9 (2014 г.).
  415. ^ Да, И-Чэн; Че-хуэй, Лянь (2009). «Сравнение методов интеллектуального анализа данных для точности прогнозирования вероятности дефолта клиентов по кредитным картам». Экспертные системы с приложениями . 36 (2): 2473–2480. дои : 10.1016/j.eswa.2007.12.020 . S2CID   15696161 .
  416. ^ Линь, Шу Лин (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями . 36 (4): 8333–8341. дои : 10.1016/j.eswa.2008.10.015 .
  417. ^ Юмо Сюй и Шей Б. Коэн. 2018. Прогноз движения акций на основе твитов и исторических цен. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) , страницы 1970–1979, Мельбурн, Австралия. Ассоциация компьютерной лингвистики.
  418. ^ Пелкманс, Кристиан; и др. (2005). «Дифференциограмма: непараметрическая оценка дисперсии шума и ее использование для выбора модели». Нейрокомпьютинг . 69 (1): 100–122. doi : 10.1016/j.neucom.2005.02.015 .
  419. ^ Бэй, Стивен Д.; и др. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень об исследованиях ACM SIGKDD . 2 (2): 81–85. CiteSeerX   10.1.1.15.9776 . дои : 10.1145/380995.381030 . S2CID   534881 .
  420. ^ Лукас, Д.Д.; и др. (2015). «Разработка оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости» . Геонаучные приборы, методы и системы данных . 4 (1): 121. Бибкод : 2015GI......4..121L . дои : 10.5194/gi-4-121-2015 .
  421. ^ Пэйлс, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований . 70 (24): 6053–6076. Бибкод : 1965JGR....70.6053P . дои : 10.1029/jz070i024p06053 .
  422. ^ Сигиллито, Винсент Г. и др. «Классификация радиолокационных сигналов из ионосферы с использованием нейронных сетей». Технический дайджест Johns Hopkins APL 10.3 (1989): 262–266.
  423. ^ Чжан, Кун и Вэй Фань. « Прогнозирование искаженных стохастических озоновых дней: анализ, решения и не только ». Знания и информационные системы 14.3 (2008): 299–326.
  424. ^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. « Байесовская пространственная квантильная регрессия ». Журнал Американской статистической ассоциации (2012).
  425. ^ Кохави, Рон (1996). «Повышение точности классификаторов Найва-Байеса: гибрид дерева решений». КДД . 96 .
  426. ^ Оза, Никундж К. и Стюарт Рассел. «Экспериментальное сравнение онлайн- и пакетной версий упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2001.
  427. ^ Бэй, Стивен Д. (2001). «Многомерная дискретизация для интеллектуального анализа множеств». Знания и информационные системы . 3 (4): 491–512. CiteSeerX   10.1.1.217.921 . дои : 10.1007/pl00011680 . S2CID   10945544 .
  428. ^ Рагглс, Стивен (1995). «Схемы выборки и ошибки выборки». Исторические методы . 28 (1): 40–46. дои : 10.1080/01615440.1995.9955312 .
  429. ^ Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. « Метод кривой обучения применительно к кластеризации ». АЙСТАТС . 2001.
  430. ^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая ансамблевые детекторы и базовые знания» . Прогресс в области искусственного интеллекта . 2 (2–3): 113–127. дои : 10.1007/s13748-013-0040-3 . S2CID   3345087 .
  431. ^ Жио, Ромен и Рафаэль Шерье. « Прогнозирование использования системы велопроката на день вперед ». Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г., Россия . ИИЭР, 2014.
  432. ^ Чжан, Сяньюань; и др. (2013). «Оценка времени в пути по городскому маршруту с использованием крупномасштабных данных такси с частичной информацией». Транспортные исследования, часть C: Новые технологии . 33 : 37–49. Бибкод : 2013TRPC...33...37Z . дои : 10.1016/j.trc.2013.04.001 .
  433. ^ Морейра-Матиас, Луис; и др. (2013). «Прогнозирование спроса пассажиров на такси с использованием потоковых данных» . Транзакции IEEE в интеллектуальных транспортных системах . 14 (3): 1393–1402. дои : 10.1109/tits.2013.2262376 . S2CID   14764358 .
  434. ^ Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки . 314 : 28–40. дои : 10.1016/j.ins.2015.03.068 .
  435. ^ Х.В. Джагадиш, Йоханнес Герке, Александрос Лабринидис, Яннис Папаконстантину, Джинеш М. Патель,Рагху Рамакришнан и Сайрус Шахаби. Большие данные и их технические проблемы. Коммун. акм,57(7):86–94, июль 2014 г.
  436. ^ Кальтранс ПеМС
  437. ^ Мейзель, Роберт и др. « Структура графов в Интернете — анализ на разных уровнях агрегации ». Журнал веб-науки 1.1 (2015).
  438. ^ Кушмерик, Николас. « Учимся удалять интернет-рекламу ». Материалы третьей ежегодной конференции по автономным агентам . АКМ, 1999.
  439. ^ Фрадкин, Дмитрий и Дэвид Мэдиган. « Эксперименты со случайными прогнозами для машинного обучения ». Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2003.
  440. ^ Эти данные использовались в разделах статистической графики и вычислений Американской статистической ассоциации за 1999 год.
  441. ^ Ма, Джастин и др. « Выявление подозрительных URL-адресов: применение масштабного онлайн-обучения ». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ, 2009.
  442. ^ Левченко, Кирилл и др. « Траектории кликов: сквозной анализ цепочки создания стоимости спама ». Безопасность и конфиденциальность (SP), симпозиум IEEE 2011 г., посвященный . ИИЭР, 2011.
  443. ^ Мохаммад, Рами М., Фади Табта и Ли Маккласки. « Оценка особенностей, связанных с фишинговыми веб-сайтами, с использованием автоматизированного метода ». Интернет-технологии и защищенные транзакции, Международная конференция 2012 г. для . ИИЭР, 2012.
  444. ^ Сингх, Ашишкумар и др. « Эксперименты по кластеризации больших данных о транзакциях для сегментации рынка ». Материалы Международной конференции по науке о больших данных и вычислительной технике 2014 года . АКМ, 2014.
  445. ^ Боллакер, Курт и др. « Freebase: совместно созданная графовая база данных для структурирования человеческих знаний ». Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными . АКМ, 2008.
  446. ^ Минц, Майк и др. « Дистанционный контроль для извлечения отношений без помеченных данных ». Материалы совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции по обработке естественного языка AFNLP: Том 2-Том 2 . Ассоциация компьютерной лингвистики, 2009.
  447. ^ Местерхарм, Крис и Майкл Дж. Паццани. « Активное обучение с использованием онлайн-алгоритмов. Архивировано 22 сентября 2017 г. в Wayback Machine ». Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2011.
  448. ^ Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и аппроксимации Нистрема с помощью адаптивной выборки» (PDF) . Журнал исследований машинного обучения . 14 (1): 2729–2769. arXiv : 1303.4207 . Бибкод : 2013arXiv1303.4207W .
  449. ^ Перейти обратно: а б «Куча» . Pile.eleuther.ai . Проверено 14 апреля 2022 г.
  450. ^ «Линии JSON» . jsonlines.org . Проверено 14 апреля 2022 г.
  451. ^ Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
  452. ^ «ОСКАР» . oscar-project.org . Проверено 12 августа 2023 г.
  453. ^ Ортис Суарес, Педро и др. « [2] ». Асинхронный конвейер для обработки огромных корпораций в инфраструктурах со средними и низкими ресурсами . ЦМЛК-7, 2019.
  454. ^ Абаджи, Жюльен и др. « [3] ». На пути к более чистому многоязычному сканируемому корпусу, ориентированному на документы . ЛРЭЦ, 2022.
  455. ^ Коэн, Ваня. «ОпенВебТекстКорпус» . OpenWebTextКорпус . Проверено 9 января 2023 г.
  456. ^ "openwebtext · Наборы данных в обнимающем лице" . Huggingface.co . 16 ноября 2022 г. Проверено 9 января 2023 г.
  457. ^ Солнье, Люсиль (2023). «Корпус BigScience ROOTS: составной многоязычный набор данных объемом 1,6 ТБ». arXiv : 2303.03915 [ cs.CL ].
  458. ^ «Данные BigScience · Наборы данных в обнимающем лице» . Huggingface.co . 29 августа 2023 г. Проверено 29 августа 2023 г.
  459. ^ Каттрал, Роберт; Оппачер, Франц; Деуго, Дуайт (2002). «Эволюционный анализ данных с автоматическим обобщением правил» (PDF) . Последние достижения в области компьютеров, вычислений и коммуникаций : 296–300. S2CID   18625415 . Архивировано из оригинала (PDF) 6 августа 2019 года.
  460. ^ Бертон, Ариэль Н.; Келли, Пол Х.Дж. (2006). «Прогнозирование производительности рабочих нагрузок подкачки с использованием облегченной трассировки». Компьютерные системы будущего поколения . 22 (7). Эльзевир Б.В.: 784–793. дои : 10.1016/j.future.2006.02.003 . ISSN   0167-739X .
  461. ^ Бейн, Майкл; Магглтон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект . 13 . Oxford University Press, Inc.: 291–309. дои : 10.1093/oso/9780198538509.003.0012 . ISBN  978-0-19-853850-9 .
  462. ^ Килан, младший (1983). «Изучение эффективных процедур классификации и их применение к шахматным эндшпилям». Машинное обучение – эффективные процедуры классификации обучения и их применение в шахматных эндшпильах . Том. 1. С. 463–482. дои : 10.1007/978-3-662-12405-5_15 . ISBN  978-3-662-12407-9 . {{cite book}}: |journal= игнорируется ( помогите )
  463. ^ Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк.
  464. ^ Матеус, Кристофер Дж.; Ренделл, Ларри А. (1989). «Конструктивная индукция по деревьям решений» (PDF) . ИДЖКАИ . 89 . [ мертвая ссылка ]
  465. ^ Белсли, Дэвид А., Эдвин Кух и Рой Э. Уэлш. Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности . Том. 571. Джон Уайли и сыновья, 2005.
  466. ^ Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия, основанная на знаниях» (PDF) . Интеллектуальные системы IEEE . 24 (2): 64–75. дои : 10.1109/MIS.2009.32 . hdl : 1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7 . S2CID   6667472 . Архивировано из оригинала (PDF) 16 августа 2017 года . Проверено 6 декабря 2018 г.
  467. ^ Ли, Лихун; Чу, Вэй; Лэнгфорд, Джон; Ван, Сюаньхуэй (2011). «Непредвзятая офлайн-оценка алгоритмов рекомендации новостных статей на основе контекстных бандитов». Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных . стр. 297–306. arXiv : 1003.5956 . дои : 10.1145/1935826.1935878 . ISBN  9781450304931 . S2CID   744200 .
  468. ^ Юнг, Кам Фунг и Яньян Ян. « Проактивная персонализированная система рекомендаций для мобильных новостей ». Разработки в области разработки электронных систем (DESE), 2010 г. ИИЭР, 2010.
  469. ^ Гасс, Сьюзен Э.; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль над распространением». Бюллетень о загрязнении морской среды . 52 (5): 549–559. Бибкод : 2006МарПБ..52..549Г . дои : 10.1016/j.marpolbul.2005.10.002 . ПМИД   16300800 .
  470. ^ Гионис, Аристид; Маннила, Хейкки; Цапарас, Панайотис (2007). «Кластерная агрегация». Транзакции ACM по извлечению знаний из данных . 1 (1): 4. CiteSeerX   10.1.1.709.528 . дои : 10.1145/1217299.1217303 . S2CID   433708 .
  471. ^ Обрадович, Зоран и Слободан Вучетич. Проблемы интеллектуального анализа научных данных: гетерогенные, смещенные и большие выборки . Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.
  472. ^ Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). «Вызов CoIL 2000: Дело страховой компании». Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук . 9 : 1–43.
  473. ^ Мао, Казахстан (2002). «Выбор центра нейронной сети RBF на основе меры разделимости класса отношения Фишера». Транзакции IEEE в нейронных сетях . 13 (5): 1211–1217. дои : 10.1109/tnn.2002.1031953 . ПМИД   18244518 .
  474. ^ Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в государственные школы» (PDF) . Экспертные системы в государственном управлении . 1 : 145–160.
  475. ^ Лизотт, Дэниел Дж.; Мадани, Омид; Грейнер, Рассел (2012). «Бюджетное обучение классификаторов Найва-Байеса». arXiv : 1212.2472 [ cs.LG ].
  476. ^ Лебовиц, Майкл (1986). «Концептуальное обучение в богатой входной области: память, основанная на обобщениях» . Машинное обучение: подход искусственного интеллекта . 2 : 193–214. ISBN  9780934613002 .
  477. ^ Да, И-Чэн; Ян, Кинг-Янг; Тин, Тао-Мин (2009). «Открытие знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями . 36 (3): 5866–5871. дои : 10.1016/j.eswa.2008.07.018 .
  478. ^ Ли, Вэнь-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система для повышения эффективности донорства крови» . Журнал качества Vol . 18 (2): 173.
  479. ^ Шмидтманн, Ирен и др. « Оценка реестра раковых заболеваний NRW с упором на связь записей. Архивировано 6 декабря 2018 г. в Wayback Machine ». Итоговый отчет от 11 ноября (2009 г.).
  480. ^ Сарияр, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с использованием теории экстремальных значений». Журнал биомедицинской информатики . 44 (4): 648–654. дои : 10.1016/j.jbi.2011.02.008 . ПМИД   21352952 .
  481. ^ Кандильер, Лоран и Винсент Лемэр. « Разработка и анализ задачи Nomao по активному обучению в реальном мире ». Труды ALRA: активное обучение в реальных приложениях, семинар ECML-PKDD . 2012.
  482. ^ Маркес, Иван Гарридо. « Метод адаптации предметной области для классификации текста на основе подхода самонастраивающегося обучения ». (2013).
  483. ^ Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные сетки для кластеризации больших наборов данных». СДМ. 2001.
  484. ^ Кузилек, Якуб и др. « OU Analyse: анализ студентов из группы риска в Открытом университете ». Обзор аналитики обучения (2015): 1–16.
  485. ^ Сименс, Джордж и др. Open Learning Analytics: интегрированная и модульная платформа [ постоянная мертвая ссылка ] . Дисс. Издательство Открытого университета, 2011.
  486. ^ Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читик, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных о городской жизни города Милана и провинции Трентино из нескольких источников» . Научные данные . 2 : 150055. Бибкод : 2015NatSD...250055B . дои : 10.1038/sdata.2015.55 . ISSN   2052-4463 . ПМЦ   4622222 . ПМИД   26528394 .
  487. ^ Ваншорен Дж., Ван Рейн Дж.Н., Бишл Б., Торго Л. (2013). «OpenML: сетевая наука в машинном обучении». Исследования SIGKDD . 15 (2): 49–60. arXiv : 1407.7722 . дои : 10.1145/2641190.2641198 . S2CID   4977460 .
  488. ^ Олсон Р.С., Ла Кава В., Ожеховский П., Урбанович Р.Дж., Мур Дж.Х. (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения» . Добыча биоданных . 10 (1): 36. arXiv : 1703.00512 . Бибкод : 2017arXiv170300512O . дои : 10.1186/s13040-017-0154-4 . ПМЦ   5725843 . ПМИД   29238404 .
  489. ^ «Готовые наборы данных» . appen.com . Приложение . Проверено 30 декабря 2020 г.
  490. ^ «Наборы данных с открытым исходным кодом» . appen.com . Приложение . Проверено 30 декабря 2020 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e17d595296f9fc54225c16bce455a2c7__1719416040
URL1:https://arc.ask3.ru/arc/aa/e1/c7/e17d595296f9fc54225c16bce455a2c7.html
Заголовок, (Title) документа по адресу, URL1:
List of datasets for machine-learning research - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)