Jump to content

Список наборов данных для исследований в области машинного обучения

(Перенаправлено с COCO (набор данных) )

Эти наборы данных используются в исследованиях машинного обучения (ML) и цитируются в рецензируемых научных журналах . Наборы данных являются неотъемлемой частью области машинного обучения. Крупные достижения в этой области могут быть результатом достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерного оборудования и, что менее интуитивно понятно, доступности высококачественных наборов обучающих данных. [1] Высококачественные помеченные наборы обучающих данных для контролируемых и полуконтролируемых машинного обучения алгоритмов обычно сложно и дорого создавать из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим. [2] [3] [4] [5]

Многие организации, включая правительства, публикуют и делятся своими наборами данных . Наборы данных классифицируются в зависимости от лицензий на открытые данные и неоткрытые данные .

Наборы данных различных государственных органов представлены в Списке открытых сайтов государственных данных . Наборы данных портируются на порталы открытых данных . Они доступны для поиска, размещения и доступа через такие интерфейсы, как Open API . Наборы данных доступны в различных отсортированных типах и подтипах.

Список сортировок, используемых для наборов данных

[ редактировать ]
Тип Подтипы
Конкретная категория Финансы , экономика , торговля , социальная сфера , здравоохранение , академия , спорт , еда , сельское хозяйство , путешествия , геопространственные , политические , потребительские товары , транспорт , логистика , окружающая среда , недвижимость , юридические , развлечения , энергетика , гостиничный бизнес
Объем Наднациональный Союз , Национальный , Субнациональный , Муниципальный , Городской , Сельский
Язык Китайский , испанский , английский , арабский , хинди , бенгали
Тип Табличный , график , текст , изображение , звук , видео
Использование Обучение, проверка и тестирование
Форматы файлов CSV , JSON , XML , KML , GeoJSON , шейп-файл , GML
Лицензии Creative-Commons , GPL , другие на закрытые данные лицензии
Последнее обновление Последний час, последний день, последняя неделя, последний месяц, последний год
Размер файла Минимум, Максимум, Диапазон
Статус Проверено, находится в стадии подготовки, деактивировано (или прекращено)
Количество записей 100, 1000, 10 000, 100 000, миллионы
Количество переменных Менее 10, 10, 100, 1000, 10000
Услуги Индивидуальный, Агрегированный

Портал данных классифицируется в зависимости от типа лицензии. известны Порталы данных с открытым исходным кодом, основанные на лицензии, как порталы открытых данных , которые используются многими правительственными организациями и академическими учреждениями .

Список порталов открытых данных

[ редактировать ]
Имя портала Лицензия Список установок портала Типичное использование
Комплексная сеть архивов знаний ( CKAN ) АГПЛ https://ckan.github.io/ckan-instances/

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
ДЭН лицензия GPL https://getdkan.org/community Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
Вселенная данных Апач https://dataverse.org/installations

https://dataverse.org/metrics

Решение для управления данными для научно-исследовательских институтов
DSpace БСД https://registry.lyrasis.org/ Решение для управления данными для научно-исследовательских институтов
OpenML БСД https://www.openml.org/search?type=data&sort=runs&status=active Решение для управления данными для обмена наборами данных, алгоритмами и результатами экспериментов через API.

Список порталов, подходящих для нескольких типов приложений

[ редактировать ]

Портал данных иногда перечисляет самые разнообразные подтипы наборов данных, относящиеся ко многим приложениям машинного обучения .

Академические торренты https://academictorrents.com
Наборы данных Amazon https://registry.opendata.aws/
Потрясающая коллекция общедоступных наборов данных https://github.com/awesomedata/awesome-public-datasets
data.world https://data.world/datasets/machine-learning
Datahub – основные наборы данных https://datahub.io/docs/core-data
DataONE https://www.dataone.org/
Порталы данных https://dataportals.org/
Datasetlist.com https://www.datasetlist.com
Глобальный индекс открытых данных – Фонд открытых знаний https://index.okfn.org/ Архивировано 25 мая 2020 г. в Wayback Machine.
Поиск набора данных Google https://datasetsearch.research.google.com/
Обнимающее лицо https://huggingface.co/docs/datasets/
Обмен данными IBM https://developer.ibm.com/exchanges/data/
Jupyter — Учебные данные https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
Каггл https://www.kaggle.com/datasets
Наборы данных машинного обучения https://macgence.com/data-sets-and-cataloges/
Крупные умные города с открытыми данными https://rlist.io/l/major-smart-cities-with-open-data-portals
Наборы данных Microsoft https://msropendata.com/datasets
Начало открытых данных https://opendatainception.io/
Opendatasoft https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
OpenDOAR https://v2.sherpa.ac.uk/opendoar/
OpenML https://www.openml.org/search?type=data
Документы с кодом https://paperswithcode.com/datasets
Тесты машинного обучения Penn https://github.com/EpistasisLab/pmlb/tree/master/datasets
Публичные API https://github.com/public-apis/public-apis
Реестр репозиториев открытого доступа http://roar.eprints.org/  
Реестр хранилищ данных исследований https://www.re3data.org/  
Репозиторий машинного обучения UCI http://mlr.cs.umass.edu/ml/ Архивировано 26 июня 2020 г. в Wayback Machine.
Речевой набор данных https://www.shaip.com/offerings/speech-data-catalog/
Визуальное обнаружение данных https://visualdata.io/discovery

Список порталов, подходящих для конкретного подтипа приложений

[ редактировать ]

Порталы данных, подходящие для определенного подтипа приложения машинного обучения, перечислены в последующих разделах.

Данные изображения

[ редактировать ]

Текстовые данные

[ редактировать ]

Эти наборы данных состоят в основном из текста для таких задач, как обработка естественного языка , анализ настроений , перевод и кластерный анализ .

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Амазонские обзоры Обзоры продуктов в США на Amazon.com . Никто. 233,1 миллиона Текст Классификация, анализ настроений 2015 (2018) [6] [7] Маколи и др.
Набор данных обзора OpinRank Обзоры автомобилей и отелей на Edmunds.com и TripAdvisor соответственно. Никто. 42 230 / ~ 259 000 соответственно Текст Анализ настроений, кластеризация 2011 [8] [9] К. Ганесан и др.
КиноОбъектив 22 000 000 оценок и 580 000 тегов присвоены 33 000 фильмам 240 000 пользователей. Никто. ~22 млн. Текст Регрессия, кластеризация, классификация 2016 [10] Группа исследований линз
Yahoo! Музыкальные рейтинги музыкальных исполнителей Более 10 миллионов оценок исполнителей от пользователей Yahoo. Ничего не описано. ~ 10М Текст Кластеризация, регрессия 2004 [11] [12] Yahoo!
Набор данных для оценки автомобиля Свойства автомобилей и их общая приемлемость. Даны шесть категориальных признаков. 1728 Текст Классификация 1997 [13] [14] М. Боханец
Набор данных о предпочтениях YouTube Comedy Slam Данные голосования пользователей за пары видеороликов, показанных на YouTube. Пользователи голосовали за более смешные видео. Метаданные видео предоставлены. 1,138,562 Текст Классификация 2012 [15] [16] Google
Набор данных отзывов пользователей Skytrax Отзывы пользователей об авиакомпаниях, аэропортах, местах и ​​залах ожидания от Skytrax. Рейтинги являются детальными и включают в себя множество аспектов опыта работы в аэропорту. 41396 Текст Классификация, регрессия 2015 [17] К. Нгуен
Набор данных для оценки помощника преподавателя Отзывы помощника преподавателя. Приведены характеристики каждого экземпляра, такие как класс, размер класса и инструктор. 151 Текст Классификация 1997 [18] [19] В. Лох и др.
Корпус отзывов вьетнамских студентов (UIT-VSFC) Отзывы студентов. Комментарии 16,000 Текст Классификация 1997 [20] Нгуен и др.
Вьетнамский корпус эмоций в социальных сетях (UIT-VSMEC) Комментарии пользователей Facebook. Комментарии 6,927 Текст Классификация 1997 [21] Нгуен и др.
Вьетнамский открытый набор данных для обнаружения жалоб (ViOCD) Отзывы клиентов о продукции Комментарии 5,485 Текст Классификация 2021 [22] Нгуен и др.
ViHOS: вьетнамцы выявляют разжигание ненависти Тексты в социальных сетях Комментарии Содержит 26 тысяч промежутков на 11 тысяч комментариев. Текст Обнаружение диапазона 2021 [23] Хоанг и др.

Новостные статьи

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных NYSK Английские новостные статьи о деле, касающемся обвинений в сексуальном насилии против бывшего МВФ директора Доминика Стросс-Кана . Отфильтровано и представлено в формате XML. 10,421 XML, текст Анализ настроений, извлечение тем 2013 [24] Дермуш М. и др.
Корпус Reuters, том 1 Большой корпус Reuters новостей на английском языке. Детальная категоризация и коды тем. 810,000 Текст Классификация, кластеризация, обобщение 2002 [25] Рейтер
Корпус Reuters, том 2 Большой корпус Reuters новостей на нескольких языках. Детальная категоризация и коды тем. 487,000 Текст Классификация, кластеризация, обобщение 2005 [26] Рейтер
Коллекция текстовых исследований Thomson Reuters Большой корпус новостей. Подробности не описаны. 1,800,370 Текст Классификация, кластеризация, обобщение 2009 [27] Т. Роуз и др.
Корпус газет Саудовской Аравии 31 030 статей в арабских газетах. Метаданные извлечены. 31,030 JSON Обобщение, кластеризация 2015 [28] М. Альхагри
RE3D (набор данных для оценки извлечения связей и сущностей) Entity и Relation маркируют данные из различных новостей и правительственных источников. При поддержке Dstl Фильтрация, категоризация с использованием типов уса. не известно JSON Классификация, распознавание сущностей и отношений 2017 [29] Дстл
Examiner Каталог спама-кликбейта Кликбейт, спам, краудсорсинговые заголовки с 2010 по 2015 год. Дата публикации и заголовки 3,089,781 CSV-файл Кластеризация, События, Настроения 2016 [30] Р. Кулкарни
ABC Корпус новостей Australia Весь корпус новостей ABC Australia с 2003 по 2019 год. Дата публикации и заголовки 1,186,018 CSV-файл Кластеризация, События, Настроения 2020 [31] Р. Кулкарни
Мировые новости – совокупность 20 тысяч каналов Снимок всех онлайн-заголовков за неделю на более чем 20 языках. Время публикации, URL и заголовки 1,398,431 CSV-файл Кластеризация, события, определение языка 2018 [32] Р. Кулкарни
Reuters Заголовок новостей 11 лет событий с временными метками, опубликованных в новостной ленте Время публикации, текст заголовка 16,121,310 CSV-файл НЛП, Компьютерная лингвистика, События 2018 [33] Р. Кулкарни
The Irish Times Корпус новостей Ирландии 24 года новостей Ирландии с 1996 по 2019 год Время публикации, категория заголовка и текст 1,484,340 CSV-файл НЛП, Компьютерная лингвистика, События 2020 [34] Р. Кулкарни
Набор данных заголовков новостей для обнаружения сарказма Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей. Чистый, нормализованный текст 26,709 JSON НЛП, Классификация, Лингвистика 2018 [35] Ришаб Мишра

Сообщения

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных электронной почты Enron Электронные письма от сотрудников Enron упорядочены по папкам. Вложения удалены, недействительные адреса электронной почты преобразованы в [email protected] или [email protected] . ~ 500,000 Текст Сетевой анализ , анализ настроений 2004 (2015) [36] [37] Климт Б. и Ю. Ян
Набор данных линг-спама Корпус, содержащий как легитимные, так и спам -сообщения. Четыре версии корпуса, определяющие, ли лемматизатор включен или стоп-лист. 2,412 Ему 481 Спам Текст Классификация 2000 [38] [39] Анрутсопулос Дж. и др.
Набор данных для сбора SMS-спама Сбор SMS-спама. Никто. 5,574 Текст Классификация 2011 [40] [41] Т. Алмейда и др.
Набор данных двадцати групп новостей Сообщения из 20 различных групп новостей. Никто. 20,000 Текст Обработка естественного языка 1999 [42] Т. Митчелл и др.
Набор данных базы спама Спам-письма. Извлечено множество текстовых функций. 4,601 Текст Обнаружение спама, классификация 1999 [43] М. Хопкинс и др.

Твиттер и твиты

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
КиноТвиты Набор данных о рейтингах фильмов, основанный на публичных и хорошо структурированных твитах. ~710,000 Текст Классификация, регрессия 2018 [44] С. Думс
Твиттер100 тыс. Пары изображений и твитов 100,000 Текст и изображения Межмедийный поиск 2017 [45] [46] Ю. Ху и др.
Чувство140 Данные твитов за 2009 год, включая исходный текст, отметку времени, пользователя и тональность. Засекречено с использованием дистанционного наблюдения по наличию смайлика в твите. 1,578,627 Твиты, запятая, разделенные значения Анализ настроений 2009 [47] [48] А. Го и др.
Набор данных ASU Twitter Данные сети Twitter, а не реальные твиты. Показывает связи между большим количеством пользователей. Никто. 11 316 811 пользователей, 85 331 846 подключений Текст Кластеризация, графовый анализ 2009 [49] [50] Р. Зафарани и др.
Социальные круги SNAP: база данных Twitter Большие данные сети Twitter. Особенности узлов, круги и эго-сети. 1,768,149 Текст Кластеризация, графовый анализ 2012 [51] [52] Дж. Маколи и др.
Набор данных Twitter для анализа настроений на арабском языке Арабские твиты. Образцы вручную помечаются как положительные или отрицательные. 2000 Текст Классификация 2014 [53] [54] Н. Абдулла
Ажиотаж в наборе данных социальных сетей Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. Данные представлены в виде окна, поэтому пользователь может попытаться предсказать события, которые приведут к ажиотажу в социальных сетях. 140,000 Текст Регрессия, Классификация 2013 [55] [56] Ф. Кавала и др.
Парафраз и семантическое сходство в Твиттере (PIT) Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение/информацию или нет. Маркировка вручную. токенизация, тегирование частей речи и именованных объектов 18,762 Текст Регрессия, Классификация 2015 [57] [58] Сюй и др.
Набор контрольных данных Geoparse Twitter Этот набор данных содержит твиты во время различных новостных мероприятий в разных странах. Упоминания местоположения, помеченные вручную. аннотации местоположения добавлены в метаданные JSON 6,386 Твиты, JSON Классификация, извлечение информации 2014 [59] [60] С.Э. Миддлтон и др.
Сарказм, воспринимаемый и преднамеренный, методом реактивного надзора (SPIRS) Намеренные и воспринимаемые саркастические твиты вместе с их контекстом, собранные с использованием реактивного надзора; равное количество отрицательных (несаркастических) образцов 30,000 Идентификаторы твитов, CSV Классификация 2020 [61] [62] Б. Шмуэли и др.
Голландская коллекция социальных сетей Этот набор данных содержит твиты о COVID-19, написанные носителями голландского языка или пользователями из Нидерландов. Данные были помечены машиной классифицировано по настроению, тексту твита и описанию пользователя, переведенному на английский язык. Упоминания отрасли извлечены 271,342 JSONL Настроения, классификация по нескольким меткам, машинный перевод 2020 [63] [64] [65] Ааакш Гупта, CoronaWhy
Набор данных ReactionGIF Набор данных из 30 тысяч твитов и их реакций в формате GIF. Классифицируется по настроениям, реакциям и эмоциям. 30,000 Идентификаторы твитов, JSONL Классифицируется по настроениям, реакциям и эмоциям. 2021 [66] [67] Б. Шмуэли и др.
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Корпус чата NPS Сообщения из возрастных онлайн-чатов. Конфиденциальность рук замаскирована, отмечена часть речи и диалоговый акт. ~ 500,000 XML НЛП, программирование, лингвистика 2007 [68] Форсайт Э., Лин Дж. и Мартелл К.
Тройной корпус Твиттера Тройки ABA взяты из Twitter. 4,232 Текст НЛП 2016 [69] Сордини А. и др.
Корпус UseNet Сообщения на форуме UseNet. Анонимные электронные письма и URL-адреса. Пропущены документы длиной <500 слов или >500 000 слов или менее 90% английского языка. 7 миллиардов Текст 2011 [70] Шауль К. и Вестбери К.
SMS-корпус НУС SMS-сообщения, собранные между двумя пользователями, с временным анализом. ~ 10,000 XML НЛП 2011 [71] ГДЕ, М
Reddit Все комментарии Корпус Все комментарии Reddit (по состоянию на 2015 год). ~ 1,7 миллиарда JSON НЛП, исследования 2015 [72] Застрял_В_Матрице
Корпус диалогов Ubuntu Диалоги извлечены из чата Ubuntu в IRC. 930 тысяч диалогов, 7,1 миллиона высказываний CSV-файл Исследование диалоговых систем 2015 [73] Лоу, Р. и др.
Задача отслеживания состояния диалогового окна Задачи отслеживания состояния диалога 2 и 3 (DSTC2 и 3) представляли собой исследовательскую задачу, направленную на улучшение современного состояния систем отслеживания состояния разговорных диалогов. Транскрипция устных диалогов с маркировкой DSTC2 содержит ~3,2 тыс. вызовов – DSTC3 содержит ~2,3 тыс. вызовов Json Отслеживание состояния диалога 2014 [74] Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д.
[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Свободное право Отфильтрованные данные из Court Listener, части проекта FreeLaw. Очищенный и нормализованный текст 4,940,710 Json НЛП, лингвистика 2020 [75] Т. Хоппе
Куча закона Корпус юридических и административных данных Очищено, нормализовано и приватизировано ~50,000,000 Json НЛП, лингвистика, сантименты 2022 [76] [77] Л. Чжэн; Н. Гуха; Б. Андерсон; П. Хендерсон; Д. Хо
Проект доступа к судебным делам Вся официальная, опубликованная в книгах прецедентная практика штата и федерального правительства США — каждый том или дело, обозначенное как официальный отчет о решениях суда на территории Соединенных Штатов. Очищенный и нормализованный текст ~10,000 Json НЛП, лингвистика 2022 [78] А. Айзман; С. Чепмен; Дж. Кушман; К. Дулин; Х. Эйдолон; и др.

Другой текст

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Web of Science Иерархические наборы данных для классификации текста Никто. 46,985 Текст Классификация,

Категоризация

2017 [79] [80] К. Ковсари и др.
Отчеты о судебных делах Дела Федерального суда Австралии с 2006 по 2009 год. Никто. 4,000 Текст Подведение итогов,

анализ цитирования

2012 [81] [82] Ф. Гальгани и др.
Корпус авторства блоггеров Записи в блогах 19 320 человек с сайта blogger.com. Блогер самостоятельно указал пол, возраст, сферу деятельности и астрологический знак. 681,288 Текст Анализ настроений, обобщение, классификация 2006 [83] [84] Дж. Шлер и др.
Социальная структура сетей Facebook Большой набор данных о социальной структуре Facebook. Никто. охвачено 100 колледжей Текст Сетевой анализ, кластеризация 2012 [85] [86] А. Трауд и др.
Набор данных для машинного понимания текста Истории и сопутствующие вопросы для проверки понимания текста. Никто. 660 Текст Обработка естественного языка, машинное понимание 2013 [87] [88] М. Ричардсон и др.
Проект Пенн-Трибанк Естественно встречающийся текст, аннотированный по лингвистической структуре. Текст разбивается на семантические деревья. ~ 1 млн слов Текст Обработка естественного языка, обобщение 1995 [89] [90] М. Маркус и др.
Набор данных ДЭКСТЕР Задача состоит в том, чтобы по приведенным признакам определить, какие статьи посвящены корпоративным приобретениям. Извлеченные особенности включают основы слов. Включены функции отвлечения. 2600 Текст Классификация 2008 [91] Рейтер
Google Книги N-граммы из очень большого корпуса книг Никто. 2,2 ТБ текста Текст Классификация, кластеризация, регрессия 2011 [92] [93] Google
Тело человека Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. Помимо обычных текстов приводятся синтаксически размеченные тексты. 145 Текст Классификация, регрессия 2008 [94] [95] К. Люйкс и др.
НажмитеShift Архивы сайтов социальных сетей, включая Reddit , Twitter и Hackernews . Текст извлечен и нормализован из WARC ~100 000 000 сообщений Json НЛП, сантименты, лингвистика 2022 [96] [97] Дж. Баумгартнер
Документы SEC ЭДГАР | Документы компании Текст извлечен. csv НЛП
Набор данных CNAE-9 Задача категоризации свободных текстовых описаний бразильских компаний. Частота слов была извлечена. 1080 Текст Классификация 2012 [98] [99] П. Сиарелли и др.
Набор данных предложений с маркировкой настроений 3000 настроений, помеченных предложениями. Настроение каждого предложения было вручную помечено как положительное или отрицательное. 3000 Текст Классификация, анализ настроений 2015 [100] [101] Д. Коциас
Набор данных обратной связи блога Набор данных для прогнозирования количества комментариев, которые получит сообщение, на основе особенностей этого сообщения. Извлечено множество особенностей каждого поста. 60,021 Текст Регрессия 2014 [102] [103] К. Губа
ПабМед Централ PubMed® включает более 35 миллионов ссылок на биомедицинскую литературу из MEDLINE, журналов по наукам о жизни и онлайн-книг. Никто 35 миллионов Текст НЛП
ВПТЗ США Ведомство США по патентам и товарным знакам Текст НЛП
Филпаперс Коллекция публикаций по философии в открытом доступе Текст НЛП
Книжный корпус Популярный крупномасштабный текстовый корпус. Никто Текст НЛП 2015 [104] Чжу, Юкунь и др.
Стэнфордский корпус вывода естественного языка (SNLI) Подписи к изображениям сочетались с вновь построенными предложениями, образуя пары следствий, противоречий или нейтральных пар. Метки классов Entailment, синтаксический анализ с помощью парсера Stanford PCFG. 570,000 Текст Вывод на естественном языке/распознавание текстовых последствий 2015 [105] С. Боуман и др.
Коллекция корпусов DSL (DSLCC) Многоязычный сборник коротких отрывков публицистических текстов на близких языках и диалектах. Никто 294 000 фраз Текст Различение похожих языков 2017 [106] И Лилинг и др.
городского словаря Набор данных Корпус слов, голосов и определений Имена пользователей анонимизированы 2,580,925 CSV-файл НЛП, Машинное понимание 2016 май [107] Анонимный
Т-РЕкс Рефераты Википедии, соответствующие Викиданных объектам Согласование троек Викиданных с рефератами Википедии 11M выровненных троек JSON и NIF [4] НЛП, Извлечение отношений 2018 [108] Х. Эльсахар и др.
Общая оценка понимания языка (GLUE) Тест из девяти задач Различный ~1 млн предложений и пар предложений НЛУ 2018 [109] [110] [111] Ван и др.
Понимание контрактов Набор данных Atticus (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK)) Набор данных юридических контрактов с обширными экспертными аннотациями ~13 000 этикеток CSV и PDF Обработка естественного языка, QnA 2021 Проект Аттикус
Набор данных подписей к изображениям на вьетнамском языке (UIT-ViIC) Набор данных для подписей к изображениям на вьетнамском языке 19 250 подписей к 3 850 изображениям CSV и PDF Обработка естественного языка, Компьютерное зрение 2020 [112] Лам и др.
Вьетнамские имена с указанием пола (UIT-ViNames) Вьетнамские имена с указанием пола 26 850 полных имен на вьетнамском языке с указанием пола. CSV-файл Обработка естественного языка 2020 [113] Два и др.
Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке (UIT-ViCTSD) Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке 10 000 комментариев вьетнамских пользователей к интернет-газетам на 10 доменах CSV-файл Обработка естественного языка 2021 [114] Нгуен и др.
PG-19 Набор книг, извлеченных из книжной библиотеки Project Gutenberg. Текст Обработка естественного языка 2019 Джек В. и др.
Глубокая математика Математические пары вопросов и ответов. Текст Обработка естественного языка 2018 [115] Д. Сакстон и др.
Архив Анны Полный архив опубликованных книг и статей. Никто 100,356,641 Текст, epub, PDF Обработка естественного языка 2024

Звуковые данные

[ редактировать ]

Эти наборы данных состоят из звуков и звуковых характеристик, используемых для таких задач, как распознавание и синтез речи .

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Конкурс речи с нулевыми ресурсами 2015 года Спонтанная речь (английский), Чтение речи (Сицонга). Нет, необработанные файлы WAV. Английский: 5 часов, 12 носителей; Ситсонга: 2 часа 30 минут, 24 динамика WAV (только аудио) Неконтролируемое обнаружение особенностей речи/единиц подслов/единиц слов 2015 [116] [117] Верстиг и др.
Набор речевых данных Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Извлечены особенности голоса, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона . 1,040 Текст Классификация, регрессия 2013 [118] [119] Б.Е. Сакар и др.
Разговорные арабские цифры Разговорные арабские цифры от 44 мужчин и 44 женщин. Временные ряды мел-частотных коэффициентов кепстра. 8,800 Текст Классификация 2010 [120] [121] М. Бедда и др.
Набор данных ISOLET Разговорные названия букв. Особенности, извлеченные из звуков. 7797 Текст Классификация 1994 [122] [123] Р. Коул и др.
Набор данных японских гласных Девять носителей мужского пола последовательно произнесли две японские гласные. Применил к нему 12-градусный анализ линейного прогнозирования, чтобы получить дискретный временной ряд с 12 кепстральными коэффициентами. 640 Текст Классификация 1999 [124] [125] М. Кудо и др.
Набор данных телемониторинга Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Звуковые особенности извлечены. 5875 Текст Классификация 2009 [126] [127] А. Цанас и др.
ТИОН Записи 630 носителей восьми основных диалектов американского английского, каждый из которых читает десять фонетически богатых предложений. Речь лексически и фонематически транскрибируется. 6300 Текст Распознавание речи, классификация. 1986 [128] [129] Дж. Гарофоло и др.
Корпус арабской речи (MSA) для одного говорящего Речевой корпус современного стандартного арабского языка с фонетическими и орфографическими расшифровками, согласованными с уровнем фонем. Речь орфографически и фонетически транскрибируется со знаками ударения. ~1900 Текст, WAV Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. 2016 [130] Н. Халаби
Общий голос Общедоступная база данных краудсорсинговых данных на широком спектре диалектов. Проверка другими пользователями. Английский: 1118 часов MP3 с соответствующими текстовыми файлами Распознавание речи июнь 2017 г. (декабрь 2019 г.) [131] Мозилла
LJРечь Сборник аудиокниг , являющихся общественным достоянием, на английском языке , разделенных на короткие отрывки знаками препинания. Проверка качества, нормализация транскрипции рядом с оригиналом. 13,100 CSV, WAV Синтез речи 2017 [132] Кит Ито, Линда Джонсон
Набор данных арабских речевых команд Собрано от 30 участников и сгруппировано по 40 ключевым словам. Необработанные файлы WAV 12,000 WAV, CSV Распознавание речи, определение ключевых слов 2021 [133] Абдулкадер Гандура
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Географическое происхождение набора музыкальных данных Аудио особенности музыкальных сэмплов из разных мест. Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. 1,059 Текст Географическая классификация, кластеризация 2014 [134] [135] Ф. Чжоу и др.
Набор данных «Миллион песен» Аудио функции из миллиона разных песен. Аудио функции извлечены. Текст Классификация, кластеризация 2011 [136] [137] Т. Бертен-Маье и др.
MUSDB18 Многодорожечные записи популярной музыки Необработанный звук 150 MP4, WAV Разделение источников 2017 [138] З. Рафии и др.
Бесплатный музыкальный архив Аудио под Creative Commons из 100 тысяч песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданными, пользовательскими данными, текстом в произвольной форме. Необработанный звук и аудиофункции. 106,574 Текст, MP3 Классификация, рекомендации 2017 [139] М. Дефферрард и др.
Набор данных хоровой гармонии Баха Хоральные аккорды Баха. Аудио функции извлечены. 5665 Текст Классификация 2014 [140] [141] Д. Радичиони и др.

Другие звуки

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
UrbanSound Маркированные звукозаписи звуков, таких как работа кондиционера, автомобильные гудки и игра детей. Сортировка по папкам по классам событий, а также метаданные в файле JSON и аннотации в файле CSV. 1,059 Звук

( ВАВ )

Классификация 2014 [142] [143] Дж. Саламон и др.
АудиоСет 10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 ярлыков. 128-мерный PCA в стиле VGG воспроизводится каждые 1 секунду. 2,084,320 Текстовые (CSV) и файлы записей TensorFlow. Классификация 2017 [144] Дж. Геммеке и др., Google
Задача обнаружения звука птиц Звук со станций мониторинга окружающей среды, а также краудсорсинговые записи 17,000+ Классификация 2016 (2018) [145] [146] Университет Королевы Марии и Общество обработки сигналов IEEE
Хипстерские эмбиентные смеси WSJ0 Звук с WSJ0, смешанный с шумом, записанный в районе залива Сан-Франциско. Шумовые клипы, соответствующие клипам WSJ0. 28,000 Звук ( WAV ) Разделение источников звука 2019 [147] Вичерн Г. и др., Whisper and MERL.
ткань 4981 аудиосэмпл длиной от 15 до 30 секунд, каждый аудиосэмпл имеет пять разных подписей длиной от 8 до 20 слов. 24,905 Звук ( WAV ) и текст ( CSV ) Автоматизированные аудио субтитры 2020 [148] [149] К. Дроссос, С. Липпинг и Т. Виртанен

Данные сигнала

[ редактировать ]

Наборы данных, содержащие информацию об электрическом сигнале, требующую какой-либо обработки сигнала для дальнейшего анализа.

Электрический

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных остроумного червя Набор данных, подробно описывающий распространение червя Witty и зараженных компьютеров. Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую ​​​​как заголовки IP и UDP. 55 909 IP-адресов Текст Классификация 2004 [150] [151] Центр прикладного анализа интернет-данных
Набор данных для оценки артериального давления без манжеты Очищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. Жизненно важные функции на частоте 125 Гц были очищены. 12,000 Текст Классификация, регрессия 2015 [152] [153] М. Качуи и др.
Набор данных о дрейфе матрицы газовых датчиков Измерения от 16 химических датчиков, используемых в моделировании для компенсации дрейфа. Представлено большое количество функций. 13,910 Текст Классификация 2012 [154] [155] А. Вергара
Набор данных сервопривода Данные, охватывающие нелинейные зависимости, наблюдаемые в схеме сервоусилителя. Приведены уровни различных компонентов в зависимости от других компонентов. 167 Текст Регрессия 1993 [156] [157] К. Ульрих
Набор данных UJIIndoorLoc-Mag База данных внутренней локализации для тестирования систем внутреннего позиционирования. Данные основаны на магнитном поле. Даны разделения на обучение и тестирование. 40,000 Текст Классификация, регрессия, кластеризация 2015 [158] [159] Д. Рамбла и др.
Набор данных диагностики бездатчикового привода Электрические сигналы от двигателей с неисправными компонентами. Извлечены статистические характеристики. 58,508 Текст Классификация 2015 [160] [161] М. Батор

Отслеживание движения

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Носимые компьютеры: Классификация поз и движений тела (PUC-Рио) Люди выполняют пять стандартных действий, используя трекеры движения. Никто. 165,632 Текст Классификация 2013 [162] [163] Папский католический университет Рио-де-Жанейро
Набор данных сегментации фазы жестов Фрагменты, извлеченные из видео людей, делающих различные жесты. Извлеченные особенности направлены на изучение сегментации фаз жестов. 9900 Текст Классификация, кластеризация 2014 [164] [165] Р. Мадео и
Набор данных о физическом воздействии Vicon 10 нормальных и 10 агрессивных физических действий, измеряющих активность человека, отслеживаемых 3D-трекером. Многие параметры фиксируются 3D трекером. 3000 Текст Классификация 2011 [166] [167] Т. Теодоридис
Набор данных о ежедневных и спортивных мероприятиях Данные датчика моторики для 19 ежедневных и спортивных занятий. Имеется множество датчиков, предварительная обработка сигналов не производится. 9120 Текст Классификация 2013 [168] [169] Б. Баршан и др.
Распознавание человеческой деятельности с использованием набора данных смартфонов Данные гироскопа и акселерометра людей, носящих смартфоны и выполняющих обычные действия. Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет шума. 10,299 Текст Классификация 2012 [170] [171] Дж. Рейес-Ортис и др.
Знаки австралийского языка жестов Знаки австралийского языка жестов, снятые с помощью перчаток, отслеживающих движение. Никто. 2565 Текст Классификация 2002 [172] [173] М. Кадус
Упражнения по поднятию тяжестей контролируются с помощью инерционных измерительных приборов Пять вариантов упражнения на сгибание рук на бицепс, контролируемые с помощью IMU. Некоторые статистические данные рассчитаны на основе необработанных данных. 39,242 Текст Классификация 2013 [174] [175] В. Угулино и др.
sEMG для базовых движений рук. Набор данных Две базы данных поверхностных электромиографических сигналов 6 движений руки. Никто. 3000 Текст Классификация 2014 [176] [177] К. Сапсанис и др.
Набор данных распознавания действий REALDISP Оценить методы борьбы с эффектами смещения датчиков при распознавании активности носимых устройств. Никто. 1419 Текст Классификация 2014 [177] [178] О. Банос и др.
Набор данных для распознавания гетерогенной деятельности Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. Никто. 43,930,257 Текст Классификация, кластеризация 2015 [179] [180] А. Стисен и др.
Прогноз движения пользователей внутри помещений на основе данных RSS Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. Никто. 13,197 Текст Классификация 2016 [181] [182] Д. Баччу
Набор данных мониторинга физической активности PAMAP2 18 различных видов физической активности, выполняемых 9 субъектами, носящими 3 ИДУ. Никто. 3,850,505 Текст Классификация 2012 [183] А. Рейсс
Набор данных для распознавания активности ВОЗМОЖНОСТИ Распознавание человеческой деятельности с помощью носимых датчиков, датчиков предметов и окружающей среды — это набор данных, разработанный для сравнения алгоритмов распознавания человеческой деятельности. Никто. 2551 Текст Классификация 2012 [184] [185] Д. Рогген и др.
Набор данных для распознавания действий в реальном мире Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков. Никто. 3 150 000 (на датчик) Текст Классификация 2016 [186] Т. Штайлер и др.
Набор данных позы после инсульта в Реабилитационном центре Торонто 3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с использованием робота для реабилитации после инсульта. Никто. 10 здоровых и 9 перенесших инсульт (3500–6000 кадров на человека) CSV-файл Классификация 2017 [187] [188] [189] Э. Долатабади и др.
Корпус социальных контактов (CoST) 7805 снимков 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежном, нормальном и грубом, на сетке датчика давления, обернутой вокруг руки манекена. Выполняемые сенсорные жесты сегментируются и помечаются. 7805 захватов жестов CSV-файл Классификация 2016 [190] [191] М. Юнг и др.

Другие сигналы

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных вина Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. Приведены 13 свойств каждого вина. 178 Текст Классификация, регрессия 1991 [192] [193] М. Форина и др.
Набор данных электростанции комбинированного цикла Данные от различных датчиков на электростанции, работающей в течение 6 лет. Никто 9568 Текст Регрессия 2014 [194] [195] П. Туфекчи и др.

Физические данные

[ редактировать ]

Наборы данных из физических систем.

Физика высоких энергий

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных ХИГГС Моделирование столкновений ускорителей частиц методом Монте-Карло. Приведены 28 особенностей каждого столкновения. 11М Текст Классификация 2014 [196] [197] [198] Д. Уайтсон
Набор данных HEPMASS Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель — отделить сигнал от шума. Приведены 28 особенностей каждого столкновения. 10,500,000 Текст Классификация 2016 [197] [198] [199] Д. Уайтсон
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных по гидродинамике яхты Производительность яхты в зависимости от размеров. Для каждой яхты дано шесть характеристик. 308 Текст Регрессия 2013 [200] [201] Р. Лопес
Набор данных о сбоях выполнения робота 5 наборов данных, которые сосредоточены на неспособности роботов выполнять стандартные задачи. Целочисленные функции, такие как крутящий момент и другие измерения датчика. 463 Текст Классификация 1999 [202] Л. Сибра и др.
Набор данных Питтсбургских мостов Описание конструкции дано с точки зрения нескольких свойств различных мостов. Приведены различные характеристики моста. 108 Текст Классификация 1990 [203] [204] Ю. Райх и др.
Набор автомобильных данных Данные об автомобилях, их страховом риске и нормированных убытках. Извлечены характеристики автомобиля. 205 Текст Регрессия 1987 [205] [206] Дж. Шиммер и др.
Набор данных Auto MPG Данные MPG для автомобилей. Приведены восемь особенностей каждого автомобиля. 398 Текст Регрессия 1993 [207] Университет Карнеги-Меллон
Набор данных по энергоэффективности Требования к отоплению и охлаждению указаны в зависимости от параметров здания. Указаны параметры здания. 768 Текст Классификация, регрессия 2012 [208] [209] А. Ксифара и др.
Набор данных собственного шума профиля Серия аэродинамических и акустических испытаний двух и трехмерных секций лопастей аэродинамического профиля. Приводятся данные о частоте, угле атаки и т.д. 1503 Текст Регрессия 2014 [210] Р. Лопес
Набор данных об уплотнительных кольцах космического корабля Challenger USA Попытайтесь спрогнозировать проблемы с уплотнительными кольцами, учитывая прошлые данные Challenger. Приведены некоторые характеристики каждого полета, например, температура запуска. 23 Текст Регрессия 1993 [211] [212] Д. Дрейпер и др.
Набор данных журнала статистики (Шаттл) Наборы данных космического корабля НАСА. Даны девять функций. 58,000 Текст Классификация 2002 [213] НАСА

Астрономия

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы на Венере - набор данных эксперимента JARtool Изображения Венеры, полученные космическим кораблем Магеллан. Изображения маркируются людьми. не дано Изображения Классификация 1991 [214] [215] М. Берл
Набор данных гамма-телескопа MAGIC Монте-Карло генерировал события с гамма-частицами высоких энергий. Многочисленные функции, извлеченные из моделирования. 19,020 Текст Классификация 2007 [215] [216] Р. Бок
Набор данных о солнечных вспышках Измерения количества определенных типов солнечных вспышек, происходящих за 24 часа. Приведены многие особенности солнечных вспышек. 1389 Текст Регрессия, классификация 1989 [217] Дж. Брэдшоу
Многополевой набор данных CAMELS 2D-карты и 3D-сетки на основе тысяч N-тел и современного гидродинамического моделирования, охватывающего широкий диапазон значений космологических и астрофизических параметров. С каждой картой и сеткой связано 6 космологических и астрофизических параметров. 405 000 2D-карт и 405 000 3D-сеток 2D-карты и 3D-сетки Регрессия 2021 [218] Франсиско Вильяескуза-Наварро и др.

Науки о Земле

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы мира Данные об извержениях вулканов для всех известных вулканических событий на Земле. Приводятся такие подробности, как регион, субрегион, тектоническая обстановка, доминирующий тип горных пород. 1535 Текст Регрессия, классификация 2013 [219] Э. Венцке и др.
Набор данных сейсмических ударов Сейсмическая активность на угольной шахте. Сейсмическая активность классифицировалась как опасная или нет. 2584 Текст Классификация 2013 [220] [221] М. Сикора и др.
ВЕРБЛЮДЫ - США Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регрессия 2017 [222] [223] Н. Аддор и др. / А. Ньюман и др.
ВЕРБЛЮДЫ-Чили Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 516 CSV, текст, шейп-файл Регрессия 2018 [224] К. Альварес-Гарретон и др.
ВЕРБЛЮДЫ-Бразилия Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 897 CSV, текст, шейп-файл Регрессия 2020 [225] V. Chagas et al.
ВЕРБЛЮДЫ-ГБ Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регрессия 2020 [226] Г. Коксон и др.
ВЕРблюды-Австралия Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 222 CSV, текст, шейп-файл Регрессия 2021 [227] К. Фаулер и др.
OldH -CE Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 859 CSV, текст, шейп-файл Регрессия 2021 [228] К. Клинглер и др.

Другие физические

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных по прочности на сжатие бетона Набор данных о свойствах бетона и прочности на сжатие. Для каждого образца дано девять признаков. 1030 Текст Регрессия 2007 [229] [230] Я. Да
Набор данных для испытаний на осадку бетона Текучесть осадка бетона, заданная с точки зрения свойств. Приведены характеристики бетона, такие как летучая зола, вода и т. д. 103 Текст Регрессия 2009 [231] [232] Я. Да
Набор данных Маска Предскажите, будет ли молекула, учитывая ее характеристики, мускусной или немускусной. Для каждой молекулы дано 168 признаков. 6598 Текст Классификация 1994 [233] Аррис Фармасьютикал Корп.
Набор данных о повреждениях стальных пластин Стальные пластины 7 разных видов. Для каждого образца дано 27 признаков. 1941 Текст Классификация 2010 [234] Семенионовский научный центр
Наборы данных по монометаллическим наночастицам благородных металлов Особенности переработки и строения монометаллических наночастиц, метки – энергия образования. Для каждого образца дано 85-182 признака. от 425 до 4000 CSV-файл Регрессия 2017–2023 гг. [235] [236] [237] [238] [239] [240] А. Барнард и Г. Оплетал
Наборы данных по биметаллическим наночастицам благородных металлов Особенности переработки и строения биметаллических наночастиц, метки – энергия образования. Для каждого образца дано 922 признака. с 138147 по 162770 CSV-файл Регрессия 2023 [241] [242] [243] [244] [245] [246] [247] [248] [249] [250] [251] [252] Дж. Тинг и др.
Набор данных по триметаллическим наночастицам AuPdPt Технологические и структурные особенности наночастиц AuPdPt, меткой является энергия образования. Для каждого образца дано 1958 характеристик. 48136 CSV-файл Регрессия 2023 [253] К. Лу и др.

Биологические данные

[ редактировать ]

Наборы данных из биологических систем.

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о возрасте Структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей. Общественное достояние. Пятиэтапный метод определения года рождения и смерти, пола и рода занятий на основе данных, предоставленных сообществом во всех языковых версиях проекта Википедии. 1,223,009 Текст Регрессия, Классификация 2022 Бумага [254]

Набор данных [255]

Амораднежад и др.
Синтетический набор данных глазного дна [256] Фотореалистичные изображения сетчатки и сегментация сосудов. Общественное достояние. 2500 изображений размером 1500*1152 пикселей, полезных для сегментации и классификации вен и артерий на одном фоне. 2500 Изображения Классификация, Сегментация 2020 [257] К. Валенти и др.
База данных ЭЭГ Исследование по изучению ЭЭГ-коррелятов генетической предрасположенности к алкоголизму. Измерения с 64 электродов, помещенных на кожу головы, производились при частоте 256 Гц (период 3,9 мс) в течение 1 секунды. 122 Текст Классификация 1999 [258] Х. Компаньон
Набор данных интерфейса P300 Данные девяти субъектов собраны с использованием интерфейса «мозг-компьютер» на базе P300 для людей с ограниченными возможностями. Разделить на четыре занятия по каждому предмету. MATLAB Дан код . 1,224 Текст Классификация 2008 [259] [260] У. Хоффман и др.
Набор данных о сердечных заболеваниях Приписывается больным с сердечно-сосудистыми заболеваниями и без них. Для каждого пациента задано 75 атрибутов с некоторыми пропущенными значениями. 303 Текст Классификация 1988 [261] [262] А. Янози и др.
Набор данных рака молочной железы, Висконсин (диагностика) Набор данных особенностей образований молочной железы. Диагнозы ставит врач. Приведено по 10 признаков для каждого образца. 569 Текст Классификация 1995 [263] [264] В. Вольберг и др.
Национальное исследование по употреблению наркотиков и здоровью Крупномасштабное исследование здоровья и употребления наркотиков в США. Никто. 55,268 Текст Классификация, регрессия 2012 [265] Министерство здравоохранения и социальных служб США
Набор данных рака легких Набор данных о раке легких без определений атрибутов Для каждого случая дано 56 функций 32 Текст Классификация 1992 [266] [267] З. Хонг и др.
Набор данных об аритмии Данные для группы пациентов, из которых у части пациентов имеется сердечная аритмия. 276 функций для каждого экземпляра. 452 Текст Классификация 1998 [268] [269] Х. Алтай и др.
Диабет 130 больниц США за 1999–2008 гг. Набор данных Данные о повторной госпитализации пациентов с диабетом за 9 лет в 130 больницах США. Приведены многие особенности каждой реадмиссии. 100,000 Текст Классификация, кластеризация 2014 [270] [271] Дж. Клор и др.
Набор данных о диабетической ретинопатии в Дебрецене Особенности, извлеченные из изображений глаз с диабетической ретинопатией и без нее. Извлечены особенности и диагностированы состояния. 1151 Текст Классификация 2014 [272] [273] Б. Антал и др.
Набор данных Мессидора о диабетической ретинопатии Методы оценки методов сегментации и индексации в области офтальмологии сетчатки (MESSIDOR) Особенности степени ретинопатии и риска макулярного отека 1200 Изображения, Текст Классификация, Сегментация 2008 [274] [275] Проект Мессидор
Набор данных о заболеваниях печени Данные для людей с заболеваниями печени. Семь биологических особенностей приведены для каждого пациента. 345 Текст Классификация 1990 [276] [277] Бупа Медицинские Исследования Лтд.
Набор данных о заболеваниях щитовидной железы 10 баз данных данных пациентов с заболеваниями щитовидной железы. Никто. 7200 Текст Классификация 1987 [278] [279] Р. Куинлан
Набор данных мезотелиомы Данные пациентов с мезотелиомой. Приведено большое количество особенностей, в том числе воздействие асбеста. 324 Текст Классификация 2016 [280] [281] А. Танрикулу и др.
Набор данных для оценки позы Паркинсона на основе зрения 2D-оценка человеческой позы пациентов с болезнью Паркинсона, выполняющих различные задачи. На траекториях убрано дрожание камеры. 134 Текст Классификация, регрессия 2017 [282] [283] [284] М. Ли и др.
Набор данных сети метаболических реакций KEGG (ненаправленный) Сеть метаболических путей. реакционная сеть и сеть отношений Даны . Приведены подробные характеристики каждого сетевого узла и пути. 65,554 Текст Классификация, кластеризация, регрессия 2011 [285] М. Наим и др.
Модифицированный набор данных анализа морфологии спермы человека (MHSMA) Изображения спермы человека от 235 пациентов с мужским фактором бесплодия, с маркировкой нормальных или аномальных акросом, головки, вакуоли и хвоста сперматозоида. Обрезано вокруг одиночной головки сперматозоида. Увеличение нормализовалось. Созданы разделения наборов обучения, проверки и тестирования. 1,540 .npy-файлы Классификация 2019 [286] [287] С. Джавади и С. А. Миррошандель

Животное

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных морского ушка Физические измерения морского ушка. Также указаны погодные условия и местоположение. Никто. 4177 Текст Регрессия 1995 [288] Лаборатории морских исследований - Таруна
Набор данных зоопарка Набор искусственных данных, охватывающий 7 классов животных. Животные разделены на 7 категорий и для каждой указаны особенности. 101 Текст Классификация 1990 [289] Р. Форсайт
Набор данных демоспонгий Данные о морских губках. 503 губки класса Demosponge характеризуются различными признаками. 503 Текст Классификация 2010 [290] Э. Арменгол и др.
Данные о сельскохозяйственных животных Инвентаризация данных PLF (коровы, свиньи; местоположение, ускорение и т. д.). Маркированные наборы данных. Список постоянно обновляется Текст Классификация 2020 [291] В. Блох
Набор данных последовательностей генов сплайс-соединения Последовательности генов сплайсинга (ДНК) приматов и связанная с ними теория несовершенных доменов. Никто. 3190 Текст Классификация 1992 [267] Г. Тоуэлл и др.
Набор данных по экспрессии белков мышей Уровни экспрессии 77 белков измерены в коре головного мозга мышей. Никто. 1080 Текст Классификация, кластеризация 2015 [292] [293] К. Хигера и др.
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных грибов UCI Признаки и классификация грибов. Приведены многие свойства каждого гриба. 8124 Текст Классификация 1987 [294] Дж. Хуже
Вторичный набор данных о грибах Атрибуты и классификация грибов Смоделированные данные из более крупных и реалистичных первичных записей о грибах. Полностью воспроизводимый. 61069 Текст Классификация 2020 [295] [296] Д. Вагнер и др.

Растение

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о лесных пожарах Лесные пожары и их свойства. Выделено 13 особенностей каждого пожара. 517 Текст Регрессия 2008 [297] [298] П. Кортес и др.
Набор данных Ирис Три типа ирисов описываются четырьмя разными признаками. Никто. 150 Текст Классификация 1936 [299] [300] Р. Фишер
Набор данных о листьях видов растений Шестнадцать образцов листьев каждого из ста видов растений. Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстуры. 1600 Текст Классификация 2012 [301] [302] Дж. Коуп и др.
Набор данных по сое База данных больных растений сои. Даны 35 признаков для каждого растения. Растения разделены на 19 категорий. 307 Текст Классификация 1988 [303] Р. Михальски и др.
Набор данных семян Измерения геометрических свойств зерен трех разных сортов пшеницы. Никто. 210 Текст Классификация, кластеризация 2012 [304] [305] Чаританович и др.
Набор данных типа обложки Данные для прогнозирования типа лесного покрова строго на основе картографических переменных. Даны многие географические объекты. 581,012 Текст Классификация 1998 [306] [307] Дж. Блэкард и др.
Набор данных сети передачи сигналов абсцизовой кислоты Данные для сети сигнализации предприятия. Цель состоит в том, чтобы определить набор правил, которые управляют сетью. Никто. 300 Текст Причинно-следственное открытие 2008 [308] Дж. Дженкенс и др.
Набор данных фолио По 20 фотографий листьев каждого из 32 видов. Никто. 637 Изображения, текст Классификация, кластеризация 2015 [309] [310] Т. Мунисами и др.
Оксфордский набор цветочных данных Набор данных из 17 категорий цветов. Разделение поездов/тестов, маркированные изображения, 1360 Изображения, текст Классификация 2006 [311] [312] М. Е. Нильсбек и др.
Набор данных о саженцах растений Набор данных из 12 категорий саженцев растений. Маркированные изображения, сегментированные изображения, 5544 Изображения Классификация, обнаружение 2017 [313] Гизельссон и др.
Фрукты-360 База данных с изображениями 131 фрукта и овоща. 100x100 пикселей, белый фон. 90483 Изображения (jpg) Классификация 2017–2024 [314] Михай Олтян
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Эколи Сайты локализации белков. Приведены различные особенности мест локализации белков. 336 Текст Классификация 1996 [315] [316] К. Накаи и др.
Набор данных MicroMass Идентификация микроорганизмов по данным масс-спектрометрии. Различные функции масс-спектрометра. 931 Текст Классификация 2013 [317] [318] П. Маэ и др.
Набор данных о дрожжах Прогнозы мест клеточной локализации белков. Восемь функций даны для каждого экземпляра. 1484 Текст Классификация 1996 [319] [320] К. Накаи и др.

Открытие лекарств

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Tox21 Прогнозирование результатов биологических анализов. Даны химические дескрипторы молекул. 12707 Текст Классификация 2016 [321] А. Майр и др.

Данные об аномалиях

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Тест нумента-аномалий (NAB) Данные представляют собой упорядоченные однозначные метрики с отметкой времени. Все файлы данных содержат аномалии, если не указано иное. Никто 50+ файлов CSV-файл Обнаружение аномалий 2016 (постоянно обновляется) [322] Имя
Сколтехский тест аномалий (SKAB) Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. Существует две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменений (коллективные аномалии). 30+ файлов (v0.9) CSV-файл Обнаружение аномалий 2020 (постоянно обновляется)

[323] [324]

Кацер Юрий Дмитриевич и Козицын Вячеслав Олегович
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование Большинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые взяты из литературы. обрабатывается на предмет пропущенных значений, только числовые атрибуты, различный процент аномалий, метки 1000+ файлов АРФФ Обнаружение аномалий 2016 г. (возможно, дополнено новыми наборами данных и/или результатами)

[325]

Кампос и др.

Данные для ответов на вопросы

[ редактировать ]

В этот раздел включены наборы данных, посвященные структурированным данным.

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных нейронных ответов на вопросы DBpedia (DBNQA) Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронной сети открытого домена в базе знаний DBpedia. Этот набор данных содержит большую коллекцию шаблонов Open Neural SPARQL и экземпляров для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотирования, а также тремя экспертами SPARQL. 894,499 Пары вопрос-запрос Вопрос Ответ 2018 [326] [327] Хартманн, Сору и Маркс и др.
Набор данных для ответов на вьетнамские вопросы (UIT-ViQuAD) Большая коллекция вопросов на вьетнамском языке для оценки моделей MRC. Этот набор данных включает более 23 000 пар вопросов и ответов, созданных человеком, на основе 5 109 отрывков из 174 вьетнамских статей из Википедии. 23,074 Пары вопрос-ответ Вопрос Ответ 2020 [328] Нгуен и др.
Вьетнамский корпус машинного чтения с множественным выбором (ViMMRC) Сборник вопросов с несколькими вариантами ответов на вьетнамском языке для оценки моделей MRC. Этот корпус включает 2783 вопроса на вьетнамском языке с несколькими вариантами ответов. 2,783 Пары вопрос-ответ Ответы на вопросы/понимание машинного чтения 2020 [329] Нгуен и др.
Ответы на открытые вопросы становятся диалоговыми благодаря переписыванию вопросов Сквозной ответ на открытый вопрос. Этот набор данных включает 14 000 разговоров с 81 000 парами вопросов и ответов. Контекст, Вопрос, Переписать, Ответ, URL_ответа, Номер_разговора, Номер_поворота, Источник_разговора

Более подробная информация представлена ​​в репозитории проекта на GitHub и в соответствующей карточке набора данных Hugging Face .

Вопрос Ответ 2021 [330] Ананта и Вакуленко и др.
Унифицированный контроль качества Данные вопросов-ответов Обработанный набор данных Вопрос Ответ 2020 [331] Хашаби и др.

Данные диалога или инструкции

[ редактировать ]

В этом разделе представлены наборы данных, которые...

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Надсмотрщик «Корпус Taskmaster состоит из ТРЕХ наборов данных: Taskmaster-1 (TM-1), Taskmaster-2 (TM-2) и Taskmaster-3 (TM-3), включающих более 55 000 устных и письменных диалогов, ориентированных на задачи, в более чем дюжину доменов». [332] Надсмотрщик-1: целенаправленный разговорный набор данных. Он включает в себя 13 215 диалогов на основе задач, состоящих из шести доменов.

Taskmaster-2: 17 289 диалогов в семи доменах (рестораны, заказ еды, кино, отели, авиабилеты, музыка и спорт).

Надсмотрщик-3: 23 757 диалогов с билетами в кино.

Надсмотрщик-1 и Надсмотрщик-2: идентификатор разговора, высказывания, идентификатор инструкции.

Надсмотрщик-3: идентификатор разговора, высказывания, вертикаль, сценарий, инструкции.

Для получения более подробной информации проверьте репозиторий проекта на GitHub или карточки набора данных Hugging Face ( Taskmaster-1 , Taskmaster-2 , Taskmaster-3 ).

Диалоговое окно/инструкция 2019 [333] Бирн и Кришнамурти и др.
DrRepair Размеченный набор данных для программного восстановления. Предварительно обработанные данные Подробные сведения о формате см. на листе проекта . Диалоговое окно/инструкция 2020 [334] Мичихиро и др.
Естественные инструкции v2 Большой набор данных, охватывающий более широкий спектр способностей к рассуждению. Каждая задача состоит из ввода/вывода и определения задачи.

Кроме того, каждый запрос содержит определение задачи.

Дополнительная информация представлена ​​в GitHub репозитории проекта на и на карточке данных Hugging Face .

Ввод/вывод и определение задачи 2022 [335] Ван и др.
ЛАМБАДА «ЛАМБАДА — это совокупность повествовательных отрывков, обладающая тем свойством, что испытуемые-люди способны угадать свое последнее слово, если они прочитают весь отрывок, а не если они увидят только последнее предложение, предшествующее целевому слову». [336] Информация о формате этого набора данных доступна в карточке набора данных HuggingFace и на сайте проекта .

Набор данных можно скачать здесь , а отклоненные данные — здесь .

2016 [337] Паперно и др.
ФЛАН Повторно обработанная версия набора данных FLAN с обновлениями с момента выпуска исходного набора данных FLAN доступна в Hugging Face :
  1. данные испытаний
  2. данные поезда
  3. данные проверки

Скрипты для обработки данных доступны в репозитории GitHub, упомянутом в документе: https://github.com/google-research/FLAN/tree/main/flan .

еще один репозиторий FLAN на GitHub Также был создан . Это та карта, которая связана с карточкой набора данных в Hugging Face.

2021 [338] Вэй и др.

Кибербезопасность

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
МИТРА АТАКА ATT&CK — это глобально доступная база знаний о тактике и методах противника. Данные можно загрузить из этих двух репозиториев GitHub: версии 2.1 и версии 2.0. [339] МИТРА АТАКА
ЦАТЭК Перечень и классификация распространенных шаблонов атак Данные можно скачать с сайта CAPEC :

Механизмы атаки Области атаки

[340] ЦАТЭК
CVE CVE — это список публично раскрытых уязвимостей кибербезопасности, который можно бесплатно искать, использовать и включать в продукты и услуги. Данные можно скачать с: Allitems [341] CVE
КВЕ Данные перечисления общих слабостей. Данные можно скачать с:

Разработка программного обеспечения Проектирование оборудования [ постоянная мертвая ссылка ] Концепции исследования

[342] КВЕ
MalwareTextDB Аннотированная база данных текстов вредоносного ПО. Репозиторий проекта на GitHub содержит данные для загрузки. [343] Киат и др.
Материалы симпозиума USENIX по безопасности Сборник материалов по безопасности симпозиума USENIX по безопасности - технических сессий с 1995 по 2022 год. Эти данные не подвергаются предварительной обработке. 1995 , 1996 , 1997 , 1998 , 1999 , 2000 , 2001 , 2002 , 2003 , 2004 , 2005 , 2006 , 2007 , 2008 ,

2009 , 2010 2011 , 2012 , 2013 , 2014 , 2015 , 2016 , 2017 , 2018 , 2019 , 2020 , 2021 , 2022 .

[344] Симпозиум USENIX по безопасности
APTПримечания Сборник публичных документов, технических документов и статей о кампаниях APT. Все документы являются общедоступными данными. Эти данные не подвергаются предварительной обработке. В GitHub репозитории проекта на есть файл со ссылками на данные, хранящиеся в box.

Файлы данных также можно скачать здесь .

[345] Примечания к APT
Документы по криптографии и безопасности arXiv Сборник статей о кибербезопасности Эти данные не подвергаются предварительной обработке. Все статьи доступны здесь . [346] arXiv
Электронные книги по безопасности бесплатно Небольшая коллекция электронных книг по безопасности и общедоступных презентаций по безопасности. Эти данные не подвергаются предварительной обработке. [347] [348] [349] [350] [351] [352] [353] [354] [355] [356] [357] [358]
Репозиторий национальной стратегии кибербезопасности Репозиторий всемирных стратегических документов по кибербезопасности. Эти данные не подвергаются предварительной обработке. [359]
Кибербезопасность Обработка естественного языка Данные о стратегиях кибербезопасности из более чем 75 стран. Токенизация, удаление бессмысленно-частых слов. [360] Яньлинь Чен, Юньцзянь Вэй, Ифань Юй, Вэнь Сюэ, Сянья Цинь
Коллекция отчетов APT Образцы отчетов APT, вредоносного ПО, технологий и сбора разведывательной информации Доступны необработанные и токенизированные данные. Все данные доступны в этом репозитории GitHub . [ нужна ссылка ] черная птица
Набор данных для идентификации оскорбительного языка (OLID) Данные доступны на сайте проекта .

Данные также доступны здесь .

[361] Зампьери и др.
Киберотчеты Национального центра кибербезопасности Эти данные не подвергаются предварительной обработке. Отчеты об угрозах , отчеты и рекомендации , новости , сообщения в блогах , выступления .

Альтернативный список отчетов .

[362]
APT-отчеты Касперского Эти данные не подвергаются предварительной обработке. [363]
Киберпровод Эти данные не подвергаются предварительной обработке. Информационные бюллетени , подкасты и истории . [364]
Новости об утечках данных Эти данные не подвергаются предварительной обработке. Новости , список новостей с августа 2022 по февраль 2023 года. [365]
Киберньюс Эти данные не подвергаются предварительной обработке. Новости , кураторский список новостей [366]
Мигающийкомпьютер Эти данные не подвергаются предварительной обработке. Новости [367]
запись Эти данные не подвергаются предварительной обработке. Новости киберпреступности [368]
Взломать Эти данные не подвергаются предварительной обработке. Новости взлома [369]
Список безопасности Эти данные не подвергаются предварительной обработке. Отчеты APT , архив , отчеты о DDOS , инциденты , бюллетень безопасности Касперского , промышленные угрозы , отчеты о вредоносных программах , мнения , публикации , исследования и SAS . [370]
Лепной проект Проект Stucco собирает данные, которые обычно не интегрируются в системы безопасности. Эти данные не подвергаются предварительной обработке Веб-сайт проекта с информацией о данных. Проверенный источник со ссылками на источники данных. [371]
Фарсайтбезопасность Веб-сайт с технической информацией, отчетами и многим другим по темам безопасности. Эти данные не подвергаются предварительной обработке Техническая информация , исследования , отчеты . [372]
Шнайер Веб-сайт с научными статьями по темам безопасности. Эти данные не подвергаются предварительной обработке Статьи по категориям , архив статей по дате . [373]
Трендмикро Веб-сайт с исследованиями, новостями и перспективами по вопросам безопасности. Эти данные не подвергаются предварительной обработке Обзорный список исследований, новостей и перспектив Trendmicro . [374]
Хакерские новости Новости на тему кибербезопасности. Эти данные не подвергаются предварительной обработке утечки данных , кибератаки , уязвимости , новости о вредоносном ПО . [375]
Кребсонбезопасность Новости безопасности и расследования Эти данные не подвергаются предварительной обработке тщательно подобранный список новостей [376]
Митра Защитить Матрица защитных артефактов JSON-файлы [377]
Митра Атлас Mitre Atlas — это база знаний о тактиках, методах противодействия и тематических исследованиях для систем машинного обучения (ML), основанная на реальных наблюдениях. Эти данные не подвергаются предварительной обработке [378]
Митра Энгейдж MITRE Engage — это платформа для планирования и обсуждения операций по взаимодействию с противниками, которая позволяет вам взаимодействовать с противниками и достигать своих целей в области кибербезопасности. Эти данные не подвергаются предварительной обработке [379]
Учебники по взлому Эти данные не подвергаются предварительной обработке [380]

Климат и устойчивость

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Отчеты TCFD База данных отчетов компаний, включающих раскрытие информации, связанной с TCFD. Эти данные не подвергаются предварительной обработке Прямая ссылка на отчеты Кураторский список отчетов [381] Центр знаний TCFD
Отчеты о корпоративной социальной ответственности Список отчетов об ответственности в Интернете. Эти данные не подвергаются предварительной обработке Кураторский список отчетов [382] ОтветственностьОтчеты
Межправительственная группа экспертов по изменению климата (МГЭИК) Сборник комплексных отчетов об оценке знаний об изменении климата, его причинах, потенциальных последствиях и вариантах реагирования. Эти данные не подвергаются предварительной обработке Отчеты Кураторский список отчетов [383] МГЭИК
Альянс исследований корпоративной устойчивости Эти данные не подвергаются предварительной обработке Кураторский список сообщений в блоге [384] АРКС
Корпус ESG: Центр знаний по учету устойчивого развития Эти данные не подвергаются предварительной обработке Руководства , тематические исследования , блоги , отчеты и опросы . [385] Мехра и др.
КЛИМАТ-ЛИХОРАДКА Набор данных, основанный на методологии FEVER, состоящий из 1535 реальных утверждений об изменении климата, собранных в Интернете. Каждое утверждение сопровождается пятью аннотированными вручную предложениями-доказательствами, полученными из английской Википедии, которые подтверждают, опровергают или не дают достаточно информации для подтверждения утверждения, в общей сложности состоящего из 7675 пар утверждение-доказательство. [386] Карта набора данных HF проекта на , и репозиторий GitHub . [387] Диггельманн и др.
Набор данных «Климатические новости» Набор данных для исследователей НЛП и СМИ, посвященных изменению климата. Набор данных состоит из ряда артефактов данных (текстовые файлы JSON, JSONL и CSV и база данных SQLite). База данных климатических новостей проекта на GitHub , репозиторий [388] ADGEэффективность
Климаттекст Climatext — это набор данных для определения тем, связанных с изменением климата, на основе предложений. набор ВЧ-данных [389] Университет Цюриха
ГринБиз Сборник статей и новостей о климате и устойчивом развитии Эти данные не подвергаются предварительной обработке Кураторский список статей о климате Кураторский список статей об устойчивом развитии [390]
Лучшие препринты исследований в области климата и устойчивого развития Список препринтов исследователей в горячем списке Reuters Эти данные не подвергаются предварительной обработке Кураторский список препринтов [391] Морис Тамман
АРКС Эти данные не подвергаются предварительной обработке Кураторский список блогов о корпоративном устойчивом развитии [392]
ГринБиз Веб-сайт со статьями о климате и устойчивом развитии Эти данные не подвергаются предварительной обработке [393] ГринБиз
CSRWIRE Эти данные не подвергаются предварительной обработке Кураторский список статей [394] CSRWIRE
CDP Статьи о климате , воде и лесах Эти данные не подвергаются предварительной обработке [395] CDP

Данные кода

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Стек Набор данных объемом 3,1 ТБ, состоящий из лицензированного исходного кода на 30 языках программирования. Фильтруется посредством обнаружения лицензий и дедупликации. 6 ТБ, 51,76 Б файлов (до дедупликации); 3 ТБ, файлы 5,28Б (после). 358 языков программирования. Паркет Языковое моделирование, автодополнение, синтез программ. 2022 [396] [397] Д. Кочетков, Р. Ли, Л. Бен Аллаль, Л. фон Верра, Х. де Врис
Репозитории GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub : 61 62 , 63 64 , 68 , 69 , 70 , 71 , , 72 , , 65 66, 67 , , 73 , 74 , 75, 76 , 77 101.
Публичные репозитории IBM на GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub.
Публичные репозитории RedHat на GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub.
Файлы Public Archive.org StackExchange Эти данные не подвергаются предварительной обработке Кураторский список файлов с Archive.org.
Публичные репозитории Gitlab Эти данные не подвергаются предварительной обработке Кураторский список репозиториев Gitlab : 1 2
Публичные репозитории Ansible Collections Эти данные не подвергаются предварительной обработке Кураторский список репозиториев с GitHub .
Набор данных кода CodeParrot GitHub Эти данные не подвергаются предварительной обработке Кураторский список репозиториев Hugging Face : 1 2 3 4 5 6 7 8 9 10
ОКД Распространение Kubernetes от сообщества, лежащее в основе Red Hat OpenShift Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Опеншифт Дистрибутив Kubernetes, удобный для разработчиков и эксплуатации. Список репозиториев проекта на GitHub
Кубернетес Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Разработчик Red Hat GitHub — главная страница программы Red Hat Developer. Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная шляпа

Мастер-классы

Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes SIG Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Конвейер Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Торговая площадка RedHat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Блог Redhat Эти данные не подвергаются предварительной обработке [398]
Кубернетес ио Эти данные не подвергаются предварительной обработке [399]
Документы Эти данные не подвергаются предварительной обработке [400]
cncf я Эти данные не подвергаются предварительной обработке [401]
Презентации Кубернетеса Список общедоступных презентаций Kubernetes Эти данные не подвергаются предварительной обработке канал передачи данных
Лаборатории открытых инноваций Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Демонстрации Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Red Hat OpenShift онлайн Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Коллекции программного обеспечения Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная шляпа Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Правительство Красной Шляпы Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Ред Хэт Консалтинг Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Сообщества практиков Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Партнер Red Hat Tech Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Документация Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
ИБМ Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
IBM Облако Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Команда создания лаборатории Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Терраформировать IBM-модули Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Облачные схемы Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Демонстрации мощности OCP Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Модернизация приложений IBM  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes OperationHub  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Фонд облачных вычислений (CNCF)  Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Структура оператора Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub [402]
Репозитории GitHub, на которые есть ссылки в Artehub.io. Эти данные не подвергаются предварительной обработке Список репозиториев GitHub в Artehub.io
Сообщества практиков Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Партнер Red Hat Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Репозитории IBM Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Команда создания лаборатории Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Структура оператора Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Репозитории GitHub Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Красная шляпа Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Шаблоны Кубернетеса Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Шаблоны развертывания и безопасности Kubernetes Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Kubernetes для Full-Stack разработчиков Эти данные не подвергаются предварительной обработке Список репозиториев проекта на GitHub
Метрики балансировщика нагрузки Cloudwatch Эти данные не подвергаются предварительной обработке GitHub репозиторий проекта
Дайнатрейс Эти данные не подвергаются предварительной обработке [5]
Данные AIOps Challenge 2020 Эти данные не подвергаются предварительной обработке GitHub репозиторий проекта
Логхаб Эти данные не подвергаются предварительной обработке Список репозиториев
HTML-страницы Эти данные не подвергаются предварительной обработке Список HTML-страниц
Электронные книги Opensift Эти данные не подвергаются предварительной обработке [403]
Электронные книги по Кубернетесу Эти данные не подвергаются предварительной обработке Шаблоны Kubernetes , Развертывание Kubernetes , Kubernetes для разработчиков полного стека
Kubernetes для Full-Stack разработчиков Эти данные не подвергаются предварительной обработке Kubernetes для Full-Stack разработчиков
Список публичных и лицензированных репозиториев Github Эти данные не подвергаются предварительной обработке Список репозиториев

Многомерные данные

[ редактировать ]

Финансовый

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Индекс Доу-Джонса Еженедельные данные по акциям за первый и второй кварталы 2011 года. В расчет включены такие значения, как процентное изменение и лаги. 750 Значения, разделенные запятыми Классификация, регрессия, временные ряды 2014 [404] [405] М. Браун и др.
Statlog (австралийское одобрение кредита) Заявки на получение кредитной карты принимаются или отклоняются, а также сведения о заявке. Имена атрибутов удаляются, а также идентифицирующая информация. Факторы были переименованы. 690 Значения, разделенные запятыми Классификация 1987 [406] [407] Р. Куинлан
данные аукциона eBay Данные об аукционах различных объектов eBay.com на аукционах разной продолжительности. Содержит все ставки, идентификатор участника торгов, время ставок и цены открытия. ~ 550 Текст Регрессия, классификация 2012 [408] [409] Г. Шмуэли и др.
Статлог (кредитные данные Германии) Классификация двоичных кредитов на «хорошие» и «плохие» со многими особенностями. Приведены различные финансовые особенности каждого человека. 690 Текст Классификация 1994 [410] Х. Хофманн
Набор данных банковского маркетинга Данные крупной маркетинговой кампании, проведенной крупным банком. Приводятся многие характеристики клиентов, с которыми связались. Также указывается, если клиент подписался на банк. 45,211 Текст Классификация 2012 [411] [412] С. Моро и др.
Набор данных Стамбульской фондовой биржи Несколько фондовых индексов отслеживались в течение почти двух лет. Никто. 536 Текст Классификация, регрессия 2013 [413] [414] О. Акбилгич
Дефолт клиентов по кредитным картам Данные о кредитном дефолте для тайваньских кредиторов. Приводятся различные особенности каждой учетной записи. 30,000 Текст Классификация 2016 [415] [416] Я. Да
Стокнет Прогноз движения акций на основе твитов и исторических цен на акции Никто Текст НЛП 2018 [417] Юмо Сюй и Шей Б. Коэн
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Облачный набор данных Данные о 1024 различных облаках. Извлечены особенности изображения. 1024 Текст Классификация, кластеризация 1989 [418] П. Коллард
Набор данных Эль-Ниньо Океанографические и приземные метеорологические данные, полученные с ряда буев, расположенных по всей экваториальной части Тихого океана. На каждом буе измеряются 12 погодных атрибутов. 178080 Текст Регрессия 1999 [419] Тихоокеанская лаборатория морской окружающей среды
Набор данных сети наблюдений за парниковыми газами Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. Никто. 2921 Текст Регрессия 2015 [420] Д. Лукас
Атмосферный CO 2 из непрерывных проб воздуха в обсерватории Мауна-Лоа Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. Никто. 44 года Текст Регрессия 2001 [421] Обсерватория горы Лоа
Набор данных ионосферы Радиолокационные данные из ионосферы. Задача состоит в том, чтобы классифицировать радиолокационные сигналы на хорошие и плохие. Приведены многие функции радара. 351 Текст Классификация 1989 [279] [422] Университет Джонса Хопкинса
Набор данных для определения уровня озона Два набора данных об уровне приземного озона. Приведено множество характеристик, включая погодные условия во время измерения. 2536 Текст Классификация 2008 [423] [424] К. Чжан и др.

Перепись

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных для взрослых Данные переписи населения 1994 года, содержащие демографические характеристики взрослого населения и их доходы. Очищено и анонимизировано. 48,842 Значения, разделенные запятыми Классификация 1996 [425] Бюро переписи населения США
Переписной доход (KDD) Взвешенные данные переписи населения, полученные в ходе текущих обследований населения 1994 и 1995 годов . Разделить на обучающие и тестовые наборы. 299,285 Значения, разделенные запятыми Классификация 2000 [426] [427] Бюро переписи населения США
База данных переписи населения IPUMS Данные переписи населения в районах Лос-Анджелеса и Лонг-Бич. Никто 256,932 Текст Классификация, регрессия 1999 [428] ИПУМС
Данные переписи населения США 1990 г. Частичные данные переписи населения США 1990 года. Результаты рандомизированы и выбраны полезные атрибуты. 2,458,285 Текст Классификация, регрессия 1990 [429] Бюро переписи населения США
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных для совместного использования велосипедов Почасовой и дневной подсчет проката велосипедов в большом городе. Приводятся многие характеристики, включая погоду, продолжительность поездки и т. д. 17,389 Текст Регрессия 2013 [430] [431] Х. Фанаи-Т
Данные о поездках на такси в Нью-Йорке Данные о поездках желтых и зеленых такси в Нью-Йорке. Содержит информацию о местах посадки и высадки, тарифах и других деталях поездок. 6 лет Текст Классификация, кластеризация 2015 [432] Комиссия по такси и лимузинам Нью-Йорка
Траектория службы такси ECML PKDD Траектории всех такси в большом городе. Приведено множество функций, включая точки начала и остановки. 1,710,671 Текст Кластеризация, причинно-следственное обнаружение 2015 [433] [434] М. Феррейра и др.
МЕТР-ТО Скорость по показаниям детекторов петель на шоссе округа Лос-Анджелес. Средняя скорость за 5 минут. 7 094 304 от 207 датчиков и 34 272 временных шагов Значения, разделенные запятыми Регрессия, Прогнозирование 2014 [435] Джагадиш и др.
ПеМС Скорость, поток, занятость и другие показатели, полученные от детекторов контуров и других датчиков на автостраде штата Калифорния, США. Метрика обычно агрегируется с помощью среднего значения с интервалом в 5 минут. 39 000 отдельных детекторов, каждый из которых содержит временные ряды за годы. Значения, разделенные запятыми Регрессия, прогнозирование, прогноз текущей погоды, интерполяция (обновляется в реальном времени) [436] Департамент транспорта Калифорнии

Интернет

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Веб-страницы из Common Crawl 2012 Большая коллекция веб-страниц и способы их соединения гиперссылками. Никто. 3,5Б Текст кластеризация, классификация 2013 [437] В. Гранвиль
Набор данных интернет-рекламы Набор данных для прогнозирования, является ли данное изображение рекламой или нет. Функции кодируют геометрию объявлений и фраз, встречающихся в URL-адресе. 3279 Текст Классификация 1998 [438] [439] Н. Кушмерик
Набор данных об использовании Интернета Общая демография интернет-пользователей. Никто. 10,104 Текст Классификация, кластеризация 1999 [440] Д. Кук
Набор данных URL Данные URL-адресов большой конференции за 120 дней. Приведены многие функции каждого URL-адреса. 2,396,130 Текст Классификация 2009 [441] [442] Дж.Ма
Набор данных фишинговых веб-сайтов Набор данных фишинговых сайтов. Приведены многие особенности каждого сайта. 2456 Текст Классификация 2015 [443] Р. Мустафа и др.
Набор данных онлайн-торговли Онлайн-транзакции для британского интернет-магазина. Подробная информация о каждой транзакции предоставлена. 541,909 Текст Классификация, кластеризация 2015 [444] Д. Чен
Простой дамп темы Freebase Freebase — это онлайн-попытка структурировать все человеческие знания. Были извлечены темы из Freebase. большой Текст Классификация, кластеризация 2011 [445] [446] Бесплатная база
Набор данных фермерской рекламы Текст фермерских объявлений с сайтов. Выдается двоичное одобрение или неодобрение со стороны владельцев контента. Рассчитаны SVMlight разреженные векторы текстовых слов в рекламных объявлениях. 4143 Текст Классификация 2011 [447] [448] К. Мастерхарм и др.
Куча Сборка нескольких больших наборов данных разнообразных и неструктурированных текстов. Разное (удаление HTML и Javascript с веб-сайтов, удаление повторяющихся предложений) 825 ГиБ английского текста JSON-линии [449] [450] Обработка естественного языка, прогнозирование текста 2021 [451] [449] Гао и др.
ОСКАР Большая коллекция одноязычных корпусов, извлеченных из веб-данных (дампы Common Crawl), охватывающая более 150 языков. Различные (фильтрация, языковая классификация, обнаружение контента для взрослых и другая маркировка) 3,4 ТБ текста на английском языке, 1,4 ТБ текста на китайском языке, 1,1 ТБ текста на русском языке, 595 МБ текста на немецком языке, 431 МБ текста на французском языке и данных для более чем 150 языков (цифры для версии 23.01) JSON-линии [452] Обработка естественного языка, прогнозирование текста 2021 [453] [454] Ортис Суарес, Абаджи, Сагот и др.
OpenWebText Воссоздание корпуса WebText с открытым исходным кодом. Текст представляет собой веб-контент, извлеченный из URL-адресов, опубликованных на Reddit и получивших как минимум три голоса «за». Извлеченный контент, отличный от HTML, дедуплицированный и токенизированный. 8 013 769 документов, 38 ГБ Текст Обработка естественного языка, прогнозирование текста 2019 [455] [456] А. Гокаслан, В. Коэн
КОРНИ Хорошо документированный и репрезентативный многоязычный набор данных с явной целью принести пользу людям, чьи данные были собраны. Извлечён контент, отличный от HTML, очищен пользовательский интерфейс и реклама, дедуплицированы, удалены личные данные и токенизированы. 1,6 ТБ, 59 языков. Паркет Обработка естественного языка, прогнозирование текста 2022 [457] [458] Х. Лоуренсон, Л. Солнье, Т. Ван, Ж. Акики, А. Вилланова дель Мораль, Т. Ле Скао
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных покерных рук 5-карточные комбинации из стандартной колоды из 52 карт. Приводятся атрибуты каждой руки, включая покерные руки, состоящие из содержащихся в ней карт. 1,025,010 Текст Регрессия, классификация 2007 [459] Р. Каттрал
Набор данных Connect-4 Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один игрок еще не выиграл и в которых следующий ход не является обязательным. Никто. 67,557 Текст Классификация 1995 [460] Дж. Тромп
Шахматы (король-ладья против короля) Набор данных База данных эндшпиля для белого короля и ладьи против черного короля. Никто. 28,056 Текст Классификация 1994 [461] [462] М. Бейн и др.
Шахматы (король-ладья против короля-пешки) Набор данных Король+ладья против короля+пешка на а7. Никто. 3196 Текст Классификация 1989 [463] Р. Холте
Набор данных эндшпиля «Крестики-нолики» Бинарная классификация условий победы в игре «крестики-нолики». Никто. 958 Текст Классификация 1991 [464] Д. Ааа

Прочие многомерные

[ редактировать ]
Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о жилье Средняя стоимость дома в Бостоне с соответствующими характеристиками дома и района. Никто. 506 Текст Регрессия 1993 [465] Д. Харрисон и др.
Словари Гетти структурированная терминология искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы. Никто. большой Текст Классификация 2015 [466] Центр Гетти
Yahoo! Главная страница Модуль «Сегодня» Журнал кликов пользователя Журнал кликов пользователей для новостных статей, отображаемых на вкладке «Рекомендуемые» модуля «Сегодня» на Yahoo! Первая страница. Совместный анализ с билинейной моделью. 45 811 883 посещения пользователей Текст Регрессия, кластеризация 2009 [467] [468] Чу и др.
Британский центр океанографических данных Биологические, химические, физические и геофизические данные океанов. Отслеживается 22 тыс. переменных. Различный. 22 тыс. переменных, множество экземпляров Текст Регрессия, кластеризация 2015 [469] Британский центр океанографических данных
Набор данных протоколов голосования в Конгрессе Данные голосования всех представителей США по 16 вопросам. Помимо необработанных данных голосования, предоставляются различные другие функции. 435 Текст Классификация 1987 [470] Дж. Хуже
Набор данных рекомендаций Entree Chicago Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. Подробная информация об использовании приложения каждым пользователем записывается. 50,672 Текст Регрессия, рекомендация 2000 [471] Р. Берк
Оценка страховой компании (COIL 2000) Информация о клиентах страховой компании. Множество особенностей каждого клиента и услуг, которыми он пользуется. 9,000 Текст Регрессия, классификация 2000 [472] [473] П. ван дер Путтен
Набор данных питомника Данные поступающих в детские сады. Включены данные о семье заявителя и различные другие факторы. 12,960 Текст Классификация 1997 [474] [475] В. Райкович и др.
Набор данных университета Данные, описывающие атрибуты большого количества университетов. Никто. 285 Текст Кластеризация, классификация 1988 [476] С. Саундерс и др.
Набор данных Центра переливания крови Данные Центра переливания крови. Предоставляет данные о проценте возврата доноров, частоте и т. д. Никто. 748 Текст Классификация 2008 [477] [478] Я. Да
Набор данных шаблонов сравнения связей записи Большой набор данных записей. Задача состоит в том, чтобы связать соответствующие записи вместе. Процедура блокировки применяется для выбора только определенных пар записей. 5,749,132 Текст Классификация 2011 [479] [480] Университет Майнца
Набор данных Номао Nomao собирает данные о местах из разных источников. Задача — обнаружить предметы, описывающие одно и то же место. Дубликаты помечены. 34,465 Текст Классификация 2012 [481] [482] Номао Лаборатории
Набор данных фильма Данные по 10 000 фильмов. Приведено несколько функций для каждого фильма. 10,000 Текст Кластеризация, классификация 1999 [483] Г. Видерхольд
Набор данных аналитики обучения открытого университета Информация об учениках и их взаимодействии с виртуальной средой обучения. Никто. ~ 30,000 Текст Классификация, кластеризация, регрессия 2015 [484] [485] Дж. Кузилек и др.
Записи мобильных телефонов Телекоммуникационная деятельность и взаимодействие Агрегация по ячейкам географической сетки и каждые 15 минут. большой Текст Классификация, кластеризация, регрессия 2015 [486] Дж. Барлакки и др.

Кураторские репозитории наборов данных

[ редактировать ]

Поскольку наборы данных имеют множество форматов и иногда их может быть сложно использовать, была проделана значительная работа по созданию и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.

  • ОпенМЛ: [487] Веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
  • ПМЛБ: [488] Большой тщательно подобранный репозиторий эталонных наборов данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, доступном через API Python.
  • Metatext NLP: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий около 1000 наборов контрольных данных, и их количество продолжает расти. Предоставляет множество задач, от классификации до контроля качества, и поддерживает различные языки: от английского, португальского до арабского.
  • Appen : готовые наборы данных и наборы данных с открытым исходным кодом, размещаемые и поддерживаемые компанией. Эти биологические, графические, физические ресурсы, ресурсы для ответов на вопросы, сигналы, звуки, текст и видео насчитывают более 250 и могут применяться более чем в 25 различных случаях использования. [489] [490]

См. также

[ редактировать ]
  1. ^ Висснер-Гросс, А. «Наборы данных вместо алгоритмов» . Edge.com . Проверено 8 января 2016 г.
  2. ^ Вайс, генеральный директор; Провост, Ф. (1 сентября 2003 г.). «Обучение, когда обучающие данные являются дорогостоящими: влияние распределения классов на индукцию дерева» . Журнал исследований искусственного интеллекта . 19 . Фонд доступа к искусственному интеллекту: 315–354. дои : 10.1613/jair.1199 . ISSN   1076-9757 . S2CID   2344521 .
  3. ^ Терни, Питер (2000). «Типы затрат в индуктивном концептуальном обучении». arXiv : cs/0212034 .
  4. ^ Эбни, Стивен (17 сентября 2007 г.). Полуконтролируемое обучение компьютерной лингвистике . ЦРК Пресс. ISBN  978-1-4200-1080-0 .
  5. ^ Жлиобайте, Индре; Бифет, Альберт; Пфарингер, Бернхард; Холмс, Джефф (2011). «Активное обучение с развивающимися потоковыми данными». Машинное обучение и обнаружение знаний в базах данных . Конспекты лекций по информатике. Том. 6913. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 597–612. дои : 10.1007/978-3-642-23808-6_39 . ISBN  978-3-642-23807-9 . ISSN   0302-9743 .
  6. ^ Маколи, Джулиан; Таргетт, Кристофер; Ши, Циньфэн; Антон ван ден Хенгель (2015). «Рекомендации по стилям и заменителям на основе изображений». arXiv : 1506.04757 [ cs.CV ].
  7. ^ «Данные обзора Amazon» . nijianmo.github.io . Проверено 8 октября 2021 г.
  8. ^ Ганесан, Кавита; Чжай, Чэнсян (2012). «Рейтинг организаций на основе мнений». Информационный поиск . 15 (2): 116–150. дои : 10.1007/s10791-011-9174-8 . hdl : 2142/15252 . S2CID   16258727 .
  9. ^ Льв, Юаньхуа, Димитриос Лимберопулос и Цян Ву. « Исследование эвристики ранжирования в мобильном локальном поиске ». Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска» . АКМ, 2012.
  10. ^ Харпер, Ф. Максвелл; Констан, Джозеф А. (2015). «Наборы данных MovieLens: история и контекст». Транзакции ACM в интерактивных интеллектуальных системах . 5 (4): 19. дои : 10.1145/2827872 . S2CID   16619709 .
  11. ^ Кенигштейн, Ноам, Гидеон Дрор и Иегуда Корен. « Музыкальные рекомендации Yahoo!: моделирование музыкальных рейтингов с учетом временной динамики и таксономии предметов ». Материалы пятой конференции ACM по рекомендательным системам . АКМ, 2011.
  12. ^ Макфи, Брайан и др. « Вызов набора данных на миллион песен ». Материалы 21-й международной конференции-спутника по Всемирной паутине . АКМ, 2012.
  13. ^ Боанец, Марко и Владислав Райкович. « Получение знаний и объяснение принятия многоатрибутных решений ». 8-й международный семинар по экспертным системам и их приложениям . 1988.
  14. ^ Тан, Питер Дж. и Дэвид Л. Доу. « Вывод MML графов решений с многосторонними соединениями ». Австралийская совместная конференция по искусственному интеллекту . 2002.
  15. ^ «Количественная оценка комедии на YouTube: почему количество букв «о» в вашем LOL имеет значение» . Метатекстовая база данных НЛП . Проверено 26 октября 2020 г.
  16. ^ Ким, Бён Джу (2012). «Классификатор больших данных» . Конвергенция и гибридные информационные технологии . Коммуникации в компьютерной и информатике. Том. 310. С. 505–512. дои : 10.1007/978-3-642-32692-9_63 . ISBN  978-3-642-32691-2 .
  17. ^ Пересгонсалес, Хосе Д.; Гилби, Эндрю (2011). «Прогнозирование рейтингов аэропортов Skytrax на основе отзывов клиентов» . Журнал управления аэропортами . 5 (4): 335–339.
  18. ^ Ло, Вэй-Инь и Ю-Шань Ши. « Методы расщепленного выбора для деревьев классификации ». Statistica sinica (1997): 815–840.
  19. ^ Лим, Тьен-Сиен; Ло, Вэй-Инь; Ши, Ю-Шань (2000). «Сравнение точности прогнозирования, сложности и времени обучения тридцати трех старых и новых алгоритмов классификации». Машинное обучение . 40 (3): 203–228. дои : 10.1023/а:1007608224229 . S2CID   17030953 .
  20. ^ Киет Ван Нгуен, Ву Дук Нгуен, Фу XV Нгуен, Тхам Т.Х. Труонг, Нган Луу-Туи Нгуен. " UIT-VSFC: Корпус отзывов вьетнамских студентов для анализа настроений
  21. ^ Хо, Вонг Ань; Нгуен, Дуонг Хуинь-Конг; Нгуен, Дань Хоанг; Фам, Линь Тхи-Ван; Нгуен, Дюк-Ву; Нгуен, Киет Ван; Нгуен, Нган Луу-Туи (2020). «Распознавание эмоций в текстах вьетнамских социальных сетей» . Компьютерная лингвистика . Коммуникации в компьютерной и информатике. Том. 1215. стр. 319–333. arXiv : 1911.09339 . дои : 10.1007/978-981-15-6168-9_27 . ISBN  978-981-15-6167-2 . S2CID   208202333 .
  22. ^ Нхунг Тхи-Хонг Нгуен, Фуонг Ха-Диеу Фан, Луан Тхань Нгуен, Киет Ван Нгуен, Нган Луу-Туй Нгуен (24 апреля 2021 г.). «Вьетнамское обнаружение жалоб на открытые домены на веб-сайтах электронной коммерции». arXiv : 2104.11969 [ cs.CL ]. {{cite arXiv}}: CS1 maint: несколько имен: список авторов ( ссылка )
  23. ^ Фу Зиа Хоанг, Кань Дык Луу, Кхань Куок Тран, Киет Ван Нгуен, Нган Луу-Туй Нгуен (26 января 2023 г.). «ViHOS: вьетнамцы выявляют разжигание ненависти». arXiv : 2301.10186 [ cs.CL ]. {{cite arXiv}}: CS1 maint: несколько имен: список авторов ( ссылка )
  24. ^ Дермуш, Мохамед; Вельсин, Жюльен; Хоас, Лейла; Лаудчер, Сабина (2014). «Совместная модель эволюции тем и настроений с течением времени». Международная конференция IEEE 2014 по интеллектуальному анализу данных . IEEE. стр. 773–778. дои : 10.1109/icdm.2014.82 . ISBN  978-1-4799-4302-9 .
  25. ^ Роуз, Тони; Стивенсон, Марк; Уайтхед, Майлз (2002). «Корпус Reuters, том 1 - от вчерашних новостей до языковых ресурсов завтрашнего дня» (PDF) . ЛРЭК . 2 . S2CID   9239414 . Архивировано из оригинала (PDF) 6 августа 2019 года.
  26. ^ Амини, Масих Р.; Усунье, Николя; Гутте, Кирилл (2009). «Обучение на основе нескольких частично наблюдаемых представлений – приложение к категоризации многоязычного текста» . Достижения в области нейронных систем обработки информации . 22 : 28–36.
  27. ^ Лю, Мин; и др. (2015). «VRCA: алгоритм кластеризации огромного количества текстов» . Материалы 24-й Международной конференции по искусственному интеллекту . АААИ Пресс. Архивировано из оригинала 5 ноября 2021 года . Проверено 6 августа 2019 г.
  28. ^ Аль-Харби, С; Альмухареб, А; Аль-Тубайти, А; Хоршид, М.С.; Аль-Радже, А. (2008). «Автоматическая классификация арабского текста». Материалы 9-й Международной конференции по статистическому анализу текстовых данных, Лион, Франция .
  29. ^ «Набор данных для оценки извлечения связей и сущностей: Dstl/re3d» . Гитхаб . 17 декабря 2018 г.
  30. ^ «The Examiner – Каталог SpamClickBait» .
  31. ^ «Миллион заголовков новостей» .
  32. ^ «Одна неделя глобальных новостных лент» .
  33. ^ Кулкарни, Рохит (2018), Архив Reuters News-Wire , Harvard Dataverse, doi : 10.7910/DVN/XDB74W
  34. ^ «IrishTimes – восклицательные новости» .
  35. ^ «Набор данных заголовков новостей для обнаружения сарказма» . kaggle.com . Проверено 27 апреля 2019 г.
  36. ^ Климт, Брайан и Имин Ян. « Представляем корпус Enron ». СЕАС . 2004.
  37. ^ Косинец, Георгий; Кляйнберг, Джон; Уоттс, Дункан (2008). «Структура информационных путей в сети социальных коммуникаций». arXiv : 0806.3201 [ physical.soc-ph ].
  38. ^ Андрутсопулос, Ион; Куциас, Джон; Чандринос, Константинос В.; Палиурас, Джордж; Спиропулос, Константин Д. (2000). «Оценка наивной байесовской фильтрации спама». В Потамиасе, Г.; Мустакис, В.; ван Сомерен, М. (ред.). Материалы семинара по машинному обучению в эпоху новой информации . 11-я Европейская конференция по машинному обучению, Барселона, Испания. Том. 11. С. 9–17. arXiv : cs/0006013 . Бибкод : 2000cs........6013A .
  39. ^ Братко, Андрей; и др. (2006). «Фильтрация спама с использованием статистических моделей сжатия данных» (PDF) . Журнал исследований машинного обучения . 7 : 2673–2698.
  40. ^ Алмейда, Тьяго А., Хосе Мария Г. Идальго и Акебо Ямаками. « Вклад в исследование фильтрации SMS-спама: новый сборник и результаты ». Материалы 11-го симпозиума ACM по документальной инженерии . АКМ, 2011.
  41. ^ Делани; Джейн, Сара; Бакли, Марк; Грин, Дерек (2012). «Фильтрация SMS-спама: методы и данные» . Экспертные системы с приложениями . 39 (10): 9899–9908. дои : 10.1016/j.eswa.2012.02.053 . S2CID   15546924 .
  42. ^ Иоахимс, Торстен. Вероятностный анализ алгоритма Роккио с TFIDF для категоризации текста . № КМУ-КС-96-118. Университет Карнеги-Меллона, Питтсбург, Пенсильвания, факультет компьютерных наук, 1996 год.
  43. ^ Димитракакис, Христос и Сами Бенджио. Адаптация онлайн-политики для ансамблевых алгоритмов . № EPFL-ОТЧЕТ-82788. ИДИАП, 2002.
  44. ^ Думс, С. и др. «Movietweetings: набор данных о рейтингах фильмов, собранный из Твиттера, 2013 г. Доступно по адресу https://github.com/sidooms/MovieTweetings ».
  45. ^ Рой Чоудхури, Аруни; Линь, Цунг-Ю; Маджи, Субхрансу; Узнал-Миллер, Эрик (2017). «Twitter100k: реальный набор данных для кросс-медийного поиска со слабым контролем». arXiv : 1703.06618 [ cs.CV ].
  46. ^ "huyt16/Twitter100k" . Гитхаб . Проверено 26 марта 2018 г.
  47. ^ Иди, Алек; Бхаяни, Рича; Хуан, Лэй (2009). «Классификация настроений в Твиттере с использованием дистанционного наблюдения». Отчет о проекте CS224N, Стэнфорд . 1 : 12.
  48. ^ Чикерсал, Прерна, Суджанья Пориа и Эрик Камбрия. « SeNTU: анализ настроений твитов путем сочетания классификатора на основе правил с контролируемым обучением ». Материалы международного семинара по семантической оценке SemEval . 2015.
  49. ^ Зафарани, Реза и Хуан Лю . «Хранилище данных социальных вычислений в АГУ». Школа вычислительной техники, информатики и систем принятия решений, Университет штата Аризона (2009 г.).
  50. ^ Курс по науке о данных от DataTrained Education « Сертифицированный IBM курс по науке о данных ». Сертифицированный IBM онлайн-курс по науке о данных
  51. ^ Маколи, Джулиан Дж.; Лесковец, Юре. «Учимся обнаруживать социальные круги в сетях эго». НИПС . 2012 : 2012.
  52. ^ Шубель, Ловро; Фиала, Далибор; Баец, Марко (2014). «Сетевое статистическое сравнение топологии цитирования библиографических баз данных» . Научные отчеты . 4 (6496): 6496. arXiv : 1502.05061 . Бибкод : 2014NatSR...4E6496S . дои : 10.1038/srep06496 . ПМЦ   4178292 . ПМИД   25263231 .
  53. ^ Абдулла Н. и др. «Анализ настроений на арабском языке: на основе корпуса и лексикона». Материалы конференции IEEE по прикладной электротехнике и вычислительным технологиям (AEECT) . 2013.
  54. ^ Абурейг, Раддад и др. « Об автоматической категоризации арабских статей по их политической направленности ». Третья международная конференция по информатике и информатике (ICIEIS2014) . 2014.
  55. ^ Кавала, Франсуа и др. « Прогнозы активности в социальных сетях онлайн ». 4-я конференция по сетевым моделям и анализу: Математические и вычислительные подходы . 2013.
  56. ^ Сабхарвал, Ашиш; Самуловиц, Хорст; Тезауро, Джеральд (2015). «Выбор почти оптимальных учащихся посредством постепенного распределения данных». arXiv : 1601.00024 [ cs.LG ].
  57. ^ Сюй и др. « SemEval-2015 Задача 1: Перефраз и семантическое сходство в Twitter (PIT) » Материалы 9-го Международного семинара по семантической оценке . 2015.
  58. ^ Сюй и др. « Извлечение лексически расходящихся парафраз из Твиттера » Транзакции Ассоциации вычислительных технологий (TACL) . 2014.
  59. ^ Миддлтон, Стюарт Э; Миддлтон, Ли; Модаффери, Стефано (2014). «Картирование кризисов стихийных бедствий в реальном времени с использованием социальных сетей» (PDF) . Интеллектуальные системы IEEE . 29 (2): 9–17. дои : 10.1109/MIS.2013.126 . S2CID   15139204 .
  60. ^ «геопарсепия» . 2016. Библиотека Python PyPI.
  61. ^ Шмуэли, Боаз; Ку, Лунь-Вэй; Рэй, Сумья (2020). «Реактивный надзор: новый метод сбора данных о сарказме» . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP) . Ассоциация компьютерной лингвистики. стр. 2553–2559. doi : 10.18653/v1/2020.emnlp-main.201 . S2CID   221970454 .
  62. ^ Шмули, Боаз. «Набор данных сарказма SPIRS» . Гитхаб .
  63. ^ Гупта, Аакаш (2020). «Голландская коллекция социальных сетей» . Центр данных о COVID-19. дои : 10.5072/FK2/MTPTL7 . Проверено 11 ноября 2023 г.
  64. ^ «Стримлит» . Huggingface.co . Проверено 18 декабря 2020 г.
  65. ^ «Коллекция голландских социальных сетей» . kaggle.com . Проверено 18 декабря 2020 г.
  66. ^ Шмуэли, Боаз; Рэй, Сумья; Лунь-Вэй (2021). «Счастливый танец, медленные хлопки: использование GIF-реакций для прогнозирования вызванного аффекта в Твиттере». Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 2: Короткие статьи) . Том. Ассоциация компьютерной лингвистики. Как. стр. 395–401. doi : 10.18653/v1/2021.acl-short.50 . S2CID   235125510 .
  67. ^ Шмуэли, Вооз (5 мая 2023 г.), ReactionGIF , получено 6 октября 2023 г.
  68. ^ Форсайт Э., Лин Дж. и Мартелл К. (25 июня 2008 г.). Корпус чата NPS. Получено с http://faculty.nps.edu/cmartell/NPSChat.htm.
  69. ^ Сордони, Алессандро; Галлей, Мишель; Аули, Майкл; Брокетт, Крис; Цзи, Янфэн; Митчелл, Маргарет; Не, Цзянь-Юнь; Гао, Цзяньфэн; Долан, Билл (2015). «Нейросетевой подход к контекстно-зависимой генерации диалоговых ответов». arXiv : 1506.06714 [ cs.CL ].
  70. ^ Шауль, К. и Вестбери К. (2013) Корпус USENET с уменьшенной избыточностью (2005–2011) Эдмонтон, AB: Университет Альберты (загружено с http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus) .download.html )
  71. ^ КАН, М. (2011, январь). Корпус службы коротких сообщений (SMS) NUS. Получено с http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/. Архивировано 29 июня 2018 г. на Wayback Machine.
  72. ^ Застрял_В_Матрице. (2015, 3 июля). У меня есть все общедоступные комментарии Reddit для изучения. ~ 1,7 миллиарда комментариев при сжатии 250 ГБ. Есть ли в этом интерес? [Исходное сообщение]. Сообщение опубликовано на https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/.
  73. ^ Лоу, Райан; Пау, Ниссан; Сербан, Юлиан; Пино, Джоэль (2015). «Корпус диалогов Ubuntu: большой набор данных для исследования неструктурированных многоповоротных диалоговых систем». arXiv : 1506.08909 [ cs.CL ].
  74. ^ Джейсон Уильямс Антуан Ро Мэтью Хендерсон, « [1] », Диалог и дискурс | Апрель 2016 года.
  75. ^ Хоппе, Трэвис (16 декабря 2021 г.), The-Pile-FreeLaw , получено 11 января 2023 г.
  76. ^ Чжэн, Люсия; Гуха, Нил; Андерсон, Брэндон Р.; Хендерсон, Питер; Хо, Дэниел Э. (21 июня 2021 г.). «Когда предварительная подготовка помогает?» . Материалы восемнадцатой международной конференции по искусственному интеллекту и праву . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 159–168. дои : 10.1145/3462757.3466088 . ISBN  9781450385268 . S2CID   233296302 .
  77. ^ «куча закона/куча закона · Наборы данных в Hugging Face» . Huggingface.co . 4 июля 2022 г. Проверено 11 января 2023 г.
  78. ^ «О проекте | Проект доступа к прецедентному праву» . прецедентное право . Проверено 11 января 2023 г.
  79. ^ К. Ковсари, Д. Э. Браун, М. Хейдарисафа, К. Джафари Мейманди, М. С. Гербер и Л. Е. Барнс, «HDLTex: иерархическое глубокое обучение для классификации текста», 16-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA), 2017 г., стр. 364–371. doi:10.1109/ICMLA.2017.0-134
  80. ^ К. Ковсари, Д. Е. Браун, М. Хейдарисафа, К. Джафари Мейманди, М. С. Гербер и Л. Е. Барнс, «Набор научных данных Web of Science», дои : 10.17632/9rw3vkcfy4.6
  81. ^ Гальгани, Филиппо, Пол Комптон и Ахим Хоффманн. « Сочетание различных методов реферирования юридического текста ». Материалы семинара по инновационным гибридным подходам к обработке текстовых данных . Ассоциация компьютерной лингвистики, 2012.
  82. ^ Нагвани, Северная Каролина (2015). «Обобщение большой коллекции текста с использованием тематического моделирования и кластеризации на основе платформы MapReduce» . Журнал больших данных . 2 (1): 1–18. дои : 10.1186/s40537-015-0020-5 .
  83. ^ Шлер, Джонатан; и др. (2006). «Влияние возраста и пола на ведение блога» (PDF) . Весенний симпозиум AAAI: Вычислительные подходы к анализу блогов . 6 . Архивировано из оригинала (PDF) 14 ноября 2020 года . Проверено 6 августа 2019 г.
  84. ^ Ананд, Пранав и др. «Поверьте мне, мы можем это сделать! Аннотации убедительных действий в тексте блога». Вычислительные модели естественного аргумента . 2011.
  85. ^ Трауд, Аманда Л., Питер Дж. Муха и Мейсон А. Портер. «Социальная структура сетей Facebook». Физика А: Статистическая механика и ее приложения 391.16 (2012): 4165–4180.
  86. ^ Ричард, Эмиль; Саваль, Пьер-Андре; Ваятис, Николас (2012). «Оценка одновременно разреженных и низкоранговых матриц». arXiv : 1206.6474 [ cs.DS ].
  87. ^ Ричардсон, Мэтью; Берджес, Кристофер Дж.К.; Реншоу, Эрин (2013). «MCTest: набор данных для машинного понимания текста в открытой области» . ЕМНЛП . 1 .
  88. ^ Уэстон, Джейсон; Борд, Антуан; Чопра, Сумит; Раш, Александр М.; Барт ван Мерриенбур; Жулен, Арман; Миколов, Томас (2015). «На пути к полному ответу на вопросы с помощью искусственного интеллекта: набор обязательных игрушечных задач». arXiv : 1502.05698 [ cs.AI ].
  89. ^ Маркус, Митчелл П.; Энн Марцинкевич, Мэри; Санторини, Беатрис (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» . Компьютерная лингвистика . 19 (2): 313–330.
  90. ^ Коллинз, Майкл (2003). «Головные статистические модели для анализа естественного языка» . Компьютерная лингвистика . 29 (4): 589–637. дои : 10.1162/089120103322753356 .
  91. ^ Гийон, Изабель и др., ред. Извлечение функций: основы и приложения . Том. 207. Спрингер, 2008.
  92. ^ Лин, Юрий и др. « Синтаксические аннотации для корпуса ngram книг Google ». Материалы демонстраций системы ACL 2012 . Ассоциация компьютерной лингвистики, 2012.
  93. ^ Кришнамурти, Ниведа; и др. (2013). «Создание описаний видео на естественном языке с использованием текстовых знаний» . АААИ . 1 . Архивировано из оригинала 6 августа 2019 года . Проверено 6 августа 2019 г.
  94. ^ Люйкс, Ким и Уолтер Далеманс. « Персоны: корпус предсказаний автора и личности на основе текста» [ мертвая ссылка ] ЛРЭЦ . 2008.
  95. ^ Солорио, Тамар, Рагиб Хасан и Майнул Мизан. « Пример обнаружения кукольных кукол в Википедии ». Семинар по языковому анализу в социальных сетях (LASM) в NAACL HLT . 2013.
  96. ^ «Файлы сдвига» . файлы.pushshift.io . Архивировано из оригинала 12 января 2023 года . Проверено 12 января 2023 г.
  97. ^ Баумгартнер, Джейсон; Занетту, Саввас; Киган, Брайан; Сквайр, Меган; Блэкберн, Джереми (23 января 2020 г.). «Набор данных Pushshift Reddit». arXiv : 2001.08435 [ cs.SI ].
  98. ^ Сиарелли, Патрик Маркес и Элиас Оливейра. « Агломерация и устранение условий понижения размерности ». Проектирование и применение интеллектуальных систем, 2009. ISDA'09. Девятая международная конференция по . ИИЭР, 2009.
  99. ^ Чжоу, Минъюань, Оскар Эрнан Мадрид Падилья и Джеймс Г. Скотт. «Априорные данные для матриц случайного счета, полученных из семейства отрицательных биномиальных процессов». журнал Американской статистической ассоциации (2015 г.): 00–00. Только что принятый
  100. ^ Коциас, Димитриос и др. « От группы к индивидуальным меткам с использованием глубоких функций ». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. АКМ, 2015.
  101. ^ Нин, Юэ; Мутия, Сатхаппан; Рангвала, Хузефа; Рамакришнан, Нарен (2016). «Моделирование предшественников для прогнозирования событий посредством вложенного многоэкземплярного обучения». arXiv : 1602.08033 [ cs.SI ].
  102. ^ Буза, Кристиан. « Прогнозирование обратной связи для блогов ». Анализ данных, машинное обучение и обнаружение знаний . Springer International Publishing, 2014. 145–152.
  103. ^ Сойсал, Омер М (2015). «Анализ правил ассоциации с преимущественно связанными последовательными шаблонами». Экспертные системы с приложениями . 42 (5): 2582–2592. дои : 10.1016/j.eswa.2014.10.049 .
  104. ^ Чжу, Юкун и др. «Совмещение книг и фильмов: к визуальным объяснениям, похожим на истории, путем просмотра фильмов и чтения книг». Материалы международной конференции IEEE по компьютерному зрению . 2015.
  105. ^ Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). «Большой аннотированный корпус для изучения вывода на естественном языке». arXiv : 1508.05326 [ cs.CL ].
  106. ^ «Коллекция корпуса DSL» . ttg.uni-saarland.de . Проверено 22 сентября 2017 г.
  107. ^ «Городской словарь слов и определений» .
  108. ^ Х. Эльсахар, П. Вугиуклис, А. Ремачи, К. Гравье, Дж. Хэйр, Ф. Лафорест, Э. Симперл, « T-REx: крупномасштабное согласование естественного языка с тройками базы знаний », Труды Одиннадцатая Международная конференция по языковым ресурсам и оценке (LREC-2018).
  109. ^ Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омер; Боуман, Сэмюэл Р. (2018). «GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка». arXiv : 1804.07461 [ cs.CL ].
  110. ^ «Компьютеры учатся читать, но они все еще не такие умные» . Проводной . Проверено 29 декабря 2019 г.
  111. ^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Проверено 25 февраля 2019 г.
  112. ^ Цюань, Хоанг Лам; Куанг, Дуй Ле; Ван Киет, Нгуен; Нган, Луу-Туй Нгуен. «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке» .
  113. ^ Куок Хай; Нгуен, Ван Киет; Нгуен, Луу Туй Нган; Нгуен, Гиа Туан Ань (2020). «Прогнозирование пола на основе вьетнамских имен с использованием методов машинного обучения». Материалы 4-й Международной конференции по обработке естественного языка и поиску информации . стр. 55–60. arXiv : 2010.10852 . дои : 10.1145/3443279.3443309 . ISBN  9781450377607 . S2CID   224814110 .
  114. ^ Нгуен, Луан Тхань; Ван Нгуен, Киет; Нгуен, Нган Луу-Туи (18 марта 2021 г.). «Обнаружение конструктивной и токсичной речи для комментариев в социальных сетях в открытом доступе на вьетнамском языке». Достижения и тенденции в области искусственного интеллекта. Практика искусственного интеллекта . Конспекты лекций по информатике. Том. 12798. стр. 572–583. arXiv : 2103.10069 . дои : 10.1007/978-3-030-79457-6_49 . ISBN  978-3-030-79456-9 . S2CID   232269671 .
  115. ^ Сакстон, Дэвид и др. «Анализ способностей нейронных моделей к математическому мышлению». Международная конференция по обучению представлений . 2018.
  116. ^ М. Верстег, Р. Тиольер, Т. Шац, X.-N. Цао, К. Ангера, А. Янсен и Э. Дюпу (2015). «The Zero Resource Speech Challenge 2015», в рамках INTERSPEECH-2015.
  117. ^ М. Верстиг, X. Ангера, А. Янсен и Э. Дюпу (2016). « Вызов речи с нулевыми ресурсами 2015: предлагаемые подходы и результаты », в SLTU-2016.
  118. ^ Сакар, Бетул Эрдогду; и др. (2013). «Сбор и анализ набора речевых данных Паркинсона с несколькими типами звукозаписей». Журнал IEEE по биомедицинской и медицинской информатике . 17 (4): 828–834. дои : 10.1109/jbhi.2013.2245674 . ПМИД   25055311 . S2CID   15491516 .
  119. ^ Чжао, Шунан и др. « Автоматическое обнаружение выраженных эмоций при болезни Паркинсона ». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
  120. ^ Используется в: Хаммами, Насереддине и Моулди Бедде. «Улучшенная древовидная модель распознавания арабской речи». Компьютерные науки и информационные технологии (ICCSIT), 2010 г. 3-я Международная конференция IEEE по . Том. 5. ИИЭР, 2010.
  121. ^ Маатен, Лоуренс. « Изучение дискриминационных ядер Фишера ». Материалы 28-й Международной конференции по машинному обучению (ICML-11) . 2011.
  122. ^ Коул, Рональд и Марк Фэнти. « Распознавание устной буквы ». Учеб. Третий семинар DARPA по речи и естественному языку . 1990.
  123. ^ Шапель, Оливье; Синдхвани, Викас; Кирти, Сатья С. (2008). «Методы оптимизации для полуконтролируемых машин опорных векторов» (PDF) . Журнал исследований машинного обучения . 9 : 203–233.
  124. ^ Кудо, Минеичи; Тояма, Джун; Симбо, Масару (1999). «Классификация многомерных кривых с использованием областей прохождения». Буквы для распознавания образов . 20 (11): 1103–1111. Бибкод : 1999PaReL..20.1103K . CiteSeerX   10.1.1.46.2515 . дои : 10.1016/s0167-8655(99)00077-x .
  125. ^ Джагер, Герберт; и др. (2007). «Оптимизация и применение сетей эхо-состояний с нейронами вытекающего интегратора». Нейронные сети . 20 (3): 335–352. дои : 10.1016/j.neunet.2007.04.016 . ПМИД   17517495 .
  126. ^ Цанас, Афанасий; и др. (2010). «Точный телемониторинг прогрессирования болезни Паркинсона с помощью неинвазивных речевых тестов» . Транзакции IEEE по биомедицинской инженерии (представленная рукопись). 57 (4): 884–893. дои : 10.1109/tbme.2009.2036000 . ПМИД   19932995 . S2CID   7382779 .
  127. ^ Клиффорд, Гари Д.; Клифтон, Дэвид (2012). «Беспроводные технологии в лечении заболеваний и медицине». Ежегодный обзор медицины . 63 : 479–492. doi : 10.1146/annurev-med-051210-114650 . ПМИД   22053737 .
  128. ^ Зуэ, Виктор; Сенефф, Стефани; Гласс, Джеймс (1990). «Разработка речевых баз данных в Массачусетском технологическом институте: TIMIT и за его пределами». Речевое общение . 9 (4): 351–356. дои : 10.1016/0167-6393(90)90010-7 .
  129. ^ Кападиа, Садик, Валчо Валчев и С. Дж. Янг. «Тренинг MMI для непрерывного распознавания фонем в базе данных TIMIT». Акустика, речь и обработка сигналов, 1993. ICASSP-93., 1993 Международная конференция IEEE по . Том. 2. ИИЭР, 1993.
  130. ^ Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (кандидатская диссертация). Университет Саутгемптона , Школа электроники и информатики.
  131. ^ Ардила, Розана; Брэнсон, Меган; Дэвис, Келли; Хенретти, Майкл; Колер, Майкл; Мейер, Джош; Мораис, Рубен; Сондерс, Линдси; Тайерс, Фрэнсис М.; Вебер, Грегор (13 декабря 2019 г.). «Общий голос: массово-многоязычный речевой корпус». arXiv : 1912.06670v2 [ cs.CL ].
  132. ^ «Набор речевых данных ЖЖ» . keithito.com . Проверено 13 апреля 2022 г.
  133. ^ Гандура, Абдулкадер; Хьябо, Фарук; Аль-Даккак, Умайма (июнь 2021 г.). «Создание и сравнение набора данных арабских речевых команд для обнаружения небольших ключевых слов» . Инженерные применения искусственного интеллекта . 102 : 104267. doi : 10.1016/j.engappai.2021.104267 . ISSN   0952-1976 . S2CID   235637809 .
  134. ^ Чжоу, Фанг, К. Клэр и Росс Д. Кинг. « Предсказание географического происхождения музыки ». Data Mining (ICDM), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
  135. ^ Сакченти, Эдоардо; Камачо, Хосе (2015). «Об использовании k-кратной операции наблюдения в перекрестной проверке PCA». Журнал хемометрики . 29 (8): 467–478. дои : 10.1002/cem.2726 . hdl : 10481/55302 . S2CID   62248957 .
  136. ^ Бертен-Маье, Тьерри и др. «Набор данных о миллионе песен». ISMIR 2011: Материалы 12-й конференции Международного общества по поиску музыкальной информации, 24–28 октября 2011 г., Майами, Флорида . Университет Майами, 2011.
  137. ^ Хенафф, Микаэль; и др. (2011). «Неконтролируемое изучение редких функций для масштабируемой классификации аудио» (PDF) . ИСМИР . 11 .
  138. ^ Рафии, Зафар (2017). "Музыка". MUSDB18 — корпус музыкального разделения . дои : 10.5281/zenodo.1117372 .
  139. ^ Дефферрард, Микаэль; Бензи, Кирелл; Вандергейнст, Пьер; Брессон, Ксавье (6 декабря 2016 г.). «FMA: набор данных для музыкального анализа». arXiv : 1612.01840 [ cs.SD ].
  140. ^ Эспозито, Роберто; Радичони, Даниэле П. (2009). «Carpediem: Оптимизация алгоритма Витерби и приложений для контролируемого последовательного обучения» (PDF) . Журнал исследований машинного обучения . 10 : 1851–1880.
  141. ^ Сурати, Джамшид; и др. (2016). «Классификация активного обучения на основе взаимной информации» . Энтропия . 18 (2): 51. Бибкод : 2016Entrp..18...51S . дои : 10.3390/e18020051 .
  142. ^ Саламон, Джастин; Джейкоби, Кристофер; Белло, Хуан Пабло. « Набор данных и таксономия для исследования городского звука ». Материалы Международной конференции ACM по мультимедиа . АКМ, 2014.
  143. ^ Лагранж, Матье; Лафай, Грегуар; Россиньоль, Матиас; Бенетос, Эммануил; Робель, Аксель (2015). «Среда оценки для обнаружения событий с использованием морфологической модели акустических сцен». arXiv : 1502.00141 [ стат.ML ].
  144. ^ Геммеке, Йорт Ф. и др. «Набор аудио: онтология и набор данных, помеченных человеком, для аудиособытий». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2017.
  145. ^ «Берегитесь, птицеловы: искусственный интеллект научился распознавать птиц по их песням» . Наука | АААС . 18 июля 2018 года . Проверено 22 июля 2018 г.
  146. ^ «Задание по обнаружению птиц по звуку» . Лаборатория машинного прослушивания в Университете Королевы Марии . 3 мая 2016 года . Проверено 22 июля 2018 г.
  147. ^ Вичерн, Гордон; Антоньини, Джо; Флинн, Майкл; Личэн Ричард Чжу; Маккуинн, Эммет; Ворона, Дуайт; Манилоу, Итан; Джонатан Ле Ру (2019). «БУХ!: Расширение разделения речи на шумную среду». arXiv : 1907.01160 [ cs.SD ].
  148. ^ Дроссос К., Липпинг С. и Виртанен Т. «Клото: набор данных для аудиотитров» Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2020.
  149. ^ Дроссос К., Липпинг С. и Виртанен Т. (2019). Набор данных Clotho (Версия 1.0) [Набор данных]. Зенодо . http://doi.org/10.5281/zenodo.3490684
  150. ^ Набор данных CAIDA UCSD по Witty Worm - 19–24 марта 2004 г., http://www.caida.org/data/passive/witty_worm_dataset.xml
  151. ^ Чен, Зешэн и Чуаньи Цзи. « Оптимальный метод сканирования червей с использованием дистрибутивов уязвимых хостов ». Международный журнал безопасности и сетей 2.1–2 (2007): 71–80.
  152. ^ Качуи, Мохамад и др. « Высокоточная оценка артериального давления без манжеты без калибровки с использованием времени прохождения импульса [ постоянная мертвая ссылка ] . Схемы и системы (ISCAS), 2015 г. Международный симпозиум IEEE по . IEEE, 2015 г.
  153. ^ PhysioBank, PhysioToolkit. «PhysioNet: компоненты нового исследовательского ресурса для сложных физиологических сигналов». Тираж. v101 и23. е215-е220 .
  154. ^ Вергара, Александр; и др. (2012). «Компенсация дрейфа датчика химического газа с использованием ансамблей классификаторов». Датчики и исполнительные механизмы B: Химические вещества . 166 : 320–329. Бибкод : 2012SeAcB.166..320В . дои : 10.1016/j.snb.2012.01.074 .
  155. ^ Коротценков Г.; Чо, БК (2014). «Инженерные подходы к улучшению параметров кондуктометрических датчиков газа. Часть 2. Снижение рассеиваемой (потребляемой) мощности и повышение стабильности и надежности». Датчики и исполнительные механизмы B: Химические вещества . 198 : 316–341. Бибкод : 2014SeAcB.198..316K . дои : 10.1016/j.snb.2014.03.069 .
  156. ^ Куинлан, Джон Р. (1992). «Обучение с помощью непрерывных занятий» (PDF) . 5-я Австралийская совместная конференция по искусственному интеллекту . 92 .
  157. ^ Мерц, Кристофер Дж.; Паццани, Майкл Дж. (1999). «Подход на основе главных компонентов к объединению оценок регрессии» . Машинное обучение . 36 (1–2): 9–32. дои : 10.1023/а:1007507221352 .
  158. ^ Торрес-Соспедра, Хоакин и др. «UJIIndoorLoc-Mag: новая база данных для задач локализации по магнитному полю». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. по . ИИЭР, 2015.
  159. ^ Берквенс, Рафаэль, Маартен Вейн и Герберт Переманс. « Средняя взаимная информация вероятностной локализации Wi-Fi ». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. Банф, Канада: IPIN . 2015.
  160. ^ Пашке, Фабиан и др. «Бездатчиковый контроль состояния синхронных двигателей». Слушания. 23-й семинар по вычислительному интеллекту, Дортмунд, 5-6. Декабрь 2013 года . КИТ Научное Издательство, 2013.
  161. ^ Лессмайер, Кристиан и др. « Сбор данных и анализ сигналов на основе измеренных токов двигателя для обнаружения дефектов в электромеханических приводных системах ».
  162. ^ Угулино, Уоллес и др. « Носимые компьютеры: классификация поз и движений тела по данным акселерометров. Архивировано 25 сентября 2020 года в Wayback Machine ». Достижения в области искусственного интеллекта – SBIA 2012 . Springer Berlin Heidelberg, 2012. 52–61.
  163. ^ Шнайдер, Ян; и др. (2015). «Усиление чувств: обзор поддержки обучения на основе датчиков» . Датчики . 15 (2): 4097–4133. Бибкод : 2015Senso..15.4097S . дои : 10.3390/s150204097 . ПМК   4367401 . ПМИД   25679313 .
  164. ^ Мадео, Рената CB, Клодоальдо А.М. Лима и Сараджейн М. Перес. « Сегментация единиц жестов с использованием машин опорных векторов: сегментация жестов из исходных положений ». Материалы 28-го ежегодного симпозиума ACM по прикладным вычислениям . АКМ, 2013.
  165. ^ Лун, Роанна; Чжао, Вэньбин (2015). «Обзор приложений и распознавания движений человека с помощью Microsoft Kinect» . Международный журнал распознавания образов и искусственного интеллекта . 29 (5): 1555008. doi : 10.1142/s0218001415550083 .
  166. ^ Теодоридис, Теодорос и Хуошэн Ху. « Классификация действий трехмерных моделей человека с использованием динамических ИНС для наблюдения за мобильными роботами . Архивировано 6 августа 2019 года в Wayback Machine ». Робототехника и биомиметика, 2007. РОБИО 2007. Международная конференция IEEE по . ИИЭР, 2007.
  167. ^ Этемад, Сейед Али и Али Арья. « 3D-распознавание действий человека и трансформация стиля с использованием устойчивых нейронных сетей обратного распространения ошибки». Интеллектуальные вычисления и интеллектуальные системы, 2009. ICIS 2009. Международная конференция IEEE по . Том. 4. ИИЭР, 2009.
  168. ^ Алтун, Керем; Баршан, Биллур; Тунчель, Оркун (2010). «Сравнительное исследование классификации деятельности человека с помощью миниатюрных инерционных и магнитных датчиков». Распознавание образов . 43 (10): 3605–3620. Бибкод : 2010PatRe..43.3605A . дои : 10.1016/j.patcog.2010.04.019 . hdl : 11693/11947 .
  169. ^ Натан, Ран ; и др. (2012). «Использование данных трехосного ускорения для определения поведенческих режимов животных, находящихся на свободном выгуле: общие концепции и инструменты, проиллюстрированные для белоголовых сипов» . Журнал экспериментальной биологии . 215 (6): 986–996. дои : 10.1242/jeb.058602 . ПМЦ   3284320 . ПМИД   22357592 .
  170. ^ Ангита, Давиде и др. « Распознавание активности человека на смартфонах с использованием многоклассовой аппаратно-совместимой машины опорных векторов ». Окружающая среда, сопровождаемая проживанием и уходом на дому . Springer Berlin Heidelberg, 2012. 216–223.
  171. ^ Су, Син; Тонг, Ханхан; Цзи, Пин (2014). «Распознавание активности с помощью датчиков смартфона». Цинхуа Наука и Технология . 19 (3): 235–249. дои : 10.1109/tst.2014.6838194 . S2CID   62751498 .
  172. ^ Кадус, Мохаммед Валид. Временная классификация: распространение парадигмы классификации на многомерные временные ряды . Дисс. Университет Нового Южного Уэльса, 2002 г.
  173. ^ Грейвс, Алекс и др. « Коннекционистская временная классификация: маркировка несегментированных последовательностей данных с помощью рекуррентных нейронных сетей ». Материалы 23-й международной конференции по машинному обучению . АКМ, 2006.
  174. ^ Веллосо, Эдуардо и др. « Качественное распознавание активности упражнений по поднятию тяжестей ». Материалы 4-й Международной конференции по дополненному человеку . АКМ, 2013.
  175. ^ Мортазави, Бобак Джек и др. « Определение единой наилучшей оси для распознавания повторений упражнений и расчет умных часов. Архивировано 4 ноября 2021 года в Wayback Machine ». Сети носимых и имплантируемых датчиков тела (BSN), 2014 11-я Международная конференция по . ИИЭР, 2014.
  176. ^ Сапсанис, Христос и др. « Улучшение классификации основных движений рук на основе ЭМГ с использованием ЭМД ». Общество инженерии в медицине и биологии (EMBC), 2013 г., 35-я ежегодная международная конференция IEEE . ИИЭР, 2013.
  177. ^ Перейти обратно: а б Андрианезис, Константинос; Цзес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем . 78 (2): 257–289. дои : 10.1007/s10846-014-0061-6 . S2CID   207174078 .
  178. ^ Банос, Орешти; и др. (2014). «Работа с эффектами смещения датчика при распознавании активности носимых устройств» . Датчики . 14 (6): 9995–10023. Бибкод : 2014Senso..14.9995B . дои : 10.3390/s140609995 . ПМЦ   4118358 . ПМИД   24915181 .
  179. ^ Стисен, Аллан и др. « Умные устройства разные: оценка и смягчение неоднородностей мобильных датчиков для распознавания активности ». Материалы 13-й конференции ACM по встраиваемым сетевым сенсорным системам . АКМ, 2015.
  180. ^ Бхаттачарья, Сурав и Николас Д. Лейн. « От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения ».
  181. ^ Баччу, Давиде; и др. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях для престарелых». Нейронные вычисления и их приложения . 24 (6): 1451–1464. дои : 10.1007/s00521-013-1364-4 . hdl : 11568/237959 . S2CID   14124013 .
  182. ^ Палумбо, Филиппо; Барсокки, Паоло; Галличкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Мультисенсорное объединение данных для распознавания активности на основе вычислений резервуара» . Оценка систем AAL посредством сравнительного анализа конкурентов . Коммуникации в компьютерной и информатике. Том. 386. стр. 24–35. дои : 10.1007/978-3-642-41043-7_3 . ISBN  978-3-642-41042-0 .
  183. ^ Рейсс, Аттила и Дидье Стрикер. « Представляем новый набор эталонных данных для мониторинга активности ». Носимые компьютеры (ISWC), 2012 г. 16-й международный симпозиум по . ИИЭР, 2012.
  184. ^ Рогген, Дэниел и др. « ВОЗМОЖНОСТИ: К оппортунистической деятельности и системам распознавания контекста ». Мир беспроводных, мобильных и мультимедийных сетей и семинаров, 2009. WoWMoM 2009. Международный симпозиум IEEE по . ИИЭР, 2009.
  185. ^ Курц, Марк и др. « Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах ». Конференция по автомобильным технологиям (весна VTC), 73-я конференция IEEE 2011 г. ИИЭР, 2011.
  186. ^ Штайлер, Тимо и Хайнер Штукеншмидт. « Локализация носимых устройств на теле: исследование распознавания активности с учетом положения ». Повсеместные вычисления и коммуникации (PerCom), Международная конференция IEEE 2016 г., посвященная . ИИЭР, 2016.
  187. ^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х.; Долатабади, Эльхам; Ван, Розали Х.; Таати, Бабак (2018). «Автоматическое обнаружение компенсации во время роботизированной реабилитационной терапии после инсульта» . Журнал IEEE трансляционной инженерии в здравоохранении и медицине . 6 : 2100107. doi : 10.1109/JTEHM.2017.2780836 . ISSN   2168-2372 . ПМК   5788403 . ПМИД   29404226 .
  188. ^ Долатабади, Эльхам; Чжи, Ин Сюань; Да, Бинг; Коаран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). «Набор данных позы реабилитации после инсульта в Торонто для выявления компенсации во время реабилитационной терапии после инсульта». Материалы 11-й Международной конференции EAI по всеобъемлющим вычислительным технологиям в здравоохранении . АКМ. стр. 375–381. дои : 10.1145/3154862.3154925 . ISBN  9781450363631 . S2CID   24581930 .
  189. ^ «Набор данных по позы реабилитации после инсульта в Торонто» .
  190. ^ Юнг, Мерел М.; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К.Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социальных прикосновений». Журнал о мультимодальных пользовательских интерфейсах . 11 (1): 81–96. дои : 10.1007/s12193-016-0232-9 . ISSN   1783-8738 . S2CID   1802116 .
  191. ^ Юнг, ММ (Мерель) (1 июня 2016 г.). «Корпус социальных контактов (CoST)» . Университет Твенте. doi : 10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  192. ^ Эберхард, С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в условиях большой размерности». Кафедра математики. Статистик, Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Реп 92-02 (1992).
  193. ^ Басу, Сугато. « Полуконтролируемая кластеризация с ограниченными базовыми знаниями ». АААИ . 2004.
  194. ^ Тюфекчи, Пинар (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла с базовой нагрузкой с использованием методов машинного обучения». Международный журнал электроэнергетики и энергетических систем . 60 : 126–140. Бибкод : 2014IJEPE..60..126T . дои : 10.1016/j.ijepes.2014.02.027 .
  195. ^ Кая, Хейсем, Пинар Тюфекчи и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной технике (ICETCEE'2012), Дубай . 2012.
  196. ^ Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Природные коммуникации . 5 : 2014. arXiv : 1402.4735 . Бибкод : 2014NatCo...5.4308B . дои : 10.1038/ncomms5308 . ПМИД   24986233 . S2CID   195953 .
  197. ^ Перейти обратно: а б Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2015). «Усовершенствованный поиск бозона Хиггса до τ+ τ− с помощью глубокого обучения». Письма о физических отзывах . 114 (11): 111801. arXiv : 1410.3469 . Бибкод : 2015PhRvL.114k1801B . дои : 10.1103/physrevlett.114.111801 . ПМИД   25839260 . S2CID   2339142 .
  198. ^ Перейти обратно: а б Адам-Бурдариос, К.; Коуэн, Г.; Жермен-Рено, К.; Гийон, И.; Кегль, Б.; Руссо, Д. (2015). «Задача машинного обучения Хиггса» . Физический журнал: серия конференций . 664 (7): 072015. Бибкод : 2015JPhCS.664g2015A . дои : 10.1088/1742-6596/664/7/072015 .
  199. ^ Бальди, Пьер; Кранмер, Кайл; Фосетт, Тейлор; Садовский, Питер; Уайтсон, Дэниел (2016). «Параметризованные нейронные сети для физики высоких энергий». Европейский физический журнал C . 76 (5): 235. arXiv : 1601.07913 . Бибкод : 2016EPJC...76..235B . doi : 10.1140/epjc/s10052-016-4099-4 . S2CID   254108545 .
  200. ^ Ортигоса, И.; Лопес, Р.; Гарсия, Дж. «Подход нейронных сетей к прогнозированию остаточного сопротивления парусных яхт». Материалы Международной конференции по морской технике MARINE . 2007 .
  201. ^ Герритсма, Дж., Р. Оннинк и А. Верслуис. Геометрия, устойчивость и устойчивость серии корпусов яхт Delft System . Делфтский технологический университет, 1981 г.
  202. ^ Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных . Springer Science & Business Media, 1998.
  203. ^ Райх, Йорам. Переход к знаниям идеального дизайна путем обучения . [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.
  204. ^ Тодоровский, Люпчо; Джероски, Сашо (1999). «Эксперименты по метауровенному обучению с помощью ILP» . Принципы интеллектуального анализа данных и обнаружения знаний . Конспекты лекций по информатике. Том. 1704. стр. 98–106. дои : 10.1007/978-3-540-48247-5_11 . ISBN  978-3-540-66490-1 . S2CID   39382993 .
  205. ^ Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности . Дисс. Университет Вайкато, 2000 г.
  206. ^ Киблер, Деннис; Ага, Дэвид В.; Альберт, Марк К. (1989). «Прогнозирование действительных атрибутов на основе экземпляров» . Вычислительный интеллект . 5 (2): 51–57. дои : 10.1111/j.1467-8640.1989.tb00315.x . S2CID   40800413 .
  207. ^ Палмер, Кристофер Р. и Христос Фалуцос. « Электричество основано на внешнем сходстве категориальных признаков ». Достижения в области обнаружения знаний и интеллектуального анализа данных . Springer Berlin Heidelberg, 2003. 486–500.
  208. ^ Цанас, Афанасий; Хифара, Анжелики (2012). «Точная количественная оценка энергоэффективности жилых зданий с использованием статистических инструментов машинного обучения». Энергия и здания . 49 : 560–567. Бибкод : 2012EneBu..49..560T . дои : 10.1016/j.enbuild.2012.03.003 .
  209. ^ Де Уайльд, Питер (2014). «Разрыв между прогнозируемыми и измеренными энергетическими характеристиками зданий: основа для исследования». Автоматизация в строительстве . 41 : 40–49. дои : 10.1016/j.autcon.2014.02.009 .
  210. ^ Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум профиля и прогнозирование . Том. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научной и технической информации, 1989.
  211. ^ Дрейпер, Дэвид. « Оценка и распространение неопределенности модели ». Журнал Королевского статистического общества, серия B (методологический) (1995): 45–97.
  212. ^ Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительных кольцах космического корабля». Журнал Американской статистической ассоциации . 86 (416): 919–921. дои : 10.1080/01621459.1991.10475132 .
  213. ^ Ван, Цзюнь, Бэй Ю и Лес Гассер. « Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства ». Data Mining, 2002. ICDM 2003. Труды. Международная конференция IEEE 2002 г. по . ИИЭР, 2002.
  214. ^ Петтенгилл, Гордон Х.; Форд, Питер Г.; Джонсон, Уильям Т.К.; Рэйни, Р. Кейт; Содерблом, Лоуренс А. (1991). «Магеллан: характеристики радаров и продукты для обработки данных» . Наука . 252 (5003): 260–265. Бибкод : 1991Sci...252..260P . дои : 10.1126/science.252.5003.260 . ПМИД   17769272 . S2CID   43398343 .
  215. ^ Перейти обратно: а б Агаронян Ф.; и др. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма о физических отзывах . 101 (26): 261104. arXiv : 0811.3894 . Бибкод : 2008PhRvL.101z1104A . doi : 10.1103/PhysRevLett.101.261104 . HDL : 2440/51450 . ПМИД   19437632 . S2CID   41850528 .
  216. ^ Бок, РК; и др. (2004). «Методы многомерной классификации событий: пример использования изображений черенковского гамма-телескопа». Ядерные приборы и методы в физических исследованиях. Раздел А: Ускорители, спектрометры, детекторы и сопутствующее оборудование . 516 (2): 511–528. Бибкод : 2004NIMPA.516..511B . дои : 10.1016/j.nima.2003.08.157 .
  217. ^ Ли, Цзинььян; и др. (2004). «Deeps: новая система ленивого обнаружения и классификации на основе экземпляров» . Машинное обучение . 54 (2): 99–124. doi : 10.1023/b:mach.0000011804.08528.7d .
  218. ^ Вильяэскуса-Наварро, Франциско; др. и др. (2022). «Многополевой набор данных CAMELS: изучение фундаментальных параметров Вселенной с помощью искусственного интеллекта» . Серия дополнений к астрофизическому журналу . 259 (2): 61. arXiv : 2109.10915 . Бибкод : 2022ApJS..259...61В . дои : 10.3847/1538-4365/ac5ab0 . S2CID   237604997 .
  219. ^ Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог голоценовых вулканов и их извержений». (2014).
  220. ^ Сикора, Марек; Врубель, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собираемых системами мониторинга сейсмической опасности на угольных шахтах» . Архив горных наук . 55 (1): 91–114.
  221. ^ Сикора, Марек и Беата Сикора. «Грубый мониторинг природных опасностей». Грубые наборы: избранные методы и приложения в менеджменте и технике . Springer London, 2012. 163–179.
  222. ^ Аддор, Нанс; Ньюман, Эндрю Дж.; Мизуками, Наоки; Кларк, Мартин П. (20 октября 2017 г.). «Набор данных CAMELS: характеристики водосбора и метеорология для исследований на больших выборках» . Гидрология и науки о системе Земли . 21 (10): 5293–5313. Бибкод : 2017HESS...21.5293A . doi : 10.5194/hess-21-5293-2017 . ISSN   1607-7938 .
  223. ^ Ньюман, Эй Джей; Кларк, член парламента; Сэмпсон, К.; Вуд, А.; Хэй, Ле; Бок, А.; Вигер, Р.Дж.; Блоджетт, Д.; Брекке, Л.; Арнольд-младший; Хопсон, Т. (14 января 2015 г.). «Разработка большого набора гидрометеорологических данных в масштабе водораздела для прилегающих территорий США: характеристики набора данных и оценка региональной изменчивости характеристик гидрологической модели» . Гидрология и науки о системе Земли . 19 (1): 209–223. Бибкод : 2015HESS...19..209N . дои : 10.5194/hess-19-209-2015 . ISSN   1607-7938 .
  224. ^ Альварес-Гарретон, Камила; Мендоса, Пол А.; Буазье, Джон Пол; Аддор, Нэнси; Гальегильос, Морис; Самбрано-Биджарини, Морис; Лара, Энтони; Пуэльма, Кристофер; Корты, Гонсало; Гарро, Рене; Макфи, Джеймс (13 ноября 2018 г.). «Набор данных CAMELS-CL: атрибуты водосбора и метеорология для крупных выборочных исследований – набор данных Чили» . Гидрология и науки о системе Земли . 22 (11): 5817–5846. Бибкод : 2018HESS...22.5817A . дои : 10.5194/hess-22-5817-2018 . ISSN   1607-7938 . S2CID   133955609 .
  225. ^ Чагас, Винисиус Б.П.; Чаффе, Педро Л.Б.; Аддор, Нанс; Фан, Фернандо М.; Флейшманн, Аян С.; Пайва, Родриго CD; Сикейра, Винисиус А. (8 сентября 2020 г.). «CAMELS-BR: гидрометеорологические временные ряды и атрибуты ландшафта для 897 водосборных бассейнов Бразилии» . Данные науки о системе Земли . 12 (3): 2075–2096. Бибкод : 2020ESSD...12.2075C . doi : 10.5194/essd-12-2075-2020 . ISSN   1866-3516 . S2CID   234737197 .
  226. ^ Коксон, Джемма; Аддор, Нанс; Блумфилд, Джон П.; Фрир, Джим; Фрай, Мэтт; Ханнафорд, Джейми; Хауден, Николас Дж. К.; Лейн, Розанна; Льюис, Мелинда; Робинсон, Эмма Л.; Вагенер, Торстен (12 октября 2020 г.). «CAMELS-GB: гидрометеорологические временные ряды и атрибуты ландшафта для 671 водосборного бассейна Великобритании» . Данные науки о системе Земли . 12 (4): 2459–2483. Бибкод : 2020ESSD...12.2459C . doi : 10.5194/essd-12-2459-2020 . ISSN   1866-3516 . S2CID   226192657 .
  227. ^ Фаулер, Кейрнан Дж.А.; Ачарья, Суваш Чандра; Аддор, Нанс; Чжоу, Чичжун; Пил, Мюррей К. (6 августа 2021 г.). «CAMELS-AUS: гидрометеорологические временные ряды и атрибуты ландшафта для 222 водосборных бассейнов Австралии» . Данные науки о системе Земли . 13 (8): 3847–3867. Бибкод : 2021ESSD...13.3847F . doi : 10.5194/essd-13-3847-2021 . ISSN   1866-3516 . S2CID   238796784 .
  228. ^ Клинглер, Кристоф; Шульц, Карстен; Хернеггер, Мэтью (16 сентября 2021 г.). «LamaH-CE: БОЛЬШАЯ ВЫБОРКА ДАННЫХ для гидрологии и наук об окружающей среде для Центральной Европы» . Данные науки о системе Земли . 13 (9): 4529–4565. Бибкод : 2021ESSD...13.4529K . дои : 10.5194/essd-13-4529-2021 . ISSN   1866-3516 . S2CID   240533508 .
  229. ^ Да, I – C (1998). «Моделирование прочности высокопроизводительного бетона с использованием искусственных нейронных сетей». Исследования цемента и бетона . 28 (12): 1797–1808. дои : 10.1016/s0008-8846(98)00165-3 .
  230. ^ Заранди, М. Х. Фазель; и др. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления . 8 (1): 488–498. Бибкод : 2008ApSoC...8...79S . дои : 10.1016/j.asoc.2007.02.010 .
  231. ^ Да, И. «Моделирование осадки бетона с помощью летучей золы и суперпластификатора». Компьютеры и бетон 5.6 (2008): 559–572.
  232. ^ Генсель, Осман; и др. (2011). «Сравнение искусственных нейронных сетей и общих подходов к линейной модели для анализа абразивного износа бетона». Строительство и строительные материалы . 25 (8): 3486–3494. дои : 10.1016/j.conbuildmat.2011.03.040 .
  233. ^ Дитерих, Томас Г. и др. « Сравнение динамического положения покоя и касательного расстояния для прогнозирования активности наркотиков. Архивировано 7 декабря 2019 года в Wayback Machine ». Достижения в области нейронных систем обработки информации (1994): 216–216.
  234. ^ Бушема, Массимо, Уильям Дж. Тастл и Стефано Терци. « Метасеть: новое семейство метаклассификаторов ». Приложения интеллектуального анализа данных с использованием искусственных адаптивных систем . Springer New York, 2013. 141–182.
  235. ^ Барнард, Аманда; Сунь, Байчуань; Мотевалли Сумехсараи, Бен; и Оплетал, Джордж (2019): Набор данных по наночастицам серебра. v3. ЦСИРО. Сбор данных. https://doi.org/10.25919/5d22d20bc543e
  236. ^ Барнард, Аманда; Сунь, Байчуань; и Оплетал, Джордж (2019): Набор данных по наночастицам платины. v2. ЦСИРО. Сбор данных. https://doi.org/10.25919/5d3958d9bf5f7
  237. ^ Барнард, Аманда; и Оплетал, Джордж (2019): Набор данных по наночастицам золота. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/5d395ef9a4291
  238. ^ Барнард, Аманда; и Оплетал, Джордж (2019): Набор данных о наночастицах рутения. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/5e30b8fa67484
  239. ^ Барнард, Аманда; и Оплетал, Джордж (2019): Набор данных о медных наночастицах. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/5e30ba386311f
  240. ^ Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах палладия. v2. ЦСИРО. Сбор данных. https://doi.org/10.25919/epxd-8p61
  241. ^ Тинг, Джонатан; Барнард, Аманда; Оплетал, Джордж (2023): Набор данных о наночастицах AuCo. v2. ЦСИРО. Сбор данных. https://doi.org/10.25919/7h3x-1343
  242. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах PtCo. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/jzh8-rd31
  243. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PtAu. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/tdnv-jp30
  244. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PdPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/qced-2e85
  245. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PdCo. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/az9t-vr97
  246. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах CoPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/0bs4-sn79
  247. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах CoPd. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/em3a-9a89
  248. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам CoAu. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/991j-hg07
  249. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам AuPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/7zh9-3f67
  250. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PtPd. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/9sz9-3a85
  251. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PdAu. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/6ajg-1275
  252. ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах AuPd. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/v0r5-sw08
  253. ^ Лу, Кайхан; Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах AuPdPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/psvw-am47
  254. ^ Аморанежад, Исса; Аморанежад, Рахимберди; и др. (2022). «Набор данных о возрасте: структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей» . Материалы семинара 16-й Международной конференции AAAI по Интернету и социальным сетям (ICWSM) . 3 . МКВСМ: 1–4. дои : 10.36190/2022.82 . S2CID   249668669 .
  255. ^ «Набор данных о возрасте» . Гитхаб . 7 июня 2022 г.
  256. ^ «Синтетический набор данных глазного дна» . Архивировано из оригинала 29 ноября 2021 года . Проверено 22 февраля 2023 г.
  257. ^ Ло Кастро, Дарио; и др. (2020). «Визуальная основа для создания фотореалистичных сосудов сетчатки для целей диагностики». Журнал биомедицинской информатики . 108 : 103490. дои : 10.1016/j.jbi.2020.103490 . ПМИД   32640292 . S2CID   220429697 .
  258. ^ Ингбер, Лестер (1997). «Статистическая механика неокортикальных взаимодействий: канонические показатели импульсов электроэнцефалографии». Физический обзор E . 55 (4): 4578–4593. arXiv : физика/0001052 . Бибкод : 1997PhRvE..55.4578I . дои : 10.1103/PhysRevE.55.4578 . S2CID   6390999 .
  259. ^ Хоффманн, Ульрих; Весен, Жан-Марк; Эбрахими, Турадж; Дисеренс, Карин (2008). «Эффективный интерфейс мозг-компьютер на базе P300 для людей с ограниченными возможностями». Журнал методов нейробиологии . 167 (1): 115–125. CiteSeerX   10.1.1.352.4630 . doi : 10.1016/j.jneumeth.2007.03.005 . ПМИД   17445904 . S2CID   9648828 .
  260. ^ Дончин, Эмануэль; Спенсер, Кевин М.; Виджесингхе, Ранджит (2000). «Ментальный протез: оценка скорости интерфейса мозг-компьютер на базе P300». Транзакции IEEE по реабилитационной технике . 8 (2): 174–179. дои : 10.1109/86.847808 . ПМИД   10896179 . S2CID   84043 .
  261. ^ Детрано, Роберт; и др. (1989). «Международное применение нового вероятностного алгоритма диагностики ишемической болезни сердца». Американский журнал кардиологии . 64 (5): 304–310. дои : 10.1016/0002-9149(89)90524-9 . ПМИД   2756873 .
  262. ^ Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» (PDF) . Распознавание образов . 30 (7): 1145–1159. Бибкод : 1997PatRe..30.1145B . дои : 10.1016/s0031-3203(96)00142-2 . S2CID   13806304 .
  263. ^ Улица, Западная Северная Каролина; Вольберг, Вашингтон; Мангасарян, OL (1993). «Извлечение ядерных признаков для диагностики опухолей молочной железы» . В Ачарье Радж С.; Гольдгоф, Дмитрий Б. (ред.). Биомедицинская обработка изображений и биомедицинская визуализация . Том. 1905. стр. 861–870. дои : 10.1117/12.148698 . S2CID   14922543 .
  264. ^ Демир, Чигдем и Бюлент Йенер. « Автоматическая диагностика рака на основе гистопатологических изображений: систематическое исследование ». Политехнический институт Ренсселера, техн. Реп (2005).
  265. ^ Злоупотребление, вещество. «Управление службами психического здоровья, результаты национального исследования по употреблению наркотиков и здоровью 2010 года: краткое изложение национальных результатов, серия NSDUH H-41, публикация HHS № (SMA) 11-4658». Роквилл, Мэриленд: Управление служб по борьбе со злоупотреблением психоактивными веществами и психическим здоровьем 201 (2011).
  266. ^ Хун, Цзы-Цюань; Ян, Цзин-Ю (1991). «Оптимальная дискриминантная плоскость для малого числа выборок и метод построения классификатора на плоскости». Распознавание образов . 24 (4): 317–324. Бибкод : 1991PatRe..24..317H . дои : 10.1016/0031-3203(91)90074-ф .
  267. ^ Перейти обратно: а б Ли, Джиньян и Лимсун Вонг. «Использование правил для анализа биомедицинских данных: сравнение C4.5 и PCL». Достижения в области управления информацией в эпоху Интернета . Springer Berlin Heidelberg, 2003. 254–265.
  268. ^ Гювенир, Х. Алтай и др. « Алгоритм контролируемого машинного обучения для анализа аритмии ». Компьютеры в кардиологии 1997 . ИИЭР, 1997.
  269. ^ Лагус, Криста и др. « Независимый групповой анализ переменных при изучении компактных представлений данных ». Труды Международной и междисциплинарной конференции по адаптивному представлению знаний и рассуждению (AKRR'05), Т. Хонкела, В. Конёнен, М. Пёлля и О. Симула, ред., Эспоо, Финляндия . 2005.
  270. ^ Страк, Беата и др. « Влияние измерения HbA1c на показатели повторной госпитализации: анализ 70 000 записей пациентов из клинической базы данных ». BioMed Research International 2014; 2014 год
  271. ^ Рубин, Дэниел Дж (2015). «Госпитальная повторная госпитализация больных сахарным диабетом». Текущие отчеты о диабете . 15 (4): 1–9. дои : 10.1007/s11892-015-0584-7 . ПМИД   25712258 . S2CID   3908599 .
  272. ^ Антал, Балинт; Хайду, Андраш (2014). «Ансамблевая система автоматического скрининга диабетической ретинопатии». Системы, основанные на знаниях . 60 (2014): 20–27. arXiv : 1410.8576 . Бибкод : 2014arXiv1410.8576A . дои : 10.1016/j.knosys.2013.12.023 . S2CID   13984326 .
  273. ^ Халой, Мринал (2015). «Улучшенное обнаружение микроаневризмы с использованием глубоких нейронных сетей». arXiv : 1505.04424 [ cs.CV ].
  274. ^ ЭЛИ, Гийом ПАТРИ, Жерве ГОТЬЕ, Бруно ЛЭЙ, Жюльен РОЖЕР, Дэмьен. «Загрузка ADCIS третьей стороны: база данных Messidor» . adcis.net . Проверено 25 февраля 2018 г. . {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  275. ^ Десенсьер, Этьен; Чжан, Сивэй; Казугель, Гай; Лэй, Бруно; Коченер, Беатрис; Трон, Кэролайн; Гейн, Филипп; Ордонес, Ричард; Массин, Паскаль (26 августа 2014 г.). «Отзывы об общедоступной базе данных изображений: база данных Мессидор» . Анализ изображений и стереология . 33 (3): 231–234. дои : 10.5566/ias.1155 . ISSN   1854-5165 .
  276. ^ Багиров А.М.; и др. (2003). «Неконтролируемая и контролируемая классификация данных посредством негладкой и глобальной оптимизации». Вершина . 11 (1): 1–75. CiteSeerX   10.1.1.1.6429 . дои : 10.1007/bf02578945 . S2CID   14165678 .
  277. ^ Фунг, Гленн и др. « Быстрый итерационный алгоритм для дискриминанта Фишера с использованием гетерогенных ядер ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
  278. ^ Куинлан, Джон Росс и др. «Индуктивное приобретение знаний: практический пример». Материалы Второй австралийской конференции по применению экспертных систем . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк., 1987.
  279. ^ Перейти обратно: а б Чжоу, Чжи-Хуа; Цзян, Юань (2004). «NeC4.5: нейронный ансамбль на основе C4.5». Транзакции IEEE по знаниям и инженерии данных . 16 (6): 770–773. CiteSeerX   10.1.1.1.8430 . дои : 10.1109/tkde.2004.11 . S2CID   1024861 .
  280. ^ Э-э, Орхан; и др. (2012). «Подход, основанный на вероятностной нейронной сети, для диагностики заболевания мезотелиомой». Компьютеры и электротехника . 38 (1): 75–81. дои : 10.1016/j.compeleceng.2011.09.001 .
  281. ^ Эр, Орхан, А. Четин Танрикулу и Абдуррахман Абакай. « Использование методов искусственного интеллекта для диагностики злокачественной мезотелиомы плевры ». Диджле Тип Дергиси 42.1 (2015).
  282. ^ Ли, Майкл Х.; Местре, Тьяго А.; Фокс, Сьюзен Х.; Таати, Бабак (25 июля 2017 г.). «Оценка паркинсонизма и дискинезии, вызванной леводопой, на основе зрения с оценкой позы глубокого обучения» . Журнал нейроинженерии и реабилитации . 15 (1): 97. arXiv : 1707.09416 . Бибкод : 2017arXiv170709416L . дои : 10.1186/s12984-018-0446-z . ПМК   6219082 . ПМИД   30400914 .
  283. ^ Ли, Майкл Х.; Местре, Тьяго А.; Фокс, Сьюзен Х.; Таати, Бабак (май 2018 г.). «Автоматическая оценка дискинезии, вызванной леводопой: оценка реакции видеофункций». Паркинсонизм и связанные с ним расстройства . 53 : 42–45. дои : 10.1016/j.parkreldis.2018.04.036 . ISSN   1353-8020 . ПМИД   29748112 . S2CID   13666294 .
  284. ^ «Набор данных для оценки позы Паркинсона на основе зрения | Kaggle» . kaggle.com . Проверено 22 августа 2018 г.
  285. ^ Шеннон, Пол; и др. (2003). «Cytoscape: программная среда для интегрированных моделей сетей биомолекулярного взаимодействия» . Геномные исследования . 13 (11): 2498–2504. дои : 10.1101/гр.1239303 . ПМК   403769 . ПМИД   14597658 .
  286. ^ Джавади, Соруш; Миррошандель, Сейед Аболгасем (2019). «Новый метод глубокого обучения для автоматической оценки изображений спермы человека». Компьютеры в биологии и медицине . 109 : 182–194. doi : 10.1016/j.compbiomed.2019.04.030 . ISSN   0010-4825 . ПМИД   31059902 . S2CID   146809768 .
  287. ^ «soroushj/mhsma-dataset: MHSMA: модифицированный набор данных анализа морфологии спермы человека» . github.com . Проверено 3 мая 2019 г.
  288. ^ Кларк, Дэвид, Золтан Шретер и Энтони Адамс. «Количественное сравнение дистального и обратного распространения ошибки». Материалы австралийской конференции по нейронным сетям 1996 года . 1996.
  289. ^ Цзян, Юань и Чжи-Хуа Чжоу. « Редактирование обучающих данных для классификаторов kNN с ансамблем нейронных сетей ». Достижения в области нейронных сетей – ISNN 2004 . Springer Berlin Heidelberg, 2004. 356–361.
  290. ^ Онтаньон, Сантьяго и Энрик Плаза. «О мерах подобия на основе уточняющей решетки». Исследования и разработки рассуждений на основе прецедентов . Springer Berlin Heidelberg, 2009. 240–255.
  291. ^ «Инвентаризация данных PLF» . Гитхаб . 5 ноября 2021 г.
  292. ^ Игера, Клара; Гардинер, Кэтлин Дж.; Чиос, Кшиштоф Дж. (2015). «Самоорганизующиеся карты признаков идентифицируют белки, имеющие решающее значение для обучения в модели синдрома Дауна на мышах» . ПЛОС ОДИН . 10 (6): e0129126. Бибкод : 2015PLoSO..1029126H . дои : 10.1371/journal.pone.0129126 . ПМК   4482027 . ПМИД   26111164 .
  293. ^ Ахмед, доктор Махиуддин; и др. (2015). «Динамика белка, связанная с неудачным и спасенным обучением в мышиной модели синдрома Дауна Ts65Dn» . ПЛОС ОДИН . 10 (3): e0119491. Бибкод : 2015PLoSO..1019491A . дои : 10.1371/journal.pone.0119491 . ПМЦ   4368539 . ПМИД   25793384 .
  294. ^ Лэнгли, ПАТ (2014). «Обмен простотой и охватом при поэтапном концептуальном обучении» (PDF) . Труды по машинному обучению . 1988 : 73. Архивировано из оригинала (PDF) 6 августа 2019 года . Проверено 6 августа 2019 г.
  295. ^ «Набор данных о грибах 2020» . гриб.mathematik.uni -marburg.de . Проверено 6 апреля 2021 г.
  296. ^ Вагнер, Деннис; Хайдер, Доминик; Хаттаб, Жорж (14 апреля 2021 г.). «Создание, обработка и моделирование грибных данных для поддержки задач классификации» . Научные отчеты . 11 (1): 8134. Бибкод : 2021NatSR..11.8134W . дои : 10.1038/s41598-021-87602-3 . ISSN   2045-2322 . ПМК   8046754 . ПМИД   33854157 .
  297. ^ Кортес, Пауло и Анибал де Хесус Раймундо Мораис. «Подход к интеллектуальному анализу данных для прогнозирования лесных пожаров с использованием метеорологических данных». (2007).
  298. ^ Фаркуад, Массачусетс; Рави, В.; Раджу, С. Бапи (2010). «Поддержка методов извлечения гибридных правил на основе векторной регрессии для прогнозирования». Экспертные системы с приложениями . 37 (8): 5577–5589. дои : 10.1016/j.eswa.2010.02.055 .
  299. ^ Фишер, Рональд А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
  300. ^ Гахрамани, Зубин и Майкл И. Джордан. « Обучение под контролем на основе неполных данных с помощью ЭМ-подхода. Архивировано 22 апреля 2017 г. в Wayback Machine ». Достижения в области нейронных систем обработки информации 6 . 1994.
  301. ^ Маллах, Чарльз; Коуп, Джеймс; Оруэлл, Джеймс (2013). «Классификация листьев растений с использованием вероятностной интеграции формы, текстуры и особенностей краев» . Обработка сигналов, распознавание образов и приложения . 5 : 1.
  302. ^ Яхиауи, Итери, Ольфа Мзуги и Ножа Буджемаа. « Дескриптор формы листа для идентификации видов деревьев. Архивировано 6 августа 2019 года в Wayback Machine ». Мультимедиа и выставка (ICME), Международная конференция IEEE 2012 г., посвященная . ИИЭР, 2012.
  303. ^ Тан, Минг и Ларри Эшельман. « Использование взвешенных сетей для представления классификационных знаний в зашумленных областях ». Материалы Пятой Международной конференции по машинному обучению . 2014.
  304. ^ Чаританович, Малгожата и др. « Полный алгоритм кластеризации градиентов для анализа особенностей рентгеновских изображений ». Информационные технологии в биомедицине . Springer Berlin Heidelberg, 2010. 15–24.
  305. ^ Санчес, Маурисио А.; и др. (2014). «Алгоритм нечеткой гранулярной гравитационной кластеризации для многомерных данных». Информационные науки . 279 : 498–511. дои : 10.1016/j.ins.2014.04.005 .
  306. ^ Блэкард, Джок А.; Дин, Денис Дж. (1999). «Сравнительная точность искусственных нейронных сетей и дискриминантного анализа при прогнозировании типов лесного покрова на основе картографических переменных». Компьютеры и электроника в сельском хозяйстве . 24 (3): 131–151. Бибкод : 1999CEAgr..24..131B . CiteSeerX   10.1.1.128.2475 . дои : 10.1016/s0168-1699(99)00046-0 . S2CID   13985407 .
  307. ^ Фюрнкранц, Йоханнес. « Изучение правил кругового турнира ». Материалы 18-й Международной конференции по машинному обучению (ICML-01): 146–153 . 2001.
  308. ^ Ли, Сун; Ассманн, Сара М.; Альберт, Река (2006). «Прогнозирование основных компонентов сетей передачи сигналов: динамическая модель передачи сигналов абсцизовой кислоты замыкающих клеток» . ПЛОС Биол . 4 (10): е312. arXiv : q-bio/0610012 . Бибкод : 2006q.bio....10012L . doi : 10.1371/journal.pbio.0040312 . ПМК   1564158 . ПМИД   16968132 .
  309. ^ Мунисами, Тришен; и др. (2015). «Распознавание листьев растений с использованием особенностей формы и цветовой гистограммы с помощью классификаторов K-ближайших соседей» . Procedia Информатика . 58 : 740–747. дои : 10.1016/j.procs.2015.08.095 .
  310. ^ Ли, Бай (2016). «Сопоставление атомных потенциалов: эволюционный подход к распознаванию целей, основанный на краевых характеристиках». Оптик . 127 (5): 3162–3168. Бибкод : 2016Оптик.127.3162Л . дои : 10.1016/j.ijleo.2015.11.186 .
  311. ^ Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.
  312. ^ Нильсбак, Мария-Елена и Эндрю Зиссерман. « Визуальный словарь классификации цветов ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.
  313. ^ Гизельссон, Томас М.; и др. (2017). «Общедоступная база данных изображений для эталонных алгоритмов классификации саженцев растений». arXiv : 1711.05458 [ cs.CV ].
  314. ^ Олтян, Михай (2017). «Набор данных Fruits-360» . Гитхаб .
  315. ^ Накаи, Кента; Канехиса, Минору (1991). «Экспертная система прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика . 11 (2): 95–110. дои : 10.1002/прот.340110203 . ПМИД   1946347 . S2CID   27606447 .
  316. ^ Линг, Чарльз X. и др. « Деревья решений с минимальными затратами ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
  317. ^ Маэ, Пьер и др. « Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF ». Биоинформатика (2014): btu022.
  318. ^ Барбано, Дуэйн; и др. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием времяпролетной масс-спектрометрии с матричной лазерной десорбцией и ионизацией (MALDI-TOF MS)» . ПЛОС ОДИН . 10 (8): e0135337. Бибкод : 2015PLoSO..1035337B . дои : 10.1371/journal.pone.0135337 . ПМЦ   4536233 . ПМИД   26271045 .
  319. ^ Хортон, Пол; Накаи, Кента (1996). «Вероятностная система классификации для прогнозирования мест клеточной локализации белков» (PDF) . Протокол ISMB-96 . 4 : 109–15. ПМИД   8877510 . Архивировано из оригинала (PDF) 4 ноября 2021 года . Проверено 6 августа 2019 г.
  320. ^ Оллвейн, Эрин Л.; Шапире, Роберт Э.; Певец Йорам (2001). «Превращение мультикласса в двоичный: объединяющий подход для классификаторов полей» (PDF) . Журнал исследований машинного обучения . 1 : 113–141.
  321. ^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: прогнозирование токсичности с помощью глубокого обучения» . Границы в науке об окружающей среде . 3 : 80. дои : 10.3389/fenvs.2015.00080 .
  322. ^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). «Оценка алгоритмов обнаружения аномалий в реальном времени — эталонный тест Numenta Anomaly». 2015 г., 14-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA) . стр. 38–44. arXiv : 1510.03336 . дои : 10.1109/ICMLA.2015.141 . ISBN  978-1-5090-0287-0 . S2CID   6842305 .
  323. ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович. «Репозиторий SKAB GitHub» . Гитхаб . Проверено 12 января 2021 г.
  324. ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович (2020). «Бенчмарк аномалий Сколтеха (СКАБ)» . Кэггл. doi : 10.34740/KAGGLE/DSV/1693952 (неактивен 17 марта 2024 г.) . Проверено 12 января 2021 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь ) CS1 maint: DOI неактивен с марта 2024 г. ( ссылка )
  325. ^ Кампос, Гильерме О.; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Г.Б.; Миценкова, Барбора; Шуберт, Эрих; Согласен, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. doi : 10.1007/s10618-015-0444-8 . ISSN   1384-5810 . S2CID   1952214 .
  326. ^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для нейронных ответов на вопросы в базе знаний DBpedia . 2018.
  327. ^ Томмазо Сору, Эдгард Маркс. Диего Мусаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык . 2018.
  328. ^ Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения . КОЛИНГ 2020.
  329. ^ Киет Ван Нгуен, Кхием Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туй Нгуен. Расширение лексического подхода с помощью внешних знаний для понимания машинного чтения на вьетнамском языке с множественным выбором . Доступ IEEE. 2020.
  330. ^ Ананта, Равитея; Вакуленко Светлана; Ту, Чжучэн; Лонгпре, Шейн; Пулман, Стивен; Чаппиди, Шринивас (2020). «Ответы на вопросы в открытой области становятся диалоговыми благодаря переписыванию вопросов». arXiv : 2010.04898 [ cs.IR ].
  331. ^ Хашаби, Дэниел; Мин, Севон; Хот, Тушар; Сабхарвал, Ашиш; Тафьорд, Ойвинд; Кларк, Питер; Хаджиширзи, Ханнане (ноябрь 2020 г.). «UNIFIEDQA: пересекая границы форматов с помощью единой системы контроля качества» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2020 . Онлайн: Ассоциация компьютерной лингвистики: 1896–1907. arXiv : 2005.00700 . doi : 10.18653/v1/2020.findings-emnlp.171 . S2CID   218487109 .
  332. ^ Taskmaster , Наборы данных исследований Google, 17 декабря 2022 г. , получено 7 января 2023 г.
  333. ^ Бирн, Билл; Кришнамурти, Картик; Санкар, Чиннадхурай; Нилакантан, Арвинд; Дакворт, Дэниел; Явуз, Семих; Гудрич, Бен; Дубей, Амит; Цедильник, Энди; Ким, Кю Ён (1 сентября 2019 г.). «Наставник задач-1: к реалистичному и разнообразному набору данных диалога». arXiv : 1909.05358 [ cs.CL ].
  334. ^ Ясунага, Мичихиро; Лян, Перси (21 ноября 2020 г.). «Восстановление программ с самоконтролем на основе графиков на основе диагностической обратной связи» . Международная конференция по машинному обучению . ПМЛР: 10799–10808. arXiv : 2005.10636 .
  335. ^ Ван, Ичжун; Мишра, Сваруп; Алипурмолабаши, Пега; Корди, Йегане; Мирзаи, Амирреза; Арункумар, Анджана; Ашок, Арджун; Дханасекаран, Арут Сельван; Наик, Атхарва; Стапп, Дэвид; Патхак, Эшаан; Караманолакис, Яннис; Лай, Хайжи Гэри; Пурохит, Ишан; Мондал, Ишани (24 октября 2022 г.). «Сверхестественные инструкции: обобщение с помощью декларативных инструкций для более чем 1600 задач НЛП». arXiv : 2204.07705 [ cs.CL ].
  336. ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Куан Нгок; Бернарди, Рафаэлла; Пеццелле, Сандро Барони, Марко; Боледа, Джемма; Фернандес, Ракель (7 августа 2016 г.), Набор данных LAMBADA , номер doi : 10.5281/zenodo.2630551 , получено 7 января 2023 г.
  337. ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Нгок Куан; Бернарди, Рафаэлла; Пеццелле, Сандро; Барони, Марко; Боледа, Джемма; Фернандес, Ракель (август 2016 г.). «Набор данных LAMBADA: предсказание слов, требующее широкого контекста дискурса» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 1525–1534 гг. дои : 10.18653/v1/P16-1144 . hdl : 10230/32702 . S2CID   2381275 .
  338. ^ Вэй, Джейсон; Босма, Мартен; Чжао, Винсент; Гуу, Кельвин; Ю, Адамс Вэй; Лестер, Брайан; Ду, Нэн; Дай, Эндрю М.; Ле, Куок В. (10 февраля 2022 г.). «Точно настроенные языковые модели — это ученики с нулевым шансом» . arXiv : 2109.01652 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  339. ^ «Работа с ATT&CK | MITRE ATT&CK®» . Attack.mitre.org . Проверено 14 января 2023 г.
  340. ^ «CAPEC — Перечисление и классификация общих шаблонов атак (CAPEC™)» . capec.mitre.org . Проверено 14 января 2023 г.
  341. ^ «CVE — Главная» . cve.mitre.org . Проверено 14 января 2023 г.
  342. ^ «CWE — Перечень общих слабостей» . cwe.mitre.org . Проверено 14 января 2023 г.
  343. ^ Лим, Суи Киат; Муис, Алдриан Обаха; Лу, Вэй; Онг, Чэнь Хуэй (июль 2017 г.). «MalwareTextDB: база данных для аннотированных статей о вредоносном ПО» . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Ванкувер, Канада: Ассоциация компьютерной лингвистики: 1557–1567. дои : 10.18653/v1/P17-1143 . S2CID   7816596 .
  344. ^ «ЮСЕНИКС» . УСЕНИКС . Проверено 19 января 2023 г.
  345. ^ «APTnotes | Прочтите документацию» . readthedocs.org . Проверено 19 января 2023 г.
  346. ^ «Недавние публикации авторов/названий в области криптографии и безопасности» . arxiv.org . Проверено 19 января 2023 г.
  347. ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 0» . f0.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
  348. ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 1» . f1.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
  349. ^ Винсент, Адам. «Взлом и усиление защиты веб-сервисов» (PDF) . owasp.org .
  350. ^ МакКрей, Джо. «Расширенное внедрение SQL» (PDF) . defcon.org .
  351. ^ Шах, Шрирадж. «Техника обнаружения и использования слепых SQL-инъекций» (PDF) . blueinfy.com .
  352. ^ Палцер, КЦ «Этический хакерство» (PDF) . текстовые файлы .
  353. ^ «Раскрытые секреты взлома — информационно-методическое руководство» (PDF) .
  354. ^ Парк, Алексис. «Взломать любой сайт» (PDF) .
  355. ^ Серрудо, Сезар; Мартинес Файо, Эстебан. «Взлом баз данных для владения вашими данными» (PDF) . черная шляпа .
  356. ^ О'Коннор, Тиджей. «Violent Python — кулинарная книга для хакеров, судебных аналитиков, тестеров на проникновение и инженеров по безопасности» (PDF) . Гитхаб .
  357. ^ Гранд, Джо. «Реверс-инжиниринг оборудования: доступ, анализ и поражение» (PDF) . черная шляпа .
  358. ^ Чанг, Джейсон В. «Компьютерный взлом: обоснование требований к национальной отчетности» (PDF) . cyber.harvard.edu .
  359. ^ «Репозиторий национальных стратегий кибербезопасности» . МСЭ . Проверено 20 января 2023 г.
  360. ^ Чен, Яньлинь (31 августа 2022 г.), Cyber ​​Security Natural Language Processing , получено 20 января 2023 г.
  361. ^ Зампиери, Маркос; Мальмаси, Шервин; Наков, Преслав; Розенталь, Сара; Фарра, Нура; Кумар, Ритеш (16 апреля 2019 г.). «Прогнозирование типа и цели оскорбительных публикаций в социальных сетях». arXiv : 1902.09666 [ cs.CL ].
  362. ^ «Сообщения об угрозах» . www.ncsc.gov.uk. ​Проверено 20 января 2023 г.
  363. ^ «Категория: Отчеты APT | Securelist» . Securelist.com . Проверено 23 января 2023 г.
  364. ^ «Ваша связь с новостями о кибербезопасности - Киберновости | CyberWire» . КиберВайр . Проверено 23 января 2023 г.
  365. ^ «Новости» . 21 августа 2016 года . Проверено 23 января 2023 г.
  366. ^ «Киберньюс» . Киберньюс .
  367. ^ «Блипингкомпьютер» . Мигающий компьютер . Проверено 23 января 2023 г.
  368. ^ «Домашняя страница» . Запись из Recorded Future News . Проверено 23 января 2023 г.
  369. ^ «HackRead | Последние киберпреступления — InfoSec-Tech — Новости хакерства» . 8 января 2022 г. Проверено 23 января 2023 г.
  370. ^ «Securelist | Исследования и отчеты Касперского об угрозах» . Securelist.com . Проверено 31 января 2023 г.
  371. ^ Харшоу, Кристофер Р.; Бриджес, Роберт А.; Яннаконе, Майкл Д.; Рид, Джоэл В.; Гудолл, Джон Р. (5 апреля 2016 г.). «Графпринтс» . Материалы 11-й ежегодной конференции по исследованию кибербезопасности и информационной безопасности . ЦИРЦ '16. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–4. дои : 10.1145/2897795.2897806 . ISBN  978-1-4503-3752-6 .
  372. ^ «Farsight Security, решения для кибербезопасности» . Безопасность Фарсайта . Проверено 13 февраля 2023 г.
  373. ^ «Шнайер о безопасности» . www.schneier.com . Проверено 13 февраля 2023 г.
  374. ^ «№1 в области облачной безопасности и кибербезопасности конечных точек» . Тренд Микро . Проверено 13 февраля 2023 г.
  375. ^ «Новости хакеров | Надежный сайт новостей кибербезопасности №1» . Хакерские новости . Проверено 13 февраля 2023 г.
  376. ^ «Кребс о безопасности – подробные новости и расследования в области безопасности» . Проверено 25 февраля 2023 г.
  377. ^ «График знаний MITRE D3FEND» . d3fend.mitre.org . Проверено 31 марта 2023 г.
  378. ^ «МИТР | АТЛАС™» . atlas.mitre.org . Проверено 31 марта 2023 г.
  379. ^ «MITRE Engage™ | Система взаимодействия с противниками от MITRE» . Проверено 1 апреля 2023 г.
  380. ^ «Уроки взлома — лучшие пошаговые руководства по хакерству» . Учебники по взлому . Проверено 1 апреля 2023 г.
  381. ^ «Центр знаний TCFD» . Центр знаний TCFD . Проверено 3 февраля 2023 г.
  382. ^ «ResponsibilityReports.com» . www.responsibilityreports.com . Проверено 3 февраля 2023 г.
  383. ^ «О — МГЭИК» . Проверено 20 февраля 2023 г.
  384. ^ «Альянс исследований корпоративной устойчивости | ARCS служит средством продвижения тщательных академических исследований по вопросам корпоративной устойчивости» . Corporate-sustainability.org . Проверено 2 марта 2023 г.
  385. ^ Мехра, Шришти; Лука, Роберт; Чжан, Исюнь (26 марта 2022 г.). «ESGBERT: языковая модель для помощи в задачах классификации, связанных с экологической, социальной и управленческой практикой компаний». Встроенные системы и приложения : 183–190. arXiv : 2203.16788 . дои : 10.5121/csit.2022.120616 . ISBN  9781925953657 . S2CID   247825524 .
  386. ^ В эту статью включен текст , доступный по лицензии CC BY 4.0 .
  387. ^ Диггельманн, Томас; Бойд-Грабер, Иордания; Булиан, Яннис; Чиарамита, Массимилиано; Лейппольд, Маркус (2 января 2021 г.). «КЛИМАТ-ЛИХОРАДКА: Набор данных для проверки реальных климатических заявлений». arXiv : 2012.00614 [ cs.CL ].
  388. ^ "климат-новости-дб" . www.climate-news-db.com . Проверено 3 февраля 2023 г.
  389. ^ «Климатекст» . www.sustainablefinance.uzh.ch . Проверено 19 февраля 2023 г.
  390. ^ «Гринбиз» . www.greenbiz.com . Проверено 2 марта 2023 г.
  391. ^ «Изучите горячий список @Reuters из 1000 ведущих ученых-климатологов» . Рейтер . Проверено 22 марта 2023 г.
  392. ^ «Блоги | Альянс исследований корпоративной устойчивости» . Corporate-sustainability.org . Проверено 27 марта 2023 г.
  393. ^ «Гринбиз» . www.greenbiz.com . Проверено 29 марта 2023 г.
  394. ^ «Новости КСО» . www.csrwire.com . Проверено 29 марта 2023 г.
  395. ^ «Домашняя страница CDP» . www.cdp.net . Проверено 29 марта 2023 г.
  396. ^ де Врис, Вред (2022). «Стек: 3 ТБ исходного кода с разрешительной лицензией». arXiv : 2211.15533 [ cs.CL ].
  397. ^ «Дедуляция стека» . Обнимающее лицо . Проверено 29 августа 2023 г.
  398. ^ «Блог о гибридном облаке» . content.cloud.redhat.com . Проверено 9 апреля 2023 г.
  399. ^ «Оркестровка контейнеров производственного уровня» . Кубернетес . Проверено 9 апреля 2023 г.
  400. ^ «Главная страница | Официальная документация Red Hat OpenShift» . docs.openshift.com . Проверено 9 апреля 2023 г.
  401. ^ «Фонд облачных вычислений» . Фонд облачных вычислений . Проверено 9 апреля 2023 г.
  402. ^ Презентации сообщества CNCF , Cloud Native Computing Foundation (CNCF), 11 апреля 2023 г. , получено 11 апреля 2023 г.
  403. ^ «Red Hat – Мы создаем технологии с открытым исходным кодом для предприятий» . www.redhat.com . Проверено 1 мая 2023 г.
  404. ^ Браун, Майкл Скотт, Майкл Дж. Пелоси и Генри Дирска. Генетический алгоритм с динамическим радиусом, сохраняющий виды, для финансового прогнозирования акций индекса Доу-Джонса. [ мертвая ссылка ] .. Машинное обучение и интеллектуальный анализ данных в распознавании образов . Springer Berlin Heidelberg, 2013. 27–41.
  405. ^ Шен, Као-И; Цзенг, Гво-Сюн (2015). «Модель VC-DRSA с нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем . 17 (3): 375–389. дои : 10.1007/s40815-015-0058-8 . S2CID   68241024 .
  406. ^ Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований . 27 (3): 221–234. CiteSeerX   10.1.1.18.4267 . дои : 10.1016/s0020-7373(87)80053-6 .
  407. ^ Хамерс, Барт; Суйкенс, Йохан АК; Де Мур, Барт (2003). «Связанное трансдуктивное ансамблевое обучение моделей ядра» (PDF) . Журнал исследований машинного обучения . 1 :1–48.
  408. ^ Шмуэли, Галит , Ральф П. Руссо и Вольфганг Янк. « БАРИСТА: модель поступления ставок на интернет-аукционах ». Анналы прикладной статистики (2007): 412–441.
  409. ^ Пэн, Цзе и Ханс-Георг Мюллер. « Дистанционная кластеризация редко наблюдаемых случайных процессов с применением к онлайн-аукционам ». Анналы прикладной статистики (2008): 1056–1077.
  410. ^ Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. « Генетическое программирование для классификации данных: разделение пространства поиска ». Материалы симпозиума ACM 2004 года по прикладным вычислениям . АКМ, 2004.
  411. ^ Моро, Сержио; Кортес, Пауло; Рита, Пауло (2014). «Подход, основанный на данных, для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений . 62 : 22–31. дои : 10.1016/j.dss.2014.03.001 . hdl : 10071/9499 . S2CID   14181100 .
  412. ^ Пейн, Ричард Д.; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv : 1411.5653 [ stat.ME ].
  413. ^ Акбилгыч, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель гибридных нейронных сетей RBF в качестве прогнозиста». Статистика и вычисления . 24 (3): 365–375. дои : 10.1007/s11222-013-9375-7 . S2CID   17764829 .
  414. ^ Джабин, Сурайя. « Прогнозирование фондового рынка с использованием искусственной нейронной сети прямого распространения ». Межд. Дж. Компьютер. Прил. (IJCA) 99,9 (2014 г.).
  415. ^ Да, И-Чэн; Че-хуэй, Лянь (2009). «Сравнение методов интеллектуального анализа данных для точности прогнозирования вероятности дефолта клиентов по кредитным картам». Экспертные системы с приложениями . 36 (2): 2473–2480. дои : 10.1016/j.eswa.2007.12.020 . S2CID   15696161 .
  416. ^ Линь, Шу Лин (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями . 36 (4): 8333–8341. дои : 10.1016/j.eswa.2008.10.015 .
  417. ^ Юмо Сюй и Шей Б. Коэн. 2018. Прогноз движения акций на основе твитов и исторических цен. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) , страницы 1970–1979, Мельбурн, Австралия. Ассоциация компьютерной лингвистики.
  418. ^ Пелкманс, Кристиан; и др. (2005). «Дифференциограмма: непараметрическая оценка дисперсии шума и ее использование для выбора модели». Нейрокомпьютинг . 69 (1): 100–122. doi : 10.1016/j.neucom.2005.02.015 .
  419. ^ Бэй, Стивен Д.; и др. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень об исследованиях ACM SIGKDD . 2 (2): 81–85. CiteSeerX   10.1.1.15.9776 . дои : 10.1145/380995.381030 . S2CID   534881 .
  420. ^ Лукас, Д.Д.; и др. (2015). «Разработка оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости» . Геонаучные приборы, методы и системы данных . 4 (1): 121. Бибкод : 2015GI......4..121L . дои : 10.5194/gi-4-121-2015 .
  421. ^ Пэйлс, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований . 70 (24): 6053–6076. Бибкод : 1965JGR....70.6053P . дои : 10.1029/jz070i024p06053 .
  422. ^ Сиджиллито, Винсент Г. и др. «Классификация радиолокационных сигналов из ионосферы с использованием нейронных сетей». Технический дайджест Johns Hopkins APL 10.3 (1989): 262–266.
  423. ^ Чжан, Кун и Вэй Фань. « Прогнозирование искаженных стохастических озоновых дней: анализ, решения и не только ». Знания и информационные системы 14.3 (2008): 299–326.
  424. ^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. « Байесовская пространственная квантильная регрессия ». Журнал Американской статистической ассоциации (2012).
  425. ^ Кохави, Рон (1996). «Повышение точности классификаторов Найва-Байеса: гибрид дерева решений». КДД . 96 .
  426. ^ Оза, Никундж К. и Стюарт Рассел. «Экспериментальное сравнение онлайн- и пакетной версий упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2001.
  427. ^ Бэй, Стивен Д. (2001). «Многомерная дискретизация для интеллектуального анализа множеств». Знания и информационные системы . 3 (4): 491–512. CiteSeerX   10.1.1.217.921 . дои : 10.1007/pl00011680 . S2CID   10945544 .
  428. ^ Рагглс, Стивен (1995). «Схемы выборки и ошибки выборки». Исторические методы . 28 (1): 40–46. дои : 10.1080/01615440.1995.9955312 .
  429. ^ Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. « Метод кривой обучения применительно к кластеризации ». АЙСТАТС . 2001.
  430. ^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая ансамблевые детекторы и базовые знания» . Прогресс в области искусственного интеллекта . 2 (2–3): 113–127. дои : 10.1007/s13748-013-0040-3 . S2CID   3345087 .
  431. ^ Жио, Ромен и Рафаэль Шерье. « Прогнозирование использования системы велопроката на день вперед ». Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г., Россия . ИИЭР, 2014.
  432. ^ Чжан, Сяньюань; и др. (2013). «Оценка времени в пути по городскому маршруту с использованием крупномасштабных данных такси с частичной информацией». Транспортные исследования, часть C: Новые технологии . 33 : 37–49. Бибкод : 2013TRPC...33...37Z . дои : 10.1016/j.trc.2013.04.001 .
  433. ^ Морейра-Матиас, Луис; и др. (2013). «Прогнозирование спроса пассажиров на такси с использованием потоковых данных» . Транзакции IEEE в интеллектуальных транспортных системах . 14 (3): 1393–1402. дои : 10.1109/tits.2013.2262376 . S2CID   14764358 .
  434. ^ Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки . 314 : 28–40. дои : 10.1016/j.ins.2015.03.068 .
  435. ^ Х.В. Джагадиш, Йоханнес Герке, Александрос Лабринидис, Яннис Папаконстантину, Джинеш М. Патель,Рагху Рамакришнан и Сайрус Шахаби. Большие данные и их технические проблемы. Коммун. акм,57(7):86–94, июль 2014 г.
  436. ^ Кальтранс ПеМС
  437. ^ Мейзель, Роберт и др. « Структура графов в сети — анализ на разных уровнях агрегации ». Журнал веб-науки 1.1 (2015).
  438. ^ Кушмерик, Николас. « Учимся удалять интернет-рекламу ». Материалы третьей ежегодной конференции по автономным агентам . АКМ, 1999.
  439. ^ Фрадкин, Дмитрий и Дэвид Мэдиган. « Эксперименты со случайными прогнозами для машинного обучения ». Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2003.
  440. ^ Эти данные использовались в разделах статистической графики и вычислений Американской статистической ассоциации за 1999 год.
  441. ^ Ма, Джастин и др. « Выявление подозрительных URL-адресов: применение масштабного онлайн-обучения ». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ, 2009.
  442. ^ Левченко, Кирилл и др. « Траектории кликов: сквозной анализ цепочки создания стоимости спама ». Безопасность и конфиденциальность (SP), симпозиум IEEE 2011 г., посвященный . ИИЭР, 2011.
  443. ^ Мохаммад, Рами М., Фади Табта и Ли Маккласки. « Оценка особенностей, связанных с фишинговыми веб-сайтами, с использованием автоматизированного метода ». Интернет-технологии и защищенные транзакции, Международная конференция 2012 г. для . ИИЭР, 2012.
  444. ^ Сингх, Ашишкумар и др. « Эксперименты по кластеризации больших данных о транзакциях для сегментации рынка ». Материалы Международной конференции по науке о больших данных и вычислительной технике 2014 года . АКМ, 2014.
  445. ^ Боллакер, Курт и др. « Freebase: совместно созданная графовая база данных для структурирования человеческих знаний ». Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными . АКМ, 2008.
  446. ^ Минц, Майк и др. « Дистанционный контроль для извлечения отношений без помеченных данных ». Материалы совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции по обработке естественного языка AFNLP: Том 2-Том 2 . Ассоциация компьютерной лингвистики, 2009.
  447. ^ Местерхарм, Крис и Майкл Дж. Паццани. « Активное обучение с использованием онлайн-алгоритмов. Архивировано 22 сентября 2017 г. в Wayback Machine ». Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2011.
  448. ^ Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и аппроксимации Нистрема с помощью адаптивной выборки» (PDF) . Журнал исследований машинного обучения . 14 (1): 2729–2769. arXiv : 1303.4207 . Бибкод : 2013arXiv1303.4207W .
  449. ^ Перейти обратно: а б «Куча» . Pile.eleuther.ai . Проверено 14 апреля 2022 г.
  450. ^ «Линии JSON» . jsonlines.org . Проверено 14 апреля 2022 г.
  451. ^ Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
  452. ^ «ОСКАР» . oscar-project.org . Проверено 12 августа 2023 г.
  453. ^ Ортис Суарес, Педро и др. « [2] ». Асинхронный конвейер для обработки огромных корпораций в инфраструктурах со средними и низкими ресурсами . ЦМЛК-7, 2019.
  454. ^ Абаджи, Жюльен и др. « [3] ». На пути к более чистому многоязычному сканируемому корпусу, ориентированному на документы . ЛРЭЦ, 2022.
  455. ^ Коэн, Ваня. «ОпенВебТекстКорпус» . OpenWebTextКорпус . Проверено 9 января 2023 г.
  456. ^ "openwebtext · Наборы данных в обнимающем лице" . Huggingface.co . 16 ноября 2022 г. Проверено 9 января 2023 г.
  457. ^ Солнье, Люсиль (2023). «Корпус BigScience ROOTS: составной многоязычный набор данных объемом 1,6 ТБ». arXiv : 2303.03915 [ cs.CL ].
  458. ^ «Данные BigScience · Наборы данных в обнимающем лице» . Huggingface.co . 29 августа 2023 г. Проверено 29 августа 2023 г.
  459. ^ Каттрал, Роберт; Оппачер, Франц; Деуго, Дуайт (2002). «Эволюционный анализ данных с автоматическим обобщением правил» (PDF) . Последние достижения в области компьютеров, вычислений и коммуникаций : 296–300. S2CID   18625415 . Архивировано из оригинала (PDF) 6 августа 2019 года.
  460. ^ Бертон, Ариэль Н.; Келли, Пол Х.Дж. (2006). «Прогнозирование производительности рабочих нагрузок подкачки с использованием облегченной трассировки». Компьютерные системы будущего поколения . 22 (7). Эльзевир Б.В.: 784–793. дои : 10.1016/j.future.2006.02.003 . ISSN   0167-739X .
  461. ^ Бейн, Майкл; Магглтон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект . 13 . Oxford University Press, Inc.: 291–309. дои : 10.1093/oso/9780198538509.003.0012 . ISBN  978-0-19-853850-9 .
  462. ^ Килан, младший (1983). «Изучение эффективных процедур классификации и их применение к шахматным эндшпилям». Машинное обучение – эффективные процедуры классификации обучения и их применение в шахматных эндшпильах . Том. 1. С. 463–482. дои : 10.1007/978-3-662-12405-5_15 . ISBN  978-3-662-12407-9 . {{cite book}}: |journal= игнорируется ( помогите )
  463. ^ Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк.
  464. ^ Матеус, Кристофер Дж.; Ренделл, Ларри А. (1989). «Конструктивная индукция по деревьям решений» (PDF) . ИДЖКАИ . 89 . [ мертвая ссылка ]
  465. ^ Белсли, Дэвид А., Эдвин Ку и Рой Э. Уэлш. Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности . Том. 571. Джон Уайли и сыновья, 2005.
  466. ^ Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия, основанная на знаниях» (PDF) . Интеллектуальные системы IEEE . 24 (2): 64–75. дои : 10.1109/MIS.2009.32 . hdl : 1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7 . S2CID   6667472 . Архивировано из оригинала (PDF) 16 августа 2017 года . Проверено 6 декабря 2018 г.
  467. ^ Ли, Лихун; Чу, Вэй; Лэнгфорд, Джон; Ван, Сюаньхуэй (2011). «Непредвзятая офлайн-оценка алгоритмов рекомендации новостных статей на основе контекстных бандитов». Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных . стр. 297–306. arXiv : 1003.5956 . дои : 10.1145/1935826.1935878 . ISBN  9781450304931 . S2CID   744200 .
  468. ^ Юнг, Кам Фунг и Яньян Ян. « Проактивная персонализированная система рекомендаций для мобильных новостей ». Разработки в области разработки электронных систем (DESE), 2010 г. ИИЭР, 2010.
  469. ^ Гасс, Сьюзен Э.; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль над распространением». Бюллетень о загрязнении морской среды . 52 (5): 549–559. Бибкод : 2006МарПБ..52..549Г . дои : 10.1016/j.marpolbul.2005.10.002 . ПМИД   16300800 .
  470. ^ Гионис, Аристид; Маннила, Хейкки; Цапарас, Панайотис (2007). «Кластерная агрегация». Транзакции ACM по извлечению знаний из данных . 1 (1): 4. CiteSeerX   10.1.1.709.528 . дои : 10.1145/1217299.1217303 . S2CID   433708 .
  471. ^ Обрадович, Зоран и Слободан Вучетич. Проблемы интеллектуального анализа научных данных: гетерогенные, смещенные и большие выборки . Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.
  472. ^ Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). «Вызов CoIL 2000: Дело страховой компании». Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук . 9 : 1–43.
  473. ^ Мао, Казахстан (2002). «Выбор центра нейронной сети RBF на основе меры разделимости класса отношения Фишера». Транзакции IEEE в нейронных сетях . 13 (5): 1211–1217. дои : 10.1109/tnn.2002.1031953 . ПМИД   18244518 .
  474. ^ Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в государственные школы» (PDF) . Экспертные системы в государственном управлении . 1 : 145–160.
  475. ^ Лизотт, Дэниел Дж.; Мадани, Омид; Грейнер, Рассел (2012). «Бюджетное обучение классификаторов Найва-Байеса». arXiv : 1212.2472 [ cs.LG ].
  476. ^ Лебовиц, Майкл (1986). «Концептуальное обучение в богатой входной области: память, основанная на обобщениях» . Машинное обучение: подход искусственного интеллекта . 2 : 193–214. ISBN  9780934613002 .
  477. ^ Да, И-Чэн; Ян, Кинг-Янг; Тин, Тао-Мин (2009). «Открытие знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями . 36 (3): 5866–5871. дои : 10.1016/j.eswa.2008.07.018 .
  478. ^ Ли, Вэнь-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система для повышения эффективности донорства крови» . Журнал качества Vol . 18 (2): 173.
  479. ^ Шмидтманн, Ирен и др. « Оценка реестра раковых заболеваний NRW с упором на связь записей. Архивировано 6 декабря 2018 г. в Wayback Machine ». Итоговый отчет от 11 ноября (2009 г.).
  480. ^ Сарияр, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с использованием теории экстремальных значений». Журнал биомедицинской информатики . 44 (4): 648–654. дои : 10.1016/j.jbi.2011.02.008 . ПМИД   21352952 .
  481. ^ Кандильер, Лоран и Винсент Лемэр. « Разработка и анализ задачи Nomao по активному обучению в реальном мире ». Труды ALRA: Активное обучение в реальных приложениях, семинар ECML-PKDD . 2012.
  482. ^ Маркес, Иван Гарридо. « Метод адаптации предметной области для классификации текста на основе подхода самонастраивающегося обучения ». (2013).
  483. ^ Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные сетки для кластеризации больших наборов данных». СДМ. 2001.
  484. ^ Кузилек, Якуб и др. « OU Analyse: анализ студентов из группы риска в Открытом университете ». Обзор аналитики обучения (2015): 1–16.
  485. ^ Сименс, Джордж и др. Open Learning Analytics: интегрированная и модульная платформа [ постоянная мертвая ссылка ] . Дисс. Издательство Открытого университета, 2011.
  486. ^ Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читик, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных о городской жизни города Милана и провинции Трентино из нескольких источников» . Научные данные . 2 : 150055. Бибкод : 2015NatSD...250055B . дои : 10.1038/sdata.2015.55 . ISSN   2052-4463 . ПМЦ   4622222 . ПМИД   26528394 .
  487. ^ Ваншорен Дж., Ван Рейн Дж.Н., Бишл Б., Торго Л. (2013). «OpenML: сетевая наука в машинном обучении». Исследования SIGKDD . 15 (2): 49–60. arXiv : 1407.7722 . дои : 10.1145/2641190.2641198 . S2CID   4977460 .
  488. ^ Олсон Р.С., Ла Кава В., Ожеховский П., Урбанович Р.Дж., Мур Дж.Х. (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения» . Добыча биоданных . 10 (1): 36. arXiv : 1703.00512 . Бибкод : 2017arXiv170300512O . дои : 10.1186/s13040-017-0154-4 . ПМЦ   5725843 . ПМИД   29238404 .
  489. ^ «Готовые наборы данных» . appen.com . Приложение . Проверено 30 декабря 2020 г.
  490. ^ «Наборы данных с открытым исходным кодом» . appen.com . Приложение . Проверено 30 декабря 2020 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e0fd428ce63ed46f9199fedd0ef98b6c__1722388320
URL1:https://arc.ask3.ru/arc/aa/e0/6c/e0fd428ce63ed46f9199fedd0ef98b6c.html
Заголовок, (Title) документа по адресу, URL1:
List of datasets for machine-learning research - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)