Список наборов данных для исследований в области машинного обучения

Эти наборы данных используются в исследованиях машинного обучения (ML) и цитируются в рецензируемых научных журналах . Наборы данных являются неотъемлемой частью области машинного обучения. Крупные достижения в этой области могут быть результатом достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерного оборудования и, что менее интуитивно понятно, доступности высококачественных наборов обучающих данных. ^[1] Высококачественные помеченные наборы обучающих данных для контролируемых и полуконтролируемых машинного обучения алгоритмов обычно сложно и дорого создавать из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим. ^[2]^[3]^[4]^[5]

Многие организации, включая правительства, публикуют и делятся своими наборами данных . Наборы данных классифицируются в зависимости от лицензий на открытые данные и неоткрытые данные .

Наборы данных различных государственных органов представлены в Списке открытых сайтов государственных данных . Наборы данных портируются на порталы открытых данных . Они доступны для поиска, размещения и доступа через такие интерфейсы, как Open API . Наборы данных доступны в различных отсортированных типах и подтипах.

Список сортировок, используемых для наборов данных

Тип	Подтипы
Конкретная категория	Финансы , экономика , торговля , социальная сфера , здравоохранение , академия , спорт , еда , сельское хозяйство , путешествия , геопространственные , политические , потребительские товары , транспорт , логистика , окружающая среда , недвижимость , юридические , развлечения , энергетика , гостиничный бизнес
Объем	Наднациональный Союз , Национальный , Субнациональный , Муниципальный , Городской , Сельский
Язык	Китайский , испанский , английский , арабский , хинди , бенгали
Тип	Табличный , график , текст , изображение , звук , видео
Использование	Обучение, проверка и тестирование
Форматы файлов	CSV , JSON , XML , KML , GeoJSON , шейп-файл , GML
Лицензии	Creative-Commons , GPL , другие на закрытые данные лицензии
Последнее обновление	Последний час, последний день, последняя неделя, последний месяц, последний год
Размер файла	Минимум, Максимум, Диапазон
Статус	Проверено, находится в стадии подготовки, деактивировано (или устарело)
Количество записей	100, 1000, 10 000, 100 000, миллионы
Количество переменных	Менее 10, 10, 100, 1000, 10000
Услуги	Индивидуальный, Агрегированный

Портал данных классифицируется в зависимости от типа лицензии. Порталы данных с открытым исходным кодом на основе лицензий известны как порталы открытых данных , которые используются многими правительственными организациями и академическими учреждениями .

Список порталов открытых данных

Имя портала	Лицензия	Список установок портала	Типичное использование
Комплексная сеть архивов знаний ( CKAN )	АГПЛ	https://ckan.github.io/ckan-instances/ https://github.com/sebneu/ckan_instances/blob/master/instances.csv	Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
ДЭН	лицензия GPL	https://getdkan.org/community	Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов
Вселенная данных	Апач	https://dataverse.org/installations https://dataverse.org/metrics	Решение для управления данными для научно-исследовательских институтов
DSpace	БСД	https://registry.lyrasis.org/	Решение для управления данными для научно-исследовательских институтов
OpenML	БСД	https://www.openml.org/search?type=data&sort=runs&status=active	Решение для управления данными для обмена наборами данных, алгоритмами и результатами экспериментов через API.

Список порталов, подходящих для нескольких типов приложений

Портал данных иногда перечисляет самые разнообразные подтипы наборов данных, относящиеся ко многим приложениям машинного обучения .

Академические торренты	https://academictorrents.com
Наборы данных Amazon	https://registry.opendata.aws/
Потрясающая коллекция общедоступных наборов данных	https://github.com/awesomedata/awesome-public-datasets
data.world	https://data.world/datasets/machine-learning
Datahub – основные наборы данных	https://datahub.io/docs/core-data
DataONE	https://www.dataone.org/
Порталы данных	https://dataportals.org/
Datasetlist.com	https://www.datasetlist.com
Глобальный индекс открытых данных – Фонд открытых знаний	https://index.okfn.org/ Архивировано 25 мая 2020 г. в Wayback Machine.
Поиск набора данных Google	https://datasetsearch.research.google.com/
Обнимающее лицо	https://huggingface.co/docs/datasets/
Обмен данными IBM	https://developer.ibm.com/exchanges/data/
Jupyter — Учебные данные	https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
Каггл	https://www.kaggle.com/datasets
Наборы данных машинного обучения	https://macgence.com/data-sets-and-cataloges/
Крупные умные города с открытыми данными	https://rlist.io/l/major-smart-cities-with-open-data-portals
Наборы данных Microsoft	https://msropendata.com/datasets
Начало открытых данных	https://opendatainception.io/
Opendatasoft	https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
OpenDOAR	https://v2.sherpa.ac.uk/opendoar/
OpenML	https://www.openml.org/search?type=data
Документы с кодом	https://paperswithcode.com/datasets
Тесты машинного обучения Penn	https://github.com/EpistasisLab/pmlb/tree/master/datasets
Публичные API	https://github.com/public-apis/public-apis
Реестр репозиториев открытого доступа	http://roar.eprints.org/
Реестр хранилищ данных исследований	https://www.re3data.org/
Репозиторий машинного обучения UCI	http://mlr.cs.umass.edu/ml/ Архивировано 26 июня 2020 г. в Wayback Machine.
Речевой набор данных	https://www.shaip.com/offerings/speech-data-catalog/
Визуальное обнаружение данных	https://visualdata.io/discovery

Список порталов, подходящих для конкретного подтипа приложений

Порталы данных, подходящие для определенного подтипа приложения машинного обучения, перечислены в последующих разделах.

Данные изображения

Текстовые данные

Эти наборы данных состоят в основном из текста для таких задач, как обработка естественного языка , анализ настроений , перевод и кластерный анализ .

Отзывы

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Амазонские обзоры	Обзоры продуктов в США на Amazon.com .	Никто.	233,1 миллиона	Текст	Классификация, анализ настроений	2015 (2018)	^[6]^[7]	Маколи и др.
Набор данных обзора OpinRank	Обзоры автомобилей и отелей на Edmunds.com и TripAdvisor соответственно.	Никто.	42 230 / ~ 259 000 соответственно	Текст	Анализ настроений, кластеризация	2011	^[8]^[9]	К. Ганесан и др.
КиноОбъектив	22 000 000 оценок и 580 000 тегов присвоены 33 000 фильмам 240 000 пользователей.	Никто.	~22 млн.	Текст	Регрессия, кластеризация, классификация	2016	^[10]	Группа исследований линз
Yahoo! Музыкальные рейтинги музыкальных исполнителей	Более 10 миллионов оценок исполнителей от пользователей Yahoo.	Ничего не описано.	~ 10М	Текст	Кластеризация, регрессия	2004	^[11]^[12]	Yahoo!
Набор данных для оценки автомобиля	Свойства автомобилей и их общая приемлемость.	Даны шесть категориальных признаков.	1728	Текст	Классификация	1997	^[13]^[14]	М. Боханец
Набор данных о предпочтениях YouTube Comedy Slam	Данные голосования пользователей за пары видеороликов, показанных на YouTube. Пользователи голосовали за более смешные видео.	Метаданные видео предоставлены.	1,138,562	Текст	Классификация	2012	^[15]^[16]	Google
Набор данных отзывов пользователей Skytrax	Отзывы пользователей об авиакомпаниях, аэропортах, местах и залах ожидания от Skytrax.	Рейтинги являются детальными и включают в себя множество аспектов опыта работы в аэропорту.	41396	Текст	Классификация, регрессия	2015	^[17]	К. Нгуен
Набор данных для оценки помощника преподавателя	Отзывы помощника преподавателя.	Приведены характеристики каждого экземпляра, такие как класс, размер класса и инструктор.	151	Текст	Классификация	1997	^[18]^[19]	В. Лох и др.
Корпус отзывов вьетнамских студентов (UIT-VSFC)	Отзывы студентов.	Комментарии	16,000	Текст	Классификация	1997	^[20]	Нгуен и др.
Вьетнамский корпус эмоций в социальных сетях (UIT-VSMEC)	Комментарии пользователей Facebook.	Комментарии	6,927	Текст	Классификация	1997	^[21]	Нгуен и др.
Вьетнамский набор данных для обнаружения жалоб в открытом домене (ViOCD)	Отзывы клиентов о продукции	Комментарии	5,485	Текст	Классификация	2021	^[22]	Нгуен и др.
ViHOS: вьетнамцы выявляют разжигание ненависти	Тексты в социальных сетях	Комментарии	Содержит 26 тысяч промежутков на 11 тысяч комментариев.	Текст	Обнаружение диапазона	2021	^[23]	Хоанг и др.

Новостные статьи

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных NYSK	Английские новостные статьи о деле, касающемся обвинений в сексуальном насилии против бывшего МВФ директора Доминика Стросс-Кана .	Отфильтровано и представлено в формате XML.	10,421	XML, текст	Анализ настроений, извлечение тем	2013	^[24]	Дермуш М. и др.
Корпус Reuters, том 1	Большой корпус Reuters новостей на английском языке.	Детальная категоризация и коды тем.	810,000	Текст	Классификация, кластеризация, обобщение	2002	^[25]	Рейтер
Корпус Reuters, том 2	Большой корпус Reuters новостей на нескольких языках.	Детальная категоризация и коды тем.	487,000	Текст	Классификация, кластеризация, обобщение	2005	^[26]	Рейтер
Коллекция текстовых исследований Thomson Reuters	Большой корпус новостей.	Подробности не описаны.	1,800,370	Текст	Классификация, кластеризация, обобщение	2009	^[27]	Т. Роуз и др.
Корпус газет Саудовской Аравии	31 030 статей в арабских газетах.	Метаданные извлечены.	31,030	JSON	Обобщение, кластеризация	2015	^[28]	М. Альхагри
RE3D (набор данных для оценки извлечения связей и сущностей)	Entity и Relation маркируют данные из различных новостных и правительственных источников. При поддержке Dstl	Фильтрация, категоризация с использованием типов уса.	не известно	JSON	Классификация, распознавание сущностей и отношений	2017	^[29]	Дстл
Examiner Каталог спама-кликбейта	Кликбейт, спам, краудсорсинговые заголовки с 2010 по 2015 год.	Дата публикации и заголовки	3,089,781	CSV-файл	Кластеризация, События, Настроения	2016	^[30]	Р. Кулкарни
ABC Корпус новостей Australia	Весь корпус новостей ABC Australia с 2003 по 2019 год.	Дата публикации и заголовки	1,186,018	CSV-файл	Кластеризация, События, Настроения	2020	^[31]	Р. Кулкарни
Мировые новости – совокупность 20 тысяч каналов	Снимок всех онлайн-заголовков за неделю на более чем 20 языках.	Время публикации, URL и заголовки	1,398,431	CSV-файл	Кластеризация, события, определение языка	2018	^[32]	Р. Кулкарни
Reuters Заголовок новостей	11 лет событий с временными метками, опубликованных в новостной ленте	Время публикации, текст заголовка	16,121,310	CSV-файл	НЛП, Компьютерная лингвистика, События	2018	^[33]	Р. Кулкарни
The Irish Times Корпус новостей Ирландии	24 года новостей Ирландии с 1996 по 2019 год	Время публикации, категория заголовка и текст	1,484,340	CSV-файл	НЛП, Компьютерная лингвистика, События	2020	^[34]	Р. Кулкарни
Набор данных заголовков новостей для обнаружения сарказма	Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей.	Чистый, нормализованный текст	26,709	JSON	НЛП, Классификация, Лингвистика	2018	^[35]	Ришаб Мишра

Сообщения

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных электронной почты Enron	Электронные письма от сотрудников Enron упорядочены по папкам.	Вложения удалены, недействительные адреса электронной почты преобразованы в [email protected] или [email protected] .	~ 500,000	Текст	Сетевой анализ , анализ настроений	2004 (2015)	^[36]^[37]	Климт Б. и Ю. Ян
Набор данных линг-спама	Корпус, содержащий как легальные, так и спам -сообщения.	Четыре версии корпуса, определяющие, ли лемматизатор включен или стоп-лист.	2,412 Ему 481 Спам	Текст	Классификация	2000	^[38]^[39]	Анрутсопулос Дж. и др.
Набор данных для сбора SMS-спама	Сбор SMS-спама.	Никто.	5,574	Текст	Классификация	2011	^[40]^[41]	Т. Алмейда и др.
Набор данных двадцати групп новостей	Сообщения из 20 различных групп новостей.	Никто.	20,000	Текст	Обработка естественного языка	1999	^[42]	Т. Митчелл и др.
Набор данных базы спама	Спам-письма.	Извлечено множество текстовых функций.	4,601	Текст	Обнаружение спама, классификация	1999	^[43]	М. Хопкинс и др.

Твиттер и твиты

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
КиноТвиты	Набор данных о рейтингах фильмов, основанный на публичных и хорошо структурированных твитах.		~710,000	Текст	Классификация, регрессия	2018	^[44]	С. Думс
Твиттер100 тыс.	Пары изображений и твитов		100,000	Текст и изображения	Межмедийный поиск	2017	^[45]^[46]	Ю. Ху и др.
Чувство140	Данные твитов за 2009 год, включая исходный текст, отметку времени, пользователя и тональность.	Засекречено с использованием дистанционного наблюдения по наличию смайлика в твите.	1,578,627	Твиты, запятая, разделенные значения	Анализ настроений	2009	^[47]^[48]	А. Го и др.
Набор данных ASU Twitter	Данные сети Twitter, а не реальные твиты. Показывает связи между большим количеством пользователей.	Никто.	11 316 811 пользователей, 85 331 846 подключений	Текст	Кластеризация, графовый анализ	2009	^[49]^[50]	Р. Зафарани и др.
Социальные круги SNAP: база данных Twitter	Большие данные сети Twitter.	Особенности узлов, круги и эго-сети.	1,768,149	Текст	Кластеризация, графовый анализ	2012	^[51]^[52]	Дж. Маколи и др.
Набор данных Twitter для анализа настроений на арабском языке	Арабские твиты.	Образцы вручную помечаются как положительные или отрицательные.	2000	Текст	Классификация	2014	^[53]^[54]	Н. Абдулла
Ажиотаж в наборе данных социальных сетей	Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах.	Данные представлены в виде окна, поэтому пользователь может попытаться предсказать события, которые приведут к ажиотажу в социальных сетях.	140,000	Текст	Регрессия, Классификация	2013	^[55]^[56]	Ф. Кавала и др.
Парафраз и семантическое сходство в Твиттере (PIT)	Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение/информацию или нет. Маркировка вручную.	токенизация, тегирование частей речи и именованных объектов	18,762	Текст	Регрессия, Классификация	2015	^[57]^[58]	Сюй и др.
Набор контрольных данных Geoparse Twitter	Этот набор данных содержит твиты во время различных новостных мероприятий в разных странах. Упоминания местоположения, помеченные вручную.	аннотации местоположения добавлены в метаданные JSON	6,386	Твиты, JSON	Классификация, извлечение информации	2014	^[59]^[60]	С.Э. Миддлтон и др.
Сарказм, воспринимаемый и преднамеренный, методом реактивного надзора (SPIRS)	Намеренные и воспринимаемые саркастические твиты вместе с их контекстом, собранные с использованием реактивного надзора; равное количество отрицательных (несаркастических) образцов		30,000	Идентификаторы твитов, CSV	Классификация	2020	^[61]^[62]	Б. Шмуэли и др.
Голландская коллекция социальных сетей	Этот набор данных содержит твиты о COVID-19, написанные носителями голландского языка или пользователями из Нидерландов. Данные были помечены машиной	классифицировано по настроению, тексту твита и описанию пользователя, переведенному на английский язык. Упоминания отрасли извлечены	271,342	JSONL	Настроения, классификация по нескольким меткам, машинный перевод	2020	^[63]^[64]^[65]	Ааакш Гупта, CoronaWhy
Набор данных ReactionGIF	Набор данных из 30 тысяч твитов и их реакций в формате GIF.	Классифицируется по настроениям, реакциям и эмоциям.	30,000	Идентификаторы твитов, JSONL	Классифицируется по настроениям, реакциям и эмоциям.	2021	^[66]^[67]	Б. Шмуэли и др.

Диалоги

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Корпус чата NPS	Сообщения из возрастных онлайн-чатов.	Конфиденциальность рук замаскирована, отмечена часть речи и диалоговый акт.	~ 500,000	XML	НЛП, программирование, лингвистика	2007	^[68]	Форсайт Э., Лин Дж. и Мартелл К.
Тройной корпус Твиттера	Тройки ABA взяты из Twitter.		4,232	Текст	НЛП	2016	^[69]	Сордини А. и др.
Корпус UseNet	Сообщения на форуме UseNet.	Анонимные электронные письма и URL-адреса. Пропущены документы длиной менее 500 слов или > 500 000 слов или менее 90 % английского языка.	7 миллиардов	Текст		2011	^[70]	Шауль К. и Вестбери К.
SMS-корпус НУС	SMS-сообщения, собранные между двумя пользователями, с временным анализом.		~ 10,000	XML	НЛП	2011	^[71]	ГДЕ, М
Reddit Все комментарии Корпус	Все комментарии Reddit (по состоянию на 2015 год).		~ 1,7 миллиарда	JSON	НЛП, исследования	2015	^[72]	Застрял_В_Матрице
Корпус диалогов Ubuntu	Диалоги извлечены из чата Ubuntu в IRC.		930 тысяч диалогов, 7,1 миллиона высказываний	CSV-файл	Исследование диалоговых систем	2015	^[73]	Лоу, Р. и др.
Задача отслеживания состояния диалогового окна	Задачи отслеживания состояния диалога 2 и 3 (DSTC2 и 3) представляли собой исследовательскую задачу, направленную на улучшение современного состояния систем отслеживания состояния разговорных диалогов.	Транскрипция устных диалогов с маркировкой	DSTC2 содержит ~3,2 тыс. вызовов – DSTC3 содержит ~2,3 тыс. вызовов	Json	Отслеживание состояния диалога	2014	^[74]	Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д.

Юридический

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Свободное право	Отфильтрованные данные из Court Listener, части проекта FreeLaw.	Очищенный и нормализованный текст	4,940,710	Json	НЛП, лингвистика	2020	^[75]	Т. Хоппе
Куча закона	Корпус юридических и административных данных	Очищено, нормализовано и приватизировано	~50,000,000	Json	НЛП, лингвистика, сантименты	2022	^[76]^[77]	Л. Чжэн; Н. Гуха; Б. Андерсон; П. Хендерсон; Д. Хо
Проект доступа к судебным делам	Вся официальная, опубликованная в книгах прецедентная практика штата и федерального правительства США — каждый том или дело, обозначенное как официальный отчет о решениях суда на территории Соединенных Штатов.	Очищенный и нормализованный текст	~10,000	Json	НЛП, лингвистика	2022	^[78]	А. Айзман; С. Чепмен; Дж. Кушман; К. Дулин; Х. Эйдолон; и др.

Другой текст

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных Web of Science	Иерархические наборы данных для классификации текста	Никто.	46,985	Текст	Классификация, Категоризация	2017	^[79]^[80]	К. Ковсари и др.
Отчеты о судебных делах	Дела Федерального суда Австралии с 2006 по 2009 год.	Никто.	4,000	Текст	Подведение итогов, анализ цитирования	2012	^[81]^[82]	Ф. Гальгани и др.
Корпус авторства блоггеров	Записи в блогах 19 320 человек с сайта blogger.com.	Блогер самостоятельно указал пол, возраст, сферу деятельности и астрологический знак.	681,288	Текст	Анализ настроений, обобщение, классификация	2006	^[83]^[84]	Дж. Шлер и др.
Социальная структура сетей Facebook	Большой набор данных о социальной структуре Facebook.	Никто.	охвачено 100 колледжей	Текст	Сетевой анализ, кластеризация	2012	^[85]^[86]	А. Трауд и др.
Набор данных для машинного понимания текста	Истории и сопутствующие вопросы для проверки понимания текста.	Никто.	660	Текст	Обработка естественного языка, машинное понимание	2013	^[87]^[88]	М. Ричардсон и др.
Проект Пенн-Трибанк	Естественно встречающийся текст, аннотированный по языковой структуре.	Текст разбивается на семантические деревья.	~ 1 млн слов	Текст	Обработка естественного языка, обобщение	1995	^[89]^[90]	М. Маркус и др.
Набор данных ДЭКСТЕР	Задача состоит в том, чтобы по приведенным признакам определить, какие статьи посвящены корпоративным приобретениям.	Извлеченные особенности включают основы слов. Включены функции отвлечения.	2600	Текст	Классификация	2008	^[91]	Рейтер
Google Книги	N-граммы из очень большого корпуса книг	Никто.	2,2 ТБ текста	Текст	Классификация, кластеризация, регрессия	2011	^[92]^[93]	Google
Тело человека	Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке.	Помимо обычных текстов приводятся синтаксически размеченные тексты.	145	Текст	Классификация, регрессия	2008	^[94]^[95]	К. Люйкс и др.
НажмитеShift	Архивы сайтов социальных сетей, включая Reddit , Twitter и Hackernews .	Текст извлечен и нормализован из WARC	~100 000 000 сообщений	Json	НЛП, сантименты, лингвистика	2022	^[96]^[97]	Дж. Баумгартнер
Документы SEC	ЭДГАР \| Документы компании	Текст извлечен.		csv	НЛП
Набор данных CNAE-9	Задача категоризации свободных текстовых описаний бразильских компаний.	Частота слов была извлечена.	1080	Текст	Классификация	2012	^[98]^[99]	П. Сиарелли и др.
Набор данных предложений с маркировкой настроений	3000 настроений, помеченных предложениями.	Настроение каждого предложения было вручную помечено как положительное или отрицательное.	3000	Текст	Классификация, анализ настроений	2015	^[100]^[101]	Д. Коциас
Набор данных обратной связи блога	Набор данных для прогнозирования количества комментариев, которые получит сообщение, на основе особенностей этого сообщения.	Извлечено множество особенностей каждого поста.	60,021	Текст	Регрессия	2014	^[102]^[103]	К. Губа
ПабМед Централ	PubMed® включает более 35 миллионов ссылок на биомедицинскую литературу из MEDLINE, журналов по наукам о жизни и онлайн-книг.	Никто	35 миллионов	Текст	НЛП
ВПТЗ США	Ведомство США по патентам и товарным знакам			Текст	НЛП
Филпаперс	Коллекция публикаций по философии в открытом доступе			Текст	НЛП
Книжный корпус	Популярный крупномасштабный текстовый корпус.	Никто		Текст	НЛП	2015	^[104]	Чжу, Юкунь и др.
Стэнфордский корпус вывода естественного языка (SNLI)	Подписи к изображениям сочетались с вновь построенными предложениями, образуя пары следствий, противоречий или нейтральных пар.	Метки классов Entailment, синтаксический анализ с помощью парсера Stanford PCFG.	570,000	Текст	Вывод на естественном языке/распознавание текстовых последствий	2015	^[105]	С. Боуман и др.
Коллекция корпусов DSL (DSLCC)	Многоязычный сборник коротких отрывков публицистических текстов на близких языках и диалектах.	Никто	294 000 фраз	Текст	Различение похожих языков	2017	^[106]	И Лилинг и др.
городского словаря Набор данных	Корпус слов, голосов и определений	Имена пользователей анонимизированы	2,580,925	CSV-файл	НЛП, Машинное понимание	2016 май	^[107]	Анонимный
Т-РЕкс	Рефераты Википедии, соответствующие Викиданных объектам	Согласование троек Викиданных с рефератами Википедии	11M выровненных троек	JSON и NIF [4]	НЛП, Извлечение отношений	2018	^[108]	Х. Эльсахар и др.
Общая оценка понимания языка (GLUE)	Тест из девяти задач	Различный	~1 млн предложений и пар предложений		НЛУ	2018	^[109]^[110]^[111]	Ван и др.
Понимание контрактов Набор данных Atticus (CUAD) (ранее известный как Набор данных открытого контракта Atticus (AOK))	Набор данных юридических контрактов с обширными экспертными аннотациями		~13 000 этикеток	CSV и PDF	Обработка естественного языка, QnA	2021		Проект Аттикус
Набор данных подписей к изображениям на вьетнамском языке (UIT-ViIC)	Набор данных для подписей к изображениям на вьетнамском языке		19 250 подписей к 3 850 изображениям	CSV и PDF	Обработка естественного языка, Компьютерное зрение	2020	^[112]	Лам и др.
Вьетнамские имена с указанием пола (UIT-ViNames)	Вьетнамские имена с указанием пола		26 850 полных имен на вьетнамском языке с указанием пола.	CSV-файл	Обработка естественного языка	2020	^[113]	Два и др.
Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке (UIT-ViCTSD)	Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке		10 000 комментариев вьетнамских пользователей к интернет-газетам на 10 доменах.	CSV-файл	Обработка естественного языка	2021	^[114]	Нгуен и др.
PG-19	Набор книг, извлеченных из книжной библиотеки Project Gutenberg.			Текст	Обработка естественного языка	2019		Джек В. и др.
Глубокая математика	Математические пары вопросов и ответов.			Текст	Обработка естественного языка	2018	^[115]	Д. Сакстон и др.
Архив Анны	Полный архив опубликованных книг и статей.	Никто	100,356,641	Текст, epub, PDF	Обработка естественного языка	2024

Звуковые данные

Эти наборы данных состоят из звуков и звуковых характеристик, используемых для таких задач, как распознавание и синтез речи .

Речь

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Конкурс речи с нулевыми ресурсами 2015 года	Спонтанная речь (английский), Чтение речи (Сицонга).	Нет, необработанные файлы WAV.	Английский: 5 часов, 12 носителей; Ситсонга: 2 часа 30 минут, 24 динамика	WAV (только аудио)	Неконтролируемое обнаружение особенностей речи/единиц подслов/единиц слов	2015	^[116]^[117]	Верстиг и др.
Набор речевых данных Паркинсона	Множественные записи людей с болезнью Паркинсона и без нее.	Извлечены особенности голоса, болезнь оценена врачом с использованием единой шкалы оценки болезни Паркинсона .	1,040	Текст	Классификация, регрессия	2013	^[118]^[119]	Б.Е. Сакар и др.
Разговорные арабские цифры	Разговорные арабские цифры от 44 мужчин и 44 женщин.	Временные ряды мел-частотных коэффициентов кепстра.	8,800	Текст	Классификация	2010	^[120]^[121]	М. Бедда и др.
Набор данных ISOLET	Разговорные названия букв.	Особенности, извлеченные из звуков.	7797	Текст	Классификация	1994	^[122]^[123]	Р. Коул и др.
Набор данных японских гласных	Девять носителей мужского пола последовательно произнесли две японские гласные.	Применил к нему 12-градусный анализ линейного прогнозирования, чтобы получить дискретный временной ряд с 12 кепстральными коэффициентами.	640	Текст	Классификация	1999	^[124]^[125]	М. Кудо и др.
Набор данных телемониторинга Паркинсона	Множественные записи людей с болезнью Паркинсона и без нее.	Звуковые особенности извлечены.	5875	Текст	Классификация	2009	^[126]^[127]	А. Цанас и др.
ТИОН	Записи 630 носителей восьми основных диалектов американского английского, каждый из которых читает десять фонетически богатых предложений.	Речь лексически и фонематически транскрибируется.	6300	Текст	Распознавание речи, классификация.	1986	^[128]^[129]	Дж. Гарофоло и др.
Корпус арабской речи	(MSA) для одного говорящего Речевой корпус современного стандартного арабского языка с фонетическими и орфографическими расшифровками, согласованными с уровнем фонем.	Речь орфографически и фонетически транскрибируется со знаками ударения.	~1900	Текст, WAV	Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование.	2016	^[130]	Н. Халаби
Общий голос	Общедоступная база данных краудсорсинговых данных на широком спектре диалектов.	Проверка другими пользователями.	Английский: 1118 часов	MP3 с соответствующими текстовыми файлами	Распознавание речи	июнь 2017 г. (декабрь 2019 г.)	^[131]	Мозилла
LJРечь	Сборник аудиокниг , являющихся общественным достоянием, на английском языке , разделенных на короткие отрывки знаками препинания.	Проверка качества, нормализация транскрипции рядом с оригиналом.	13,100	CSV, WAV	Синтез речи	2017	^[132]	Кит Ито, Линда Джонсон
Набор данных арабских речевых команд	Собрано от 30 участников и сгруппировано по 40 ключевым словам.	Необработанные файлы WAV	12,000	WAV, CSV	Распознавание речи, определение ключевых слов	2021	^[133]	Абдулкадер Гандура

Музыка

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Географическое происхождение набора музыкальных данных	Аудио особенности музыкальных сэмплов из разных мест.	Аудио функции, извлеченные с помощью программного обеспечения MARSYAS.	1,059	Текст	Географическая классификация, кластеризация	2014	^[134]^[135]	Ф. Чжоу и др.
Набор данных «Миллион песен»	Аудио функции из миллиона разных песен.	Аудио функции извлечены.	1М	Текст	Классификация, кластеризация	2011	^[136]^[137]	Т. Бертен-Маье и др.
MUSDB18	Многодорожечные записи популярной музыки	Необработанный звук	150	MP4, WAV	Разделение источников	2017	^[138]	З. Рафии и др.
Бесплатный музыкальный архив	Аудио под Creative Commons из 100 тысяч песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданными, пользовательскими данными, текстом в произвольной форме.	Необработанный звук и аудиофункции.	106,574	Текст, MP3	Классификация, рекомендации	2017	^[139]	М. Дефферрард и др.
Набор данных хоровой гармонии Баха	Хоральные аккорды Баха.	Аудио функции извлечены.	5665	Текст	Классификация	2014	^[140]^[141]	Д. Радичиони и др.

Другие звуки

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
UrbanSound	Маркированные звукозаписи звуков, таких как работа кондиционера, автомобильные гудки и игра детей.	Сортировка по папкам по классам событий, а также метаданные в файле JSON и аннотации в файле CSV.	1,059	Звук ( ВАВ )	Классификация	2014	^[142]^[143]	Дж. Саламон и др.
АудиоСет	10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 ярлыков.	128-мерный PCA в стиле VGG воспроизводится каждые 1 секунду.	2,084,320	Текстовые (CSV) и файлы записей TensorFlow.	Классификация	2017	^[144]	Дж. Геммеке и др., Google
Задача обнаружения звука птиц	Звук со станций мониторинга окружающей среды, а также краудсорсинговые записи		17,000+		Классификация	2016 (2018)	^[145]^[146]	Университет Королевы Марии и Общество обработки сигналов IEEE
Хипстерские эмбиентные смеси WSJ0	Звук с WSJ0, смешанный с шумом, записанный в районе залива Сан-Франциско.	Шумовые клипы, соответствующие клипам WSJ0.	28,000	Звук ( WAV )	Разделение источников звука	2019	^[147]	Вичерн Г. и др., Whisper and MERL.
ткань	4981 аудиосэмпл длиной от 15 до 30 секунд, каждый аудиосэмпл имеет пять разных подписей длиной от 8 до 20 слов.		24,905	Звук ( WAV ) и текст ( CSV )	Автоматизированные аудио субтитры	2020	^[148]^[149]	К. Дроссос, С. Липпинг и Т. Виртанен

Данные сигнала

Наборы данных, содержащие информацию об электрическом сигнале, требующую какой-либо обработки сигнала для дальнейшего анализа.

Электрический

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных остроумного червя	Набор данных, подробно описывающий распространение червя Witty и зараженных компьютеров.	Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую как заголовки IP и UDP.	55 909 IP-адресов	Текст	Классификация	2004	^[150]^[151]	Центр прикладного анализа интернет-данных
Набор данных для оценки артериального давления без манжеты	Очищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления.	Жизненно важные функции на частоте 125 Гц были очищены.	12,000	Текст	Классификация, регрессия	2015	^[152]^[153]	М. Качуи и др.
Набор данных о дрейфе матрицы газовых датчиков	Измерения от 16 химических датчиков, используемых в моделировании для компенсации дрейфа.	Представлено большое количество функций.	13,910	Текст	Классификация	2012	^[154]^[155]	А. Вергара
Набор данных сервопривода	Данные, охватывающие нелинейные зависимости, наблюдаемые в схеме сервоусилителя.	Приведены уровни различных компонентов в зависимости от других компонентов.	167	Текст	Регрессия	1993	^[156]^[157]	К. Ульрих
Набор данных UJIIndoorLoc-Mag	База данных внутренней локализации для тестирования систем внутреннего позиционирования. Данные основаны на магнитном поле.	Даны разделения на обучение и тестирование.	40,000	Текст	Классификация, регрессия, кластеризация	2015	^[158]^[159]	Д. Рамбла и др.
Набор данных диагностики бездатчикового привода	Электрические сигналы от двигателей с неисправными компонентами.	Извлечены статистические характеристики.	58,508	Текст	Классификация	2015	^[160]^[161]	М. Батор

Отслеживание движения

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Носимые компьютеры: Классификация поз и движений тела (PUC-Рио)	Люди выполняют пять стандартных действий, используя трекеры движения.	Никто.	165,632	Текст	Классификация	2013	^[162]^[163]	Папский католический университет Рио-де-Жанейро
Набор данных сегментации фазы жестов	Фрагменты, извлеченные из видео людей, делающих различные жесты.	Извлеченные особенности направлены на изучение сегментации фаз жестов.	9900	Текст	Классификация, кластеризация	2014	^[164]^[165]	Р. Мадео и
Набор данных о физическом воздействии Vicon	10 нормальных и 10 агрессивных физических действий, измеряющих активность человека, отслеживаемых 3D-трекером.	Многие параметры фиксируются 3D трекером.	3000	Текст	Классификация	2011	^[166]^[167]	Т. Теодоридис
Набор данных о ежедневных и спортивных мероприятиях	Данные датчика моторики для 19 ежедневных и спортивных занятий.	Имеется множество датчиков, предварительная обработка сигналов не производится.	9120	Текст	Классификация	2013	^[168]^[169]	Б. Баршан и др.
Распознавание человеческой деятельности с использованием набора данных смартфонов	Данные гироскопа и акселерометра людей, носящих смартфоны и выполняющих обычные действия.	Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет шума.	10,299	Текст	Классификация	2012	^[170]^[171]	Дж. Рейес-Ортис и др.
Знаки австралийского языка жестов	Знаки австралийского языка жестов, снятые с помощью перчаток, отслеживающих движение.	Никто.	2565	Текст	Классификация	2002	^[172]^[173]	М. Кадус
Упражнения по поднятию тяжестей контролируются с помощью инерционных измерительных приборов	Пять вариантов упражнения на сгибание рук на бицепс, контролируемые с помощью IMU.	Некоторые статистические данные рассчитаны на основе необработанных данных.	39,242	Текст	Классификация	2013	^[174]^[175]	В. Угулино и др.
sEMG для базовых движений рук. Набор данных	Две базы данных поверхностных электромиографических сигналов 6 движений руки.	Никто.	3000	Текст	Классификация	2014	^[176]^[177]	К. Сапсанис и др.
Набор данных распознавания действий REALDISP	Оценить методы борьбы с эффектами смещения датчиков при распознавании активности носимых устройств.	Никто.	1419	Текст	Классификация	2014	^[177]^[178]	О. Банос и др.
Набор данных для распознавания гетерогенной активности	Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия.	Никто.	43,930,257	Текст	Классификация, кластеризация	2015	^[179]^[180]	А. Стисен и др.
Прогноз движения пользователей внутри помещений на основе данных RSS	Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе.	Никто.	13,197	Текст	Классификация	2016	^[181]^[182]	Д. Баччу
Набор данных мониторинга физической активности PAMAP2	18 различных видов физической активности, выполняемых 9 субъектами, носящими 3 ИДУ.	Никто.	3,850,505	Текст	Классификация	2012	^[183]	А. Рейсс
Набор данных для распознавания активности ВОЗМОЖНОСТИ	Распознавание человеческой деятельности с помощью носимых датчиков, датчиков предметов и окружающей среды — это набор данных, разработанный для сравнения алгоритмов распознавания человеческой деятельности.	Никто.	2551	Текст	Классификация	2012	^[184]^[185]	Д. Рогген и др.
Набор данных для распознавания действий в реальном мире	Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков.	Никто.	3 150 000 (на датчик)	Текст	Классификация	2016	^[186]	Т. Штайлер и др.
Набор данных позы после инсульта в Реабилитационном центре Торонто	3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с использованием робота для реабилитации после инсульта.	Никто.	10 здоровых и 9 перенесших инсульт (3500–6000 кадров на человека)	CSV-файл	Классификация	2017	^[187]^[188]^[189]	Э. Долатабади и др.
Корпус социальных контактов (CoST)	7805 снимков 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежном, нормальном и грубом, на сетке датчика давления, обернутой вокруг руки манекена.	Выполняемые сенсорные жесты сегментируются и помечаются.	7805 захватов жестов	CSV-файл	Классификация	2016	^[190]^[191]	М. Юнг и др.

Другие сигналы

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных вина	Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов.	Приведены 13 свойств каждого вина.	178	Текст	Классификация, регрессия	1991	^[192]^[193]	М. Форина и др.
Набор данных электростанции комбинированного цикла	Данные от различных датчиков на электростанции, работающей в течение 6 лет.	Никто	9568	Текст	Регрессия	2014	^[194]^[195]	П. Туфекчи и др.

Физические данные

Наборы данных из физических систем.

Физика высоких энергий

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных ХИГГС	Моделирование столкновений ускорителей частиц методом Монте-Карло.	Приведены 28 особенностей каждого столкновения.	11М	Текст	Классификация	2014	^[196]^[197]^[198]	Д. Уайтсон
Набор данных HEPMASS	Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель — отделить сигнал от шума.	Приведены 28 особенностей каждого столкновения.	10,500,000	Текст	Классификация	2016	^[197]^[198]^[199]	Д. Уайтсон

Системы

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных по гидродинамике яхты	Производительность яхты в зависимости от размеров.	Для каждой яхты дано шесть характеристик.	308	Текст	Регрессия	2013	^[200]^[201]	Р. Лопес
Набор данных о сбоях выполнения робота	5 наборов данных, которые сосредоточены на неспособности роботов выполнять стандартные задачи.	Целочисленные функции, такие как крутящий момент и другие измерения датчика.	463	Текст	Классификация	1999	^[202]	Л. Сибра и др.
Набор данных Питтсбургских мостов	Описание конструкции дано с точки зрения нескольких свойств различных мостов.	Приведены различные характеристики моста.	108	Текст	Классификация	1990	^[203]^[204]	Ю. Райх и др.
Набор автомобильных данных	Данные об автомобилях, их страховом риске и нормированных убытках.	Извлечены характеристики автомобиля.	205	Текст	Регрессия	1987	^[205]^[206]	Дж. Шиммер и др.
Набор данных Auto MPG	Данные MPG для автомобилей.	Приведены восемь особенностей каждого автомобиля.	398	Текст	Регрессия	1993	^[207]	Университет Карнеги-Меллона
Набор данных по энергоэффективности	Требования к отоплению и охлаждению указаны в зависимости от параметров здания.	Указаны параметры здания.	768	Текст	Классификация, регрессия	2012	^[208]^[209]	А. Ксифара и др.
Набор данных собственного шума профиля	Серия аэродинамических и акустических испытаний двух и трехмерных секций лопастей аэродинамического профиля.	Приводятся данные о частоте, угле атаки и т.д.	1503	Текст	Регрессия	2014	^[210]	Р. Лопес
Набор данных об уплотнительных кольцах космического корабля Challenger USA	Попытайтесь спрогнозировать проблемы с уплотнительными кольцами, учитывая прошлые данные Challenger.	Приведены некоторые характеристики каждого полета, например, температура запуска.	23	Текст	Регрессия	1993	^[211]^[212]	Д. Дрейпер и др.
Набор данных журнала статистики (Шаттл)	Наборы данных космического корабля НАСА.	Даны девять функций.	58,000	Текст	Классификация	2002	^[213]	НАСА

Астрономия

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Вулканы на Венере - набор данных эксперимента JARtool	Изображения Венеры, полученные космическим кораблем Магеллан.	Изображения маркируются людьми.	не дано	Изображения	Классификация	1991	^[214]^[215]	М. Берл
Набор данных гамма-телескопа MAGIC	Монте-Карло генерировал события с гамма-частицами высоких энергий.	Многочисленные функции, извлеченные из моделирования.	19,020	Текст	Классификация	2007	^[215]^[216]	Р. Бок
Набор данных о солнечных вспышках	Измерения количества определенных типов солнечных вспышек, происходящих за 24 часа.	Приведены многие особенности солнечных вспышек.	1389	Текст	Регрессия, классификация	1989	^[217]	Дж. Брэдшоу
Многополевой набор данных CAMELS	2D-карты и 3D-сетки на основе тысяч N-тел и современного гидродинамического моделирования, охватывающего широкий диапазон значений космологических и астрофизических параметров.	С каждой картой и сеткой связано 6 космологических и астрофизических параметров.	405 000 2D-карт и 405 000 3D-сеток	2D-карты и 3D-сетки	Регрессия	2021	^[218]	Франсиско Вильяескуза-Наварро и др.

Науки о Земле

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Вулканы мира	Данные об извержениях вулканов для всех известных вулканических событий на Земле.	Приводятся такие подробности, как регион, субрегион, тектоническая обстановка, доминирующий тип горных пород.	1535	Текст	Регрессия, классификация	2013	^[219]	Э. Венцке и др.
Набор данных сейсмических ударов	Сейсмическая активность на угольной шахте.	Сейсмическая активность классифицировалась как опасная или нет.	2584	Текст	Классификация	2013	^[220]^[221]	М. Сикора и др.
ВЕРБЛЮДЫ - США	Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами	см. ссылку	671	CSV, текст, шейп-файл	Регрессия	2017	^[222]^[223]	Н. Аддор и др. / А. Ньюман и др.
ВЕРБЛЮДЫ-Чили	Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами	см. ссылку	516	CSV, текст, шейп-файл	Регрессия	2018	^[224]	К. Альварес-Гарретон и др.
ВЕРБЛЮДЫ-Бразилия	Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами	см. ссылку	897	CSV, текст, шейп-файл	Регрессия	2020	^[225]	V. Chagas et al.
ВЕРБЛЮДЫ-ГБ	Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами	см. ссылку	671	CSV, текст, шейп-файл	Регрессия	2020	^[226]	Г. Коксон и др.
ВЕРблюды-Австралия	Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами	см. ссылку	222	CSV, текст, шейп-файл	Регрессия	2021	^[227]	К. Фаулер и др.
OldH -CE	Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами	см. ссылку	859	CSV, текст, шейп-файл	Регрессия	2021	^[228]	К. Клинглер и др.

Другие физические

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных по прочности бетона на сжатие	Набор данных о свойствах бетона и прочности на сжатие.	Для каждого образца дано девять признаков.	1030	Текст	Регрессия	2007	^[229]^[230]	Я. Да
Набор данных для испытаний на осадку бетона	Текучесть осадка бетона, заданная с точки зрения свойств.	Приведены характеристики бетона, такие как летучая зола, вода и т. д.	103	Текст	Регрессия	2009	^[231]^[232]	Я. Да
Набор данных Маска	Предскажите, будет ли молекула, учитывая ее характеристики, мускусной или немускусной.	Для каждой молекулы дано 168 признаков.	6598	Текст	Классификация	1994	^[233]	Аррис Фармасьютикал Корп.
Набор данных о повреждениях стальных пластин	Стальные пластины 7 разных видов.	Для каждого образца дано 27 признаков.	1941	Текст	Классификация	2010	^[234]	Семенионовский научный центр
Наборы данных по монометаллическим наночастицам благородных металлов	Особенности переработки и строения монометаллических наночастиц, метки – энергия образования.	Для каждого образца дано 85-182 признака.	от 425 до 4000	CSV-файл	Регрессия	2017–2023 гг.	^[235]^[236]^[237]^[238]^[239]^[240]	А. Барнард и Г. Оплетал
Наборы данных по биметаллическим наночастицам благородных металлов	Особенности переработки и строения биметаллических наночастиц, метки – энергия образования.	Для каждого образца дано 922 признака.	с 138147 по 162770	CSV-файл	Регрессия	2023	^[241]^[242]^[243]^[244]^[245]^[246]^[247]^[248]^[249]^[250]^[251]^[252]	Дж. Тинг и др.
Набор данных по триметаллическим наночастицам AuPdPt	Технологические и структурные особенности наночастиц AuPdPt, меткой является энергия образования.	Для каждого образца дано 1958 характеристик.	48136	CSV-файл	Регрессия	2023	^[253]	К. Лу и др.

Биологические данные

Наборы данных из биологических систем.

Человек

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных о возрасте	Структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей. Общественное достояние.	Пятиэтапный метод определения года рождения и смерти, пола и рода занятий на основе данных, предоставленных сообществом во всех языковых версиях проекта Википедии.	1,223,009	Текст	Регрессия, Классификация	2022	Бумага ^[254] Набор данных ^[255]	Амораднежад и др.
Синтетический набор данных глазного дна ^[256]	Фотореалистичные изображения сетчатки и сегментация сосудов. Общественное достояние.	2500 изображений размером 1500*1152 пикселей, полезных для сегментации и классификации вен и артерий на одном фоне.	2500	Изображения	Классификация, Сегментация	2020	^[257]	К. Валенти и др.
База данных ЭЭГ	Исследование по изучению ЭЭГ-коррелятов генетической предрасположенности к алкоголизму.	Измерения с 64 электродов, помещенных на кожу головы, производились при частоте 256 Гц (период 3,9 мс) в течение 1 секунды.	122	Текст	Классификация	1999	^[258]	Х. Компаньон
Набор данных интерфейса P300	Данные девяти субъектов собраны с использованием интерфейса «мозг-компьютер» на базе P300 для людей с ограниченными возможностями.	Разделить на четыре занятия по каждому предмету. MATLAB Дан код .	1,224	Текст	Классификация	2008	^[259]^[260]	У. Хоффман и др.
Набор данных о сердечных заболеваниях	Приписывается больным с сердечно-сосудистыми заболеваниями и без них.	Для каждого пациента задано 75 атрибутов с некоторыми пропущенными значениями.	303	Текст	Классификация	1988	^[261]^[262]	А. Янози и др.
Набор данных рака молочной железы, Висконсин (диагностика)	Набор данных особенностей образований молочной железы. Диагнозы ставит врач.	Приведено по 10 признаков для каждого образца.	569	Текст	Классификация	1995	^[263]^[264]	В. Вольберг и др.
Национальное исследование по употреблению наркотиков и здоровью	Крупномасштабное исследование здоровья и употребления наркотиков в США.	Никто.	55,268	Текст	Классификация, регрессия	2012	^[265]	Министерство здравоохранения и социальных служб США
Набор данных рака легких	Набор данных о раке легких без определений атрибутов	Для каждого случая дано 56 функций	32	Текст	Классификация	1992	^[266]^[267]	З. Хонг и др.
Набор данных об аритмии	Данные для группы пациентов, из которых у части пациентов имеется сердечная аритмия.	276 функций для каждого экземпляра.	452	Текст	Классификация	1998	^[268]^[269]	Х. Алтай и др.
Диабет 130 больниц США за 1999–2008 гг. Набор данных	Данные о повторной госпитализации пациентов с диабетом за 9 лет в 130 больницах США.	Приведены многие особенности каждой реадмиссии.	100,000	Текст	Классификация, кластеризация	2014	^[270]^[271]	Дж. Клор и др.
Набор данных о диабетической ретинопатии в Дебрецене	Особенности, извлеченные из изображений глаз с диабетической ретинопатией и без нее.	Извлечены особенности и диагностированы состояния.	1151	Текст	Классификация	2014	^[272]^[273]	Б. Антал и др.
Набор данных Мессидора о диабетической ретинопатии	Методы оценки методов сегментации и индексации в области офтальмологии сетчатки (MESSIDOR)	Особенности степени ретинопатии и риска макулярного отека	1200	Изображения, Текст	Классификация, Сегментация	2008	^[274]^[275]	Проект Мессидор
Набор данных о заболеваниях печени	Данные для людей с заболеваниями печени.	Семь биологических особенностей приведены для каждого пациента.	345	Текст	Классификация	1990	^[276]^[277]	Бупа Медицинские Исследования Лтд.
Набор данных о заболеваниях щитовидной железы	10 баз данных данных пациентов с заболеваниями щитовидной железы.	Никто.	7200	Текст	Классификация	1987	^[278]^[279]	Р. Куинлан
Набор данных мезотелиомы	Данные пациентов с мезотелиомой.	Приведено большое количество особенностей, в том числе воздействие асбеста.	324	Текст	Классификация	2016	^[280]^[281]	А. Танрикулу и др.
Набор данных для оценки позы Паркинсона на основе зрения	2D-оценка человеческой позы пациентов с болезнью Паркинсона, выполняющих различные задачи.	На траекториях убрано дрожание камеры.	134	Текст	Классификация, регрессия	2017	^[282]^[283]^[284]	М. Ли и др.
Набор данных сети метаболических реакций KEGG (ненаправленный)	Сеть метаболических путей. реакционная сеть и сеть отношений Даны .	Приведены подробные характеристики каждого сетевого узла и пути.	65,554	Текст	Классификация, кластеризация, регрессия	2011	^[285]	М. Наим и др.
Модифицированный набор данных анализа морфологии спермы человека (MHSMA)	Изображения спермы человека от 235 пациентов с мужским фактором бесплодия, с маркировкой нормальных или аномальных акросом, головки, вакуоли и хвоста сперматозоида.	Обрезано вокруг одиночной головки сперматозоида. Увеличение нормализовалось. Созданы разделения обучающего, валидационного и тестового наборов.	1,540	.npy-файлы	Классификация	2019	^[286]^[287]	С. Джавади и С. А. Миррошандель

Животное

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных морского ушка	Физические измерения морского ушка. Также указаны погодные условия и местоположение.	Никто.	4177	Текст	Регрессия	1995	^[288]	Лаборатории морских исследований - Таруна
Набор данных зоопарка	Набор искусственных данных, охватывающий 7 классов животных.	Животные разделены на 7 категорий и для каждой указаны особенности.	101	Текст	Классификация	1990	^[289]	Р. Форсайт
Набор данных демоспонгий	Данные о морских губках.	503 губки класса Demosponge характеризуются различными признаками.	503	Текст	Классификация	2010	^[290]	Э. Арменгол и др.
Данные о сельскохозяйственных животных	Инвентаризация данных PLF (коровы, свиньи; местоположение, ускорение и т. д.).	Маркированные наборы данных.	Список постоянно обновляется	Текст	Классификация	2020	^[291]	В. Блох
Набор данных последовательностей генов сплайс-соединения	Последовательности генов сплайсинга (ДНК) приматов и связанная с ними теория несовершенных доменов.	Никто.	3190	Текст	Классификация	1992	^[267]	Г. Тоуэлл и др.
Набор данных по экспрессии белков мышей	Уровни экспрессии 77 белков измерены в коре головного мозга мышей.	Никто.	1080	Текст	Классификация, кластеризация	2015	^[292]^[293]	К. Хигера и др.

Грибы

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных грибов UCI	Признаки и классификация грибов.	Приведены многие свойства каждого гриба.	8124	Текст	Классификация	1987	^[294]	Дж. Хуже
Вторичный набор данных о грибах	Атрибуты и классификация грибов	Смоделированные данные из более крупных и реалистичных первичных записей о грибах. Полностью воспроизводимый.	61069	Текст	Классификация	2020	^[295]^[296]	Д. Вагнер и др.

Растение

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных о лесных пожарах	Лесные пожары и их свойства.	Выделено 13 особенностей каждого пожара.	517	Текст	Регрессия	2008	^[297]^[298]	П. Кортес и др.
Набор данных Ирис	Три типа ирисов описываются четырьмя разными признаками.	Никто.	150	Текст	Классификация	1936	^[299]^[300]	Р. Фишер
Набор данных о листьях видов растений	Шестнадцать образцов листьев каждого из ста видов растений.	Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстур.	1600	Текст	Классификация	2012	^[301]^[302]	Дж. Коуп и др.
Набор данных по сое	База данных больных растений сои.	Даны 35 признаков для каждого растения. Растения разделены на 19 категорий.	307	Текст	Классификация	1988	^[303]	Р. Михальски и др.
Набор данных семян	Измерения геометрических свойств зерен трех разных сортов пшеницы.	Никто.	210	Текст	Классификация, кластеризация	2012	^[304]^[305]	Чаританович и др.
Набор данных типа обложки	Данные для прогнозирования типа лесного покрова строго на основе картографических переменных.	Даны многие географические объекты.	581,012	Текст	Классификация	1998	^[306]^[307]	Дж. Блэкард и др.
Набор данных сети передачи сигналов абсцизовой кислоты	Данные для сети сигнализации предприятия. Цель состоит в том, чтобы определить набор правил, которые управляют сетью.	Никто.	300	Текст	Причинно-следственное открытие	2008	^[308]	Дж. Дженкенс и др.
Набор данных фолио	По 20 фотографий листьев каждого из 32 видов.	Никто.	637	Изображения, текст	Классификация, кластеризация	2015	^[309]^[310]	Т. Мунисами и др.
Оксфордский набор цветочных данных	Набор данных из 17 категорий цветов.	Разделение поездов/тестов, маркированные изображения,	1360	Изображения, текст	Классификация	2006	^[311]^[312]	М. Е. Нильсбек и др.
Набор данных о саженцах растений	Набор данных из 12 категорий саженцев растений.	Маркированные изображения, сегментированные изображения,	5544	Изображения	Классификация, обнаружение	2017	^[313]	Гизельссон и др.
Фрукты-360	База данных с изображениями 131 фрукта и овоща.	100x100 пикселей, белый фон.	90483	Изображения (jpg)	Классификация	2017–2024	^[314]	Михай Олтян

Микроб

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных Эколи	Сайты локализации белков.	Приведены различные особенности мест локализации белков.	336	Текст	Классификация	1996	^[315]^[316]	К. Накаи и др.
Набор данных MicroMass	Идентификация микроорганизмов по данным масс-спектрометрии.	Различные функции масс-спектрометра.	931	Текст	Классификация	2013	^[317]^[318]	П. Маэ и др.
Набор данных о дрожжах	Прогнозы мест клеточной локализации белков.	Восемь функций даны для каждого экземпляра.	1484	Текст	Классификация	1996	^[319]^[320]	К. Накаи и др.

Открытие лекарств

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных Tox21	Прогнозирование результатов биологических анализов.	Даны химические дескрипторы молекул.	12707	Текст	Классификация	2016	^[321]	А. Майр и др.

Данные об аномалиях

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Тест нумента-аномалий (NAB)	Данные представляют собой упорядоченные однозначные метрики с отметкой времени. Все файлы данных содержат аномалии, если не указано иное.	Никто	50+ файлов	CSV-файл	Обнаружение аномалий	2016 (постоянно обновляется)	^[322]	Имя
Сколтехский тест аномалий (SKAB)	Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде.	Существует две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменений (коллективные аномалии).	30+ файлов (v0.9)	CSV-файл	Обнаружение аномалий	2020 (постоянно обновляется)	^[323]^[324]	Кацер Юрий Дмитриевич и Козицын Вячеслав Олегович
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование	Большинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые взяты из литературы.	обрабатывается на предмет пропущенных значений, только числовые атрибуты, различный процент аномалий, метки	1000+ файлов	АРФФ	Обнаружение аномалий	2016 г. (возможно, дополнено новыми наборами данных и/или результатами)	^[325]	Кампос и др.

Данные для ответов на вопросы

В этот раздел включены наборы данных, посвященные структурированным данным.

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных нейронных ответов на вопросы DBpedia (DBNQA)	Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронной сети открытого домена в базе знаний DBpedia.	Этот набор данных содержит большую коллекцию шаблонов Open Neural SPARQL и экземпляров для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотирования, а также тремя экспертами SPARQL.	894,499	Пары вопрос-запрос	Вопрос Ответ	2018	^[326]^[327]	Хартманн, Сору и Маркс и др.
Набор данных для ответов на вьетнамские вопросы (UIT-ViQuAD)	Большая коллекция вопросов на вьетнамском языке для оценки моделей MRC.	Этот набор данных включает более 23 000 пар вопросов и ответов, созданных человеком, на основе 5 109 отрывков из 174 вьетнамских статей из Википедии.	23,074	Пары вопрос-ответ	Вопрос Ответ	2020	^[328]	Нгуен и др.
Вьетнамский корпус машинного чтения с множественным выбором (ViMMRC)	Сборник вопросов с несколькими вариантами ответов на вьетнамском языке для оценки моделей MRC.	Этот корпус включает 2783 вопроса на вьетнамском языке с несколькими вариантами ответов.	2,783	Пары вопрос-ответ	Ответы на вопросы/понимание машинного чтения	2020	^[329]	Нгуен и др.
Ответы на открытые вопросы становятся диалоговыми благодаря переписыванию вопросов	Сквозной ответ на открытый вопрос.	Этот набор данных включает 14 000 разговоров с 81 000 парами вопросов и ответов.		Контекст, Вопрос, Переписать, Ответ, URL_ответа, Номер_разговора, Номер_поворота, Источник_разговора Более подробная информация представлена в репозитории проекта на GitHub и в соответствующей карточке набора данных Hugging Face .	Вопрос Ответ	2021	^[330]	Ананта и Вакуленко и др.
Унифицированный контроль качества	Данные вопросов-ответов	Обработанный набор данных			Вопрос Ответ	2020	^[331]	Хашаби и др.

Данные диалога или инструкции

В этом разделе представлены наборы данных, которые...

Имя набора данных	Краткое описание	Предварительная обработка	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Надсмотрщик	«Корпус Taskmaster состоит из ТРЕХ наборов данных: Taskmaster-1 (TM-1), Taskmaster-2 (TM-2) и Taskmaster-3 (TM-3), включающих более 55 000 устных и письменных диалогов, ориентированных на задачи, в более чем дюжину доменов». ^[332]	Надсмотрщик-1: целенаправленный разговорный набор данных. Он включает в себя 13 215 диалогов на основе задач, состоящих из шести доменов. Taskmaster-2: 17 289 диалогов в семи доменах (рестораны, заказ еды, кино, отели, авиабилеты, музыка и спорт). Надсмотрщик-3: 23 757 диалогов с билетами в кино.	Надсмотрщик-1 и Надсмотрщик-2: идентификатор разговора, высказывания, идентификатор инструкции Надсмотрщик-3: идентификатор разговора, высказывания, вертикаль, сценарий, инструкции. Для получения более подробной информации проверьте репозиторий проекта на GitHub или карточки набора данных Hugging Face ( Taskmaster-1 , Taskmaster-2 , Taskmaster-3 ).	Диалоговое окно/инструкция	2019	^[333]	Бирн и Кришнамурти и др.
DrRepair	Размеченный набор данных для программного восстановления.	Предварительно обработанные данные	Подробные сведения о формате см. на листе проекта .	Диалоговое окно/инструкция	2020	^[334]	Мичихиро и др.
Естественные инструкции v2	Большой набор данных, охватывающий более широкий спектр способностей к рассуждению.		Каждая задача состоит из ввода/вывода и определения задачи. Кроме того, каждый запрос содержит определение задачи. Дополнительная информация представлена в GitHub репозитории проекта на и на карточке данных Hugging Face .	Ввод/вывод и определение задачи	2022	^[335]	Ван и др.
ЛАМБАДА	«ЛАМБАДА — это совокупность повествовательных отрывков, обладающая тем свойством, что испытуемые-люди способны угадать свое последнее слово, если они прочитают весь отрывок, а не если они увидят только последнее предложение, предшествующее целевому слову». ^[336]		Информация о формате этого набора данных доступна в карточке набора данных HuggingFace и на сайте проекта . Набор данных можно скачать здесь , а отклоненные данные — здесь .		2016	^[337]	Паперно и др.
ФЛАН		Повторно обработанная версия набора данных FLAN с обновлениями с момента выпуска исходного набора данных FLAN доступна в Hugging Face : данные испытаний данные поезда данные проверки Скрипты для обработки данных доступны в репозитории GitHub, упомянутом в документе: https://github.com/google-research/FLAN/tree/main/flan . еще один репозиторий FLAN на GitHub Также был создан . Это та карта, которая связана с карточкой набора данных в Hugging Face.			2021	^[338]	Вэй и др.

Кибербезопасность

Имя набора данных	Краткое описание	Предварительная обработка	Формат	Ссылка	Создатель
МИТРА АТАКА	ATT&CK — это глобально доступная база знаний о тактике и методах противника.		Данные можно загрузить из двух репозиториев GitHub: версии 2.1 и версии 2.0.	^[339]	МИТРА АТАКА
ЦАТЭК	Перечень и классификация распространенных шаблонов атак		Данные можно скачать с сайта CAPEC : Механизмы атаки Области атаки	^[340]	ЦАТЭК
CVE	CVE — это список публично раскрытых уязвимостей кибербезопасности, который можно бесплатно искать, использовать и включать в продукты и услуги.		Данные можно скачать с: Allitems	^[341]	CVE
КВЕ	Данные перечисления общих слабостей.		Данные можно скачать с: Разработка программного обеспечения Проектирование оборудования ^{[ постоянная мертвая ссылка ]}Концепции исследования	^[342]	КВЕ
MalwareTextDB	Аннотированная база данных текстов вредоносного ПО.		Репозиторий проекта на GitHub содержит данные для загрузки.	^[343]	Киат и др.
Материалы симпозиума USENIX по безопасности	Сборник материалов по безопасности симпозиума USENIX по безопасности - технических сессий с 1995 по 2022 год.	Эти данные не подвергаются предварительной обработке.	1995 , 1996 , 1997 , 1998 , 1999 , 2000 , 2001 , 2002 , 2003 , 2004 , 2005 , 2006 , 2007 , 2008 , 2009 , 2010 2011 , 2012 , 2013 , 2014 , 2015 , 2016 , 2017 , 2018 , 2019 , 2020 , 2021 , 2022 .	^[344]	Симпозиум USENIX по безопасности
APTПримечания	Сборник общедоступных документов, технических документов и статей о кампаниях APT. Все документы являются общедоступными данными.	Эти данные не подвергаются предварительной обработке.	В GitHub репозитории проекта на есть файл со ссылками на данные, хранящиеся в box. Файлы данных также можно скачать здесь .	^[345]	Примечания к APT
Документы по криптографии и безопасности arXiv	Сборник статей о кибербезопасности	Эти данные не подвергаются предварительной обработке.	Все статьи доступны здесь .	^[346]	arXiv
Электронные книги по безопасности бесплатно	Небольшая коллекция электронных книг по безопасности и общедоступных презентаций по безопасности.	Эти данные не подвергаются предварительной обработке.		^[347]^[348]^[349]^[350]^[351]^[352]^[353]^[354]^[355]^[356]^[357]^[358]
Репозиторий национальной стратегии кибербезопасности	Репозиторий всемирных стратегических документов по кибербезопасности.	Эти данные не подвергаются предварительной обработке.		^[359]
Кибербезопасность Обработка естественного языка	Данные о стратегиях кибербезопасности из более чем 75 стран.	Токенизация, удаление бессмысленно-частых слов.		^[360]	Яньлинь Чен, Юньцзянь Вэй, Ифань Юй, Вэнь Сюэ, Сянья Цинь
Коллекция отчетов APT	Образцы отчетов APT, вредоносных программ, технологий и сбора разведывательной информации	Доступны необработанные и токенизированные данные.	Все данные доступны в этом репозитории GitHub .	^{[ нужна ссылка ]}	черная птица
Набор данных для идентификации оскорбительного языка (OLID)			Данные доступны на сайте проекта . Данные также доступны здесь .	^[361]	Зампьери и др.
Киберотчеты Национального центра кибербезопасности		Эти данные не подвергаются предварительной обработке.	Отчеты об угрозах , отчеты и рекомендации , новости , сообщения в блогах , выступления . Альтернативный список отчетов .	^[362]
APT-отчеты Касперского		Эти данные не подвергаются предварительной обработке.		^[363]
Киберпровод		Эти данные не подвергаются предварительной обработке.	Информационные бюллетени , подкасты и истории .	^[364]
Новости об утечках данных		Эти данные не подвергаются предварительной обработке.	Новости , список новостей с августа 2022 по февраль 2023 года.	^[365]
Киберньюс		Эти данные не подвергаются предварительной обработке.	Новости , кураторский список новостей	^[366]
Мигающийкомпьютер		Эти данные не подвергаются предварительной обработке.	Новости	^[367]
запись		Эти данные не подвергаются предварительной обработке.	Новости киберпреступности	^[368]
Взломать		Эти данные не подвергаются предварительной обработке.	Новости взлома	^[369]
Список безопасности		Эти данные не подвергаются предварительной обработке.	Отчеты APT , архив , отчеты о DDOS , инциденты , бюллетень безопасности Касперского , промышленные угрозы , отчеты о вредоносных программах , мнения , публикации , исследования и SAS .	^[370]
Лепной проект	Проект Stucco собирает данные, которые обычно не интегрируются в системы безопасности.	Эти данные не подвергаются предварительной обработке	Веб-сайт проекта с информацией о данных. Проверенный источник со ссылками на источники данных.	^[371]
Фарсайтбезопасность	Веб-сайт с технической информацией, отчетами и многим другим по темам безопасности.	Эти данные не подвергаются предварительной обработке	Техническая информация , исследования , отчеты .	^[372]
Шнайер	Веб-сайт с научными статьями по темам безопасности.	Эти данные не подвергаются предварительной обработке	Статьи по категориям , архив статей по дате .	^[373]
Трендмикро	Веб-сайт с исследованиями, новостями и взглядами на темы безопасности.	Эти данные не подвергаются предварительной обработке	Обзорный список исследований, новостей и перспектив Trendmicro .	^[374]
Хакерские новости	Новости на тему кибербезопасности.	Эти данные не подвергаются предварительной обработке	утечки данных , кибератаки , уязвимости , новости о вредоносном ПО .	^[375]
Кребсонбезопасность	Новости безопасности и расследования	Эти данные не подвергаются предварительной обработке	тщательно подобранный список новостей	^[376]
Митра Защитить	Матрица защитных артефактов		JSON-файлы	^[377]
Митра Атлас	Mitre Atlas — это база знаний о тактиках, методах противодействия и тематических исследованиях для систем машинного обучения (ML), основанная на реальных наблюдениях.	Эти данные не подвергаются предварительной обработке		^[378]
Митра Энгейдж	MITRE Engage — это платформа для планирования и обсуждения операций по взаимодействию с противниками, которая позволяет вам взаимодействовать с противниками и достигать своих целей в области кибербезопасности.	Эти данные не подвергаются предварительной обработке		^[379]
Учебники по взлому		Эти данные не подвергаются предварительной обработке		^[380]

Климат и устойчивость

Имя набора данных	Краткое описание	Предварительная обработка	Формат	Ссылка	Создатель
Отчеты TCFD	База данных отчетов компаний, включающих раскрытие информации, связанной с TCFD.	Эти данные не подвергаются предварительной обработке	Прямая ссылка на отчеты Кураторский список отчетов	^[381]	Центр знаний TCFD
Отчеты о корпоративной социальной ответственности	Список отчетов об ответственности в Интернете.	Эти данные не подвергаются предварительной обработке	Кураторский список отчетов	^[382]	ОтветственностьОтчеты
Межправительственная группа экспертов по изменению климата (МГЭИК)	Сборник комплексных отчетов об оценке знаний об изменении климата, его причинах, потенциальных последствиях и вариантах реагирования.	Эти данные не подвергаются предварительной обработке	Отчеты Кураторский список отчетов	^[383]	МГЭИК
Альянс исследований корпоративной устойчивости		Эти данные не подвергаются предварительной обработке	Кураторский список сообщений в блоге	^[384]	АРКС
Корпус ESG: Центр знаний по учету устойчивого развития		Эти данные не подвергаются предварительной обработке	Руководства , тематические исследования , блоги , отчеты и опросы .	^[385]	Мехра и др.
КЛИМАТ-ЛИХОРАДКА	Набор данных, основанный на методологии FEVER, состоящий из 1535 реальных утверждений об изменении климата, собранных в Интернете.	Каждое утверждение сопровождается пятью аннотированными вручную предложениями-доказательствами, полученными из английской Википедии, которые подтверждают, опровергают или не дают достаточно информации для подтверждения утверждения, в общей сложности состоящего из 7675 пар утверждение-доказательство. ^[386]	Карта набора данных HF проекта на , и репозиторий GitHub .	^[387]	Диггельманн и др.
Набор данных «Климатические новости»	Набор данных для исследователей НЛП и СМИ, посвященных изменению климата.	Набор данных состоит из ряда артефактов данных (текстовые файлы JSON, JSONL и CSV и база данных SQLite).	База данных климатических новостей проекта на GitHub , репозиторий	^[388]	ADGEэффективность
Климаттекст	Climatext — это набор данных для определения тем, связанных с изменением климата, на основе предложений.		набор ВЧ-данных	^[389]	Университет Цюриха
ГринБиз	Сборник статей и новостей о климате и устойчивом развитии	Эти данные не подвергаются предварительной обработке	Кураторский список статей о климате Кураторский список статей об устойчивом развитии	^[390]
Лучшие препринты исследований в области климата и устойчивого развития	Список препринтов исследователей в горячем списке Reuters	Эти данные не подвергаются предварительной обработке	Кураторский список препринтов	^[391]	Морис Тамман
АРКС		Эти данные не подвергаются предварительной обработке	Кураторский список блогов о корпоративном устойчивом развитии	^[392]
ГринБиз	Веб-сайт со статьями о климате и устойчивом развитии	Эти данные не подвергаются предварительной обработке		^[393]	ГринБиз
CSRWIRE		Эти данные не подвергаются предварительной обработке	Кураторский список статей	^[394]	CSRWIRE
CDP	Статьи о климате , воде и лесах	Эти данные не подвергаются предварительной обработке		^[395]	CDP

Данные кода

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Стек	Набор данных объемом 3,1 ТБ, состоящий из лицензированного исходного кода на 30 языках программирования.	Фильтруется посредством обнаружения лицензий и дедупликации.	6 ТБ, 51,76 МБ файлов (до дедупликации); 3 ТБ, файлы 5,28Б (после). 358 языков программирования.	Паркет	Языковое моделирование, автодополнение, синтез программ.	2022	^[396]^[397]	Д. Кочетков, Р. Ли, Л. Бен Аллаль, Л. фон Верра, Х. де Врис
Репозитории GitHub		Эти данные не подвергаются предварительной обработке		Кураторский список репозиториев с GitHub : 61 62 , 63 64 , 68 , 69 , 70 , 71 , , 72 , , 65 66, 67 , , 73 , 74 , 75, 76 , 77 101.
Публичные репозитории IBM на GitHub		Эти данные не подвергаются предварительной обработке		Кураторский список репозиториев с GitHub.
Публичные репозитории RedHat на GitHub		Эти данные не подвергаются предварительной обработке		Кураторский список репозиториев с GitHub.
Файлы Public Archive.org StackExchange		Эти данные не подвергаются предварительной обработке		Кураторский список файлов с Archive.org.
Публичные репозитории Gitlab		Эти данные не подвергаются предварительной обработке		Кураторский список репозиториев Gitlab : 1 2
Публичные репозитории Ansible Collections		Эти данные не подвергаются предварительной обработке		Кураторский список репозиториев с GitHub .
Набор данных кода CodeParrot GitHub		Эти данные не подвергаются предварительной обработке		Кураторский список репозиториев Hugging Face : 1 2 3 4 5 6 7 8 9 10
ОКД	Распространение Kubernetes от сообщества, лежащее в основе Red Hat OpenShift	Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Опеншифт	Дистрибутив Kubernetes, удобный для разработчиков и эксплуатации.			Список репозиториев проекта на GitHub
Кубернетес		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Разработчик Red Hat	GitHub — главная страница программы Red Hat Developer.	Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Красная шляпа Мастер-классы		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Kubernetes SIG		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Конвейер		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Торговая площадка RedHat		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Блог Redhat		Эти данные не подвергаются предварительной обработке					^[398]
Кубернетес ио		Эти данные не подвергаются предварительной обработке					^[399]
Документы		Эти данные не подвергаются предварительной обработке					^[400]
cncf я		Эти данные не подвергаются предварительной обработке					^[401]
Презентации Кубернетеса	Список общедоступных презентаций Kubernetes	Эти данные не подвергаются предварительной обработке		канал передачи данных
Лаборатории открытых инноваций Red Hat		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Демонстрации Red Hat		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Red Hat OpenShift онлайн		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Коллекции программного обеспечения		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Красная шляпа		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Правительство Красной Шляпы		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Ред Хэт Консалтинг		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Сообщества практиков Red Hat		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Партнер Red Hat Tech		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Документация Red Hat		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
ИБМ		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
IBM Облако		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Команда создания лаборатории		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Терраформировать IBM-модули		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Облачные схемы		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Демонстрации мощности OCP		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Модернизация приложений IBM		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Kubernetes OperationHub		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Фонд облачных вычислений (CNCF)		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Структура оператора		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub			^[402]
Репозитории GitHub, на которые есть ссылки в Artehub.io.		Эти данные не подвергаются предварительной обработке		Список репозиториев GitHub в Artehub.io
Сообщества практиков Red Hat		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Партнер Red Hat		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Репозитории IBM		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Команда создания лаборатории		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Структура оператора		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Репозитории GitHub		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Красная шляпа		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Шаблоны Кубернетеса		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Шаблоны развертывания и безопасности Kubernetes		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Kubernetes для Full-Stack разработчиков		Эти данные не подвергаются предварительной обработке		Список репозиториев проекта на GitHub
Метрики балансировщика нагрузки Cloudwatch		Эти данные не подвергаются предварительной обработке		GitHub репозиторий проекта
Дайнатрейс		Эти данные не подвергаются предварительной обработке		[5]
Данные AIOps Challenge 2020		Эти данные не подвергаются предварительной обработке		GitHub репозиторий проекта
Логхаб		Эти данные не подвергаются предварительной обработке		Список репозиториев
HTML-страницы		Эти данные не подвергаются предварительной обработке		Список HTML-страниц
Электронные книги Opensift		Эти данные не подвергаются предварительной обработке					^[403]
Электронные книги по Кубернетесу		Эти данные не подвергаются предварительной обработке		Шаблоны Kubernetes , Развертывание Kubernetes , Kubernetes для разработчиков полного стека
Kubernetes для Full-Stack разработчиков		Эти данные не подвергаются предварительной обработке		Kubernetes для Full-Stack разработчиков
Список публичных и лицензированных репозиториев Github		Эти данные не подвергаются предварительной обработке		Список репозиториев

Многомерные данные

Финансовый

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Индекс Доу-Джонса	Еженедельные данные по акциям за первый и второй кварталы 2011 года.	В расчет включены такие значения, как процентное изменение и лаги.	750	Значения, разделенные запятыми	Классификация, регрессия, временные ряды	2014	^[404]^[405]	М. Браун и др.
Statlog (австралийское одобрение кредита)	Заявки на получение кредитной карты принимаются или отклоняются, а также сведения о заявке.	Имена атрибутов удаляются, а также идентифицирующая информация. Факторы были переименованы.	690	Значения, разделенные запятыми	Классификация	1987	^[406]^[407]	Р. Куинлан
данные аукциона eBay	Данные аукционов различных объектов eBay.com по аукционам различной продолжительности.	Содержит все ставки, идентификатор участника торгов, время ставок и цены открытия.	~ 550	Текст	Регрессия, классификация	2012	^[408]^[409]	Г. Шмуэли и др.
Статлог (кредитные данные Германии)	Классификация двоичных кредитов на «хорошие» и «плохие» со многими особенностями.	Приведены различные финансовые особенности каждого человека.	690	Текст	Классификация	1994	^[410]	Х. Хофманн
Набор данных банковского маркетинга	Данные крупной маркетинговой кампании, проведенной крупным банком.	Приводятся многие характеристики клиентов, с которыми связались. Также указывается, если клиент подписался на банк.	45,211	Текст	Классификация	2012	^[411]^[412]	С. Моро и др.
Набор данных Стамбульской фондовой биржи	Несколько фондовых индексов отслеживались в течение почти двух лет.	Никто.	536	Текст	Классификация, регрессия	2013	^[413]^[414]	О. Акбилгич
Дефолт клиентов по кредитным картам	Данные о кредитном дефолте для тайваньских кредиторов.	Приводятся различные особенности каждой учетной записи.	30,000	Текст	Классификация	2016	^[415]^[416]	Я. Да
Стокнет	Прогноз движения акций на основе твитов и исторических цен на акции	Никто		Текст	НЛП	2018	^[417]	Юмо Сюй и Шей Б. Коэн

Погода

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Облачный набор данных	Данные о 1024 различных облаках.	Извлечены особенности изображения.	1024	Текст	Классификация, кластеризация	1989	^[418]	П. Коллард
Набор данных Эль-Ниньо	Океанографические и приземные метеорологические данные, полученные с ряда буев, расположенных по всей экваториальной части Тихого океана.	На каждом буе измеряются 12 погодных атрибутов.	178080	Текст	Регрессия	1999	^[419]	Тихоокеанская лаборатория морской окружающей среды
Набор данных сети наблюдений за парниковыми газами	Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды.	Никто.	2921	Текст	Регрессия	2015	^[420]	Д. Лукас
Атмосферный CO ₂ из непрерывных проб воздуха в обсерватории Мауна-Лоа	Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов.	Никто.	44 года	Текст	Регрессия	2001	^[421]	Обсерватория горы Лоа
Набор данных ионосферы	Радиолокационные данные из ионосферы. Задача состоит в том, чтобы классифицировать радиолокационные сигналы на хорошие и плохие.	Приведены многие функции радара.	351	Текст	Классификация	1989	^[279]^[422]	Университет Джонса Хопкинса
Набор данных для определения уровня озона	Два набора данных об уровне приземного озона.	Приведено множество характеристик, включая погодные условия во время измерения.	2536	Текст	Классификация	2008	^[423]^[424]	К. Чжан и др.

Перепись

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных для взрослых	Данные переписи населения 1994 года, содержащие демографические характеристики взрослого населения и их доходы.	Очищено и анонимизировано.	48,842	Значения, разделенные запятыми	Классификация	1996	^[425]	Бюро переписи населения США
Переписной доход (KDD)	Взвешенные данные переписи населения, полученные в ходе текущих обследований населения 1994 и 1995 годов .	Разделить на обучающие и тестовые наборы.	299,285	Значения, разделенные запятыми	Классификация	2000	^[426]^[427]	Бюро переписи населения США
База данных переписи населения IPUMS	Данные переписи населения в районах Лос-Анджелеса и Лонг-Бич.	Никто	256,932	Текст	Классификация, регрессия	1999	^[428]	ИПУМС
Данные переписи населения США 1990 г.	Частичные данные переписи населения США 1990 года.	Результаты рандомизированы и выбраны полезные атрибуты.	2,458,285	Текст	Классификация, регрессия	1990	^[429]	Бюро переписи населения США

Транзит

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Bike Sharing Dataset	Hourly and daily count of rental bikes in a large city.	Many features, including weather, length of trip, etc., are given.	17,389	Text	Regression	2013	^[430]^[431]	H. Fanaee-T
New York City Taxi Trip Data	Trip data for yellow and green taxis in New York City.	Gives pick up and drop off locations, fares, and other details of trips.	6 years	Text	Classification, clustering	2015	^[432]	New York City Taxi and Limousine Commission
Taxi Service Trajectory ECML PKDD	Trajectories of all taxis in a large city.	Many features given, including start and stop points.	1,710,671	Text	Clustering, causal-discovery	2015	^[433]^[434]	M. Ferreira et al.
METR-LA	Speed from loop detectors in the highway of Los Angeles County.	Average speed in 5 minutes timesteps.	7,094,304 from 207 sensors and 34,272 timesteps	Comma separated values	Regression, Forecasting	2014	^[435]	Jagadish et al.
PeMS	Speed, flow, occupancy and other metrics from loop detectors and other sensors in the freeway of the State of California, U.S.A..	Metric usually aggregated via Average into 5 minutes timesteps.	39,000 individual detectors, each containing years of timeseries	Comma separated values	Regression, Forecasting, Nowcasting, Interpolation	(updated realtime)	^[436]	California Department of Transportation

Internet

Dataset Name	Brief description	Preprocessing	Instances	Format	Default Task	Created (updated)	Reference	Creator
Webpages from Common Crawl 2012	Large collection of webpages and how they are connected via hyperlinks	None.	3.5B	Text	clustering, classification	2013	^[437]	V. Granville
Internet Advertisements Dataset	Dataset for predicting if a given image is an advertisement or not.	Features encode geometry of ads and phrases occurring in the URL.	3279	Text	Classification	1998	^[438]^[439]	N. Kushmerick
Internet Usage Dataset	General demographics of internet users.	None.	10,104	Text	Classification, clustering	1999	^[440]	D. Cook
URL Dataset	120 days of URL data from a large conference.	Many features of each URL are given.	2,396,130	Text	Classification	2009	^[441]^[442]	J. Ma
Phishing Websites Dataset	Dataset of phishing websites.	Many features of each site are given.	2456	Text	Classification	2015	^[443]	R. Mustafa et al.
Online Retail Dataset	Online transactions for a UK online retailer.	Details of each transaction given.	541,909	Text	Classification, clustering	2015	^[444]	D. Chen
Freebase Simple Topic Dump	Freebase is an online effort to structure all human knowledge.	Topics from Freebase have been extracted.	large	Text	Classification, clustering	2011	^[445]^[446]	Freebase
Farm Ads Dataset	The text of farm ads from websites. Binary approval or disapproval by content owners is given.	SVMlight sparse vectors of text words in ads calculated.	4143	Text	Classification	2011	^[447]^[448]	C. Masterharm et al.
The Pile	Assembling several large datasets of diverse and unstructured texts	Various (removing HTML and Javascript from websites, removing duplicated sentences)	825 GiB English text	JSON Lines^[449]^[450]	Natural Language Processing, Text Prediction	2021	^[451]^[449]	Gao et al.
OSCAR	Large collection of monolingual corpora extracted from web data (Common Crawl dumps) covering 150+ languages	Various (filtering, language classification, adult-content detection and other labelling)	3.4 TB English text, 1.4 TB Chinese text, 1.1 TB Russian text, 595 MB German text, 431 MB French text, and data for 150+ languages (figures for version 23.01)	JSON Lines^[452]	Natural Language Processing, Text Prediction	2021	^[453]^[454]	Ortiz Suarez, Abadji, Sagot et al.
OpenWebText	An open-source recreation of the WebText corpus. The text is web content extracted from URLs shared on Reddit with at least three upvotes.	Extracted non-HTML content, deduplicated, and tokenized.	8,013,769 Documents, 38GB	Text	Natural Language Processing, Text Prediction	2019	^[455]^[456]	A. Gokaslan, V. Cohen
ROOTS	A well-documented and representative multilingual dataset with the explicit goal of doing good for and by the people whose data was collected.	Extracted non-HTML content, cleaned out UI and ads, deduplicated, removed PII, and tokenized.	1.6 TB, 59 languages.	Parquet	Natural Language Processing, Text Prediction	2022	^[457]^[458]	H. Laurençon, L. Saulnier, T. Wang, C. Akiki, A. Villanova del Moral, T. Le Scao

Games

Dataset Name	Brief description	Preprocessing	Instances	Format	Default Task	Created (updated)	Reference	Creator
Poker Hand Dataset	5 card hands from a standard 52 card deck.	Attributes of each hand are given, including the Poker hands formed by the cards it contains.	1,025,010	Text	Regression, classification	2007	^[459]	R. Cattral
Connect-4 Dataset	Contains all legal 8-ply positions in the game of connect-4 in which neither player has won yet, and in which the next move is not forced.	None.	67,557	Text	Classification	1995	^[460]	J. Tromp
Chess (King-Rook vs. King) Dataset	Endgame Database for White King and Rook against Black King.	None.	28,056	Text	Classification	1994	^[461]^[462]	M. Bain et al.
Chess (King-Rook vs. King-Pawn) Dataset	King+Rook versus King+Pawn on a7.	None.	3196	Text	Classification	1989	^[463]	R. Holte
Tic-Tac-Toe Endgame Dataset	Binary classification for win conditions in tic-tac-toe.	None.	958	Text	Classification	1991	^[464]	D. Aha

Other multivariate

Dataset Name	Brief description	Preprocessing	Instances	Format	Default Task	Created (updated)	Reference	Creator
Housing Data Set	Median home values of Boston with associated home and neighborhood attributes.	None.	506	Text	Regression	1993	^[465]	D. Harrison et al.
The Getty Vocabularies	structured terminology for art and other material culture, archival materials, visual surrogates, and bibliographic materials.	None.	large	Text	Classification	2015	^[466]	Getty Center
Yahoo! Front Page Today Module User Click Log	User click log for news articles displayed in the Featured Tab of the Today Module on Yahoo! Front Page.	Conjoint analysis with a bilinear model.	45,811,883 user visits	Text	Regression, clustering	2009	^[467]^[468]	Chu et al.
British Oceanographic Data Centre	Biological, chemical, physical and geophysical data for oceans. 22K variables tracked.	Various.	22K variables, many instances	Text	Regression, clustering	2015	^[469]	British Oceanographic Data Centre
Congressional Voting Records Dataset	Voting data for all USA representatives on 16 issues.	Beyond the raw voting data, various other features are provided.	435	Text	Classification	1987	^[470]	J. Schlimmer
Entree Chicago Recommendation Dataset	Record of user interactions with Entree Chicago recommendation system.	Details of each users usage of the app are recorded in detail.	50,672	Text	Regression, recommendation	2000	^[471]	R. Burke
Insurance Company Benchmark (COIL 2000)	Information on customers of an insurance company.	Many features of each customer and the services they use.	9,000	Text	Regression, classification	2000	^[472]^[473]	P. van der Putten
Nursery Dataset	Data from applicants to nursery schools.	Data about applicant's family and various other factors included.	12,960	Text	Classification	1997	^[474]^[475]	V. Rajkovic et al.
University Dataset	Data describing attributed of a large number of universities.	None.	285	Text	Clustering, classification	1988	^[476]	S. Sounders et al.
Blood Transfusion Service Center Dataset	Data from blood transfusion service center. Gives data on donors return rate, frequency, etc.	None.	748	Text	Classification	2008	^[477]^[478]	I. Yeh
Record Linkage Comparison Patterns Dataset	Large dataset of records. Task is to link relevant records together.	Blocking procedure applied to select only certain record pairs.	5,749,132	Text	Classification	2011	^[479]^[480]	University of Mainz
Nomao Dataset	Nomao collects data about places from many different sources. Task is to detect items that describe the same place.	Duplicates labeled.	34,465	Text	Classification	2012	^[481]^[482]	Nomao Labs
Movie Dataset	Data for 10,000 movies.	Several features for each movie are given.	10,000	Text	Clustering, classification	1999	^[483]	G. Wiederhold
Open University Learning Analytics Dataset	Information about students and their interactions with a virtual learning environment.	None.	~ 30,000	Text	Classification, clustering, regression	2015	^[484]^[485]	J. Kuzilek et al.
Mobile phone records	Telecommunications activity and interactions	Aggregation per geographical grid cells and every 15 minutes.	large	Text	Classification, Clustering, Regression	2015	^[486]	G. Barlacchi et al.

Curated repositories of datasets

As datasets come in myriad formats and can sometimes be difficult to use, there has been considerable work put into curating and standardizing the format of datasets to make them easier to use for machine learning research.

OpenML:^[487] Web platform with Python, R, Java, and other APIs for downloading hundreds of machine learning datasets, evaluating algorithms on datasets, and benchmarking algorithm performance against dozens of other algorithms.
PMLB:^[488] A large, curated repository of benchmark datasets for evaluating supervised machine learning algorithms. Provides classification and regression datasets in a standardized format that are accessible through a Python API.
Metatext NLP: https://metatext.io/datasets web repository maintained by community, containing nearly 1000 benchmark datasets, and counting. Provides many tasks from classification to QA, and various languages from English, Portuguese to Arabic.
Appen: Off The Shelf and Open Source Datasets hosted and maintained by the company. These biological, image, physical, question answering, signal, sound, text, and video resources number over 250 and can be applied to over 25 different use cases.^[489]^[490]

References

^ Wissner-Gross, A. "Datasets Over Algorithms". Edge.com. Retrieved 8 January 2016.
^ Weiss, G. M.; Provost, F. (1 September 2003). "Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction". Journal of Artificial Intelligence Research. 19. AI Access Foundation: 315–354. doi:10.1613/jair.1199. ISSN 1076-9757. S2CID 2344521.
^ Turney, Peter (2000). "Types of cost in inductive concept learning". arXiv:cs/0212034.
^ Abney, Steven (17 September 2007). Semisupervised Learning for Computational Linguistics. CRC Press. ISBN 978-1-4200-1080-0.
^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Active Learning with Evolving Streaming Data". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. Vol. 6913. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 597–612. doi:10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9. ISSN 0302-9743.
^ McAuley, Julian; Targett, Christopher; Shi, Qinfeng; Anton van den Hengel (2015). "Image-based Recommendations on Styles and Substitutes". arXiv:1506.04757 [cs.CV].
^ "Amazon review data". nijianmo.github.io. Retrieved 8 October 2021.
^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Information Retrieval. 15 (2): 116–150. doi:10.1007/s10791-011-9174-8. hdl:2142/15252. S2CID 16258727.
^ Lv, Yuanhua, Dimitrios Lymberopoulos, and Qiang Wu. "An exploration of ranking heuristics in mobile local search." Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012.
^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". ACM Transactions on Interactive Intelligent Systems. 5 (4): 19. doi:10.1145/2827872. S2CID 16619709.
^ Koenigstein, Noam, Gideon Dror, and Yehuda Koren. "Yahoo! music recommendations: modeling music ratings with temporal dynamics and item taxonomy." Proceedings of the fifth ACM conference on Recommender systems. ACM, 2011.
^ McFee, Brian, et al. "The million song dataset challenge." Proceedings of the 21st international conference companion on World Wide Web. ACM, 2012.
^ Bohanec, Marko, and Vladislav Rajkovic. "Knowledge acquisition and explanation for multi-attribute decision making." 8th Intl Workshop on Expert Systems and their Applications. 1988.
^ Tan, Peter J., and David L. Dowe. "MML inference of decision graphs with multi-way joins." Australian Joint Conference on Artificial Intelligence. 2002.
^ "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Retrieved 26 October 2020.
^ Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Communications in Computer and Information Science. Vol. 310. pp. 505–512. doi:10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2.
^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339.
^ Loh, Wei-Yin, and Yu-Shan Shih. "Split selection methods for classification trees." Statistica sinica(1997): 815–840.
^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Machine Learning. 40 (3): 203–228. doi:10.1023/a:1007608224229. S2CID 17030953.
^ Kiet Van Nguyen, Vu Duc Nguyen, Phu X. V. Nguyen, Tham T. H. Truong, Ngan Luu-Thuy Nguyen. "UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis
^ Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Emotion Recognition for Vietnamese Social Media Text". Computational Linguistics. Communications in Computer and Information Science. Vol. 1215. pp. 319–333. arXiv:1911.09339. doi:10.1007/978-981-15-6168-9_27. ISBN 978-981-15-6167-2. S2CID 208202333.
^ Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 April 2021). "Vietnamese Open-domain Complaint Detection in E-Commerce Websites". arXiv:2104.11969 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
^ Phu Gia Hoang, Canh Duc Luu, Khanh Quoc Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (26 January 2023). "ViHOS: Hate Speech Spans Detection for Vietnamese". arXiv:2301.10186 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). "A Joint Model for Topic-Sentiment Evolution over Time". 2014 IEEE International Conference on Data Mining. IEEE. pp. 773–778. doi:10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9.
^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF). LREC. 2. S2CID 9239414. Archived from the original (PDF) on 6 August 2019.
^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views – an Application to Multilingual Text Categorization". Advances in Neural Information Processing Systems. 22: 28–36.
^ Liu, Ming; et al. (2015). "VRCA: a clustering algorithm for massive amount of texts". Proceedings of the 24th International Conference on Artificial Intelligence. AAAI Press. Archived from the original on 5 November 2021. Retrieved 6 August 2019.
^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
^ "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". GitHub. 17 December 2018.
^ "The Examiner – SpamClickBait Catalogue".
^ "A Million News Headlines".
^ "One Week of Global News Feeds".
^ Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, doi:10.7910/DVN/XDB74W
^ "IrishTimes – the Waxy-Wany News".
^ "News Headlines Dataset For Sarcasm Detection". kaggle.com. Retrieved 27 April 2019.
^ Klimt, Bryan, and Yiming Yang. "Introducing the Enron Corpus." CEAS. 2004.
^ Kossinets, Gueorgi; Kleinberg, Jon; Watts, Duncan (2008). "The Structure of Information Pathways in a Social Communication Network". arXiv:0806.3201 [physics.soc-ph].
^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. Vol. 11. pp. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.
^ Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). The Journal of Machine Learning Research. 7: 2673–2698.
^ Almeida, Tiago A., José María G. Hidalgo, and Akebo Yamakami. "Contributions to the study of SMS spam filtering: new collection and results."Proceedings of the 11th ACM symposium on Document engineering. ACM, 2011.
^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Expert Systems with Applications. 39 (10): 9899–9908. doi:10.1016/j.eswa.2012.02.053. S2CID 15546924.
^ Joachims, Thorsten. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. No. CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa dept of computer science, 1996.
^ Dimitrakakis, Christos, and Samy Bengio. Online Policy Adaptation for Ensemble Algorithms. No. EPFL-REPORT-82788. IDIAP, 2002.
^ Dooms, S. et al. "Movietweetings: a movie rating dataset collected from twitter, 2013. Available from https://github.com/sidooms/MovieTweetings."
^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV].
^ "huyt16/Twitter100k". GitHub. Retrieved 26 March 2018.
^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
^ Chikersal, Prerna, Soujanya Poria, and Erik Cambria. "SeNTU: sentiment analysis of tweets by combining a rule-based classifier with supervised learning." Proceedings of the International Workshop on Semantic Evaluation, SemEval. 2015.
^ Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).
^ Data Science Course by DataTrained Education "IBM Certified Data Science Course^{[dead link]}." IBM Certified Online Data Science Course
^ McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Scientific Reports. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4E6496S. doi:10.1038/srep06496. PMC 4178292. PMID 25263231.
^ Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.
^ Abooraig, Raddad, et al. "On the automatic categorization of Arabic articles based on their political orientation." Third International Conference on Informatics Engineering and Information Science (ICIEIS2014). 2014.
^ Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.
^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG].
^ Xu et al. "SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT)" Proceedings of the 9th International Workshop on Semantic Evaluation. 2015.
^ Xu et al. "Extracting Lexically Divergent Paraphrases from Twitter" Transactions of the Association for Computational (TACL). 2014.
^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). IEEE Intelligent Systems. 29 (2): 9–17. doi:10.1109/MIS.2013.126. S2CID 15139204.
^ "geoparsepy". 2016. Python PyPI library
^ Shmueli, Boaz; Ku, Lun-Wei; Ray, Soumya (2020). "Reactive Supervision: A New Method for Collecting Sarcasm Data". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. pp. 2553–2559. doi:10.18653/v1/2020.emnlp-main.201. S2CID 221970454.
^ Shmueli, Boaz. "SPIRS Sarcasm Dataset". GitHub.
^ Gupta, Aakash (2020). "Dutch social media collection". COVID-19 Data Hub. doi:10.5072/FK2/MTPTL7. Retrieved 11 November 2023.
^ "Streamlit". huggingface.co. Retrieved 18 December 2020.
^ "Dutch Social media collection". kaggle.com. Retrieved 18 December 2020.
^ Shmueli, Boaz; Ray, Soumya; Lun-Wei (2021). "Happy Dance, Slow Clap: Using Reaction GIFs to Predict Induced Affect on Twitter". Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Vol. Association for Computational Linguistics. As. pp. 395–401. doi:10.18653/v1/2021.acl-short.50. S2CID 235125510.
^ Shmueli, Boaz (5 May 2023), ReactionGIF, retrieved 6 October 2023
^ Forsyth, E., Lin, J., & Martell, C. (2008, June 25). The NPS Chat Corpus. Retrieved from http://faculty.nps.edu/cmartell/NPSChat.htm
^ Sordoni, Alessandro; Galley, Michel; Auli, Michael; Brockett, Chris; Ji, Yangfeng; Mitchell, Margaret; Nie, Jian-Yun; Gao, Jianfeng; Dolan, Bill (2015). "A Neural Network Approach to Context-Sensitive Generation of Conversational Responses". arXiv:1506.06714 [cs.CL].
^ Shaoul, C. & Westbury C. (2013) A reduced redundancy USENET corpus (2005–2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html)
^ KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Retrieved from http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/ Archived 29 June 2018 at the Wayback Machine
^ Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Message posted to https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
^ Lowe, Ryan; Pow, Nissan; Serban, Iulian; Pineau, Joelle (2015). "The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems". arXiv:1506.08909 [cs.CL].
^ Jason Williams Antoine Raux Matthew Henderson, "[1]", Dialogue & Discourse | April 2016 .
^ Hoppe, Travis (16 December 2021), The-Pile-FreeLaw, retrieved 11 January 2023
^ Zheng, Lucia; Guha, Neel; Anderson, Brandon R.; Henderson, Peter; Ho, Daniel E. (21 June 2021). "When does pretraining help?". Proceedings of the Eighteenth International Conference on Artificial Intelligence and Law. New York, NY, USA: ACM. pp. 159–168. doi:10.1145/3462757.3466088. ISBN 9781450385268. S2CID 233296302.
^ "pile-of-law/pile-of-law · Datasets at Hugging Face". huggingface.co. 4 July 2022. Retrieved 11 January 2023.
^ "About | Caselaw Access Project". case.law. Retrieved 11 January 2023.
^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364–371. doi:10.1109/ICMLA.2017.0-134
^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "Web of Science Dataset", doi:10.17632/9rw3vkcfy4.6
^ Galgani, Filippo, Paul Compton, and Achim Hoffmann. "Combining different summarization techniques for legal text." Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Association for Computational Linguistics, 2012.
^ Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Journal of Big Data. 2 (1): 1–18. doi:10.1186/s40537-015-0020-5.
^ Schler, Jonathan; et al. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6. Archived from the original (PDF) on 14 November 2020. Retrieved 6 August 2019.
^ Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.
^ Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Statistical Mechanics and its Applications391.16 (2012): 4165–4180.
^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS].
^ Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.
^ Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI].
^ Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Computational Linguistics. 19 (2): 313–330.
^ Коллинз, Майкл (2003). «Головные статистические модели для анализа естественного языка» . Компьютерная лингвистика . 29 (4): 589–637. дои : 10.1162/089120103322753356 .
^ Гийон, Изабель и др., ред. Извлечение функций: основы и приложения . Том. 207. Спрингер, 2008.
^ Лин, Юрий и др. « Синтаксические аннотации для корпуса ngram книг Google ». Материалы демонстраций системы ACL 2012 . Ассоциация компьютерной лингвистики, 2012.
^ Кришнамурти, Ниведа; и др. (2013). «Создание описаний видео на естественном языке с использованием текстовых знаний» . АААИ . 1 . Архивировано из оригинала 6 августа 2019 года . Проверено 6 августа 2019 г.
^ Люйкс, Ким и Уолтер Далеманс. « Персоны: корпус предсказаний автора и личности на основе текста» ^{[ мертвая ссылка ]}ЛРЭЦ . 2008.
^ Солорио, Тамар, Рагиб Хасан и Майнул Мизан. « Пример обнаружения кукол в Википедии ». Семинар по языковому анализу в социальных сетях (LASM) в NAACL HLT . 2013.
^ «Файлы сдвига» . файлы.pushshift.io . Архивировано из оригинала 12 января 2023 года . Проверено 12 января 2023 г.
^ Баумгартнер, Джейсон; Занетту, Саввас; Киган, Брайан; Сквайр, Меган; Блэкберн, Джереми (23 января 2020 г.). «Набор данных Pushshift Reddit». arXiv : 2001.08435 [ cs.SI ].
^ Сиарелли, Патрик Маркес и Элиас Оливейра. « Агломерация и устранение условий понижения размерности ». Проектирование и применение интеллектуальных систем, 2009. ISDA'09. Девятая международная конференция по . ИИЭР, 2009.
^ Чжоу, Минъюань, Оскар Эрнан Мадрид Падилья и Джеймс Г. Скотт. «Априорные данные для матриц случайного счета, полученных из семейства отрицательных биномиальных процессов». журнал Американской статистической ассоциации (2015 г.): 00–00. Только что принятый
^ Коциас, Димитриос и др. « От группы к индивидуальным меткам с использованием глубоких функций ». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. АКМ, 2015.
^ Нин, Юэ; Мутия, Сатхаппан; Рангвала, Хузефа; Рамакришнан, Нарен (2016). «Моделирование предшественников для прогнозирования событий посредством вложенного многоэкземплярного обучения». arXiv : 1602.08033 [ cs.SI ].
^ Буза, Кристиан. « Прогнозирование обратной связи для блогов ». Анализ данных, машинное обучение и обнаружение знаний . Springer International Publishing, 2014. 145–152.
^ Сойсал, Омер М (2015). «Анализ правил ассоциации с преимущественно связанными последовательными шаблонами». Экспертные системы с приложениями . 42 (5): 2582–2592. дои : 10.1016/j.eswa.2014.10.049 .
^ Чжу, Юкун и др. «Совмещение книг и фильмов: к визуальным объяснениям, похожим на истории, путем просмотра фильмов и чтения книг». Материалы международной конференции IEEE по компьютерному зрению . 2015.
^ Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). «Большой аннотированный корпус для изучения вывода на естественном языке». arXiv : 1508.05326 [ cs.CL ].
^ «Коллекция корпуса DSL» . ttg.uni-saarland.de . Проверено 22 сентября 2017 г.
^ «Городской словарь слов и определений» .
^ Х. Эльсахар, П. Вугиуклис, А. Ремачи, К. Гравье, Дж. Хэйр, Ф. Лафорест, Э. Симперл, « T-REx: крупномасштабное согласование естественного языка с тройками базы знаний », Труды Одиннадцатая Международная конференция по языковым ресурсам и оценке (LREC-2018).
^ Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омер; Боуман, Сэмюэл Р. (2018). «GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка». arXiv : 1804.07461 [ cs.CL ].
^ «Компьютеры учатся читать, но они все еще не такие умные» . Проводной . Проверено 29 декабря 2019 г.
^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Проверено 25 февраля 2019 г.
^ Цюань, Хоанг Лам; Куанг, Дуй Ле; Ван Киет, Нгуен; Нган, Луу-Туй Нгуен. «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке» .
^ Куок Хай; Нгуен, Ван Киет; Нгуен, Луу Туй Нган; Нгуен, Гиа Туан Ань (2020). «Прогнозирование пола на основе вьетнамских имен с использованием методов машинного обучения». Материалы 4-й Международной конференции по обработке естественного языка и поиску информации . стр. 55–60. arXiv : 2010.10852 . дои : 10.1145/3443279.3443309 . ISBN 9781450377607 . S2CID 224814110 .
^ Нгуен, Луан Тхань; Ван Нгуен, Киет; Нгуен, Нган Луу-Туи (18 марта 2021 г.). «Обнаружение конструктивной и токсичной речи для комментариев в социальных сетях в открытом доступе на вьетнамском языке». Достижения и тенденции в области искусственного интеллекта. Практика искусственного интеллекта . Конспекты лекций по информатике. Том. 12798. стр. 572–583. arXiv : 2103.10069 . дои : 10.1007/978-3-030-79457-6_49 . ISBN 978-3-030-79456-9 . S2CID 232269671 .
^ Сакстон, Дэвид и др. «Анализ способностей нейронных моделей к математическому мышлению». Международная конференция по обучению представлений . 2018.
^ М. Верстег, Р. Тиольер, Т. Шац, X.-N. Цао, К. Ангера, А. Янсен и Э. Дюпу (2015). «The Zero Resource Speech Challenge 2015», в рамках INTERSPEECH-2015.
^ М. Верстег, X. Ангера, А. Янсен и Э. Дюпу (2016). « Вызов речи с нулевыми ресурсами 2015: предлагаемые подходы и результаты », на SLTU-2016.
^ Сакар, Бетул Эрдогду; и др. (2013). «Сбор и анализ набора речевых данных Паркинсона с несколькими типами звукозаписей». Журнал IEEE по биомедицинской и медицинской информатике . 17 (4): 828–834. дои : 10.1109/jbhi.2013.2245674 . ПМИД 25055311 . S2CID 15491516 .
^ Чжао, Шунан и др. « Автоматическое обнаружение выраженных эмоций при болезни Паркинсона ». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
^ Используется в: Хаммами, Насереддине и Моулди Бедде. «Улучшенная древовидная модель распознавания арабской речи». Компьютерные науки и информационные технологии (ICCSIT), 2010 г. 3-я Международная конференция IEEE по . Том. 5. ИИЭР, 2010.
^ Маатен, Лоуренс. « Изучение дискриминационных ядер Фишера ». Материалы 28-й Международной конференции по машинному обучению (ICML-11) . 2011.
^ Коул, Рональд и Марк Фэнти. « Распознавание устной буквы ». Учеб. Третий семинар DARPA по речи и естественному языку . 1990.
^ Шапель, Оливье; Синдхвани, Викас; Кирти, Сатья С. (2008). «Методы оптимизации для полуконтролируемых машин опорных векторов» (PDF) . Журнал исследований машинного обучения . 9 : 203–233.
^ Кудо, Минеичи; Тояма, Джун; Симбо, Масару (1999). «Классификация многомерных кривых с использованием областей прохождения». Буквы для распознавания образов . 20 (11): 1103–1111. Бибкод : 1999PaReL..20.1103K . CiteSeerX 10.1.1.46.2515 . дои : 10.1016/s0167-8655(99)00077-x .
^ Джагер, Герберт; и др. (2007). «Оптимизация и применение сетей эхо-состояний с нейронами вытекающего интегратора». Нейронные сети . 20 (3): 335–352. дои : 10.1016/j.neunet.2007.04.016 . ПМИД 17517495 .
^ Цанас, Афанасий; и др. (2010). «Точный телемониторинг прогрессирования болезни Паркинсона с помощью неинвазивных речевых тестов» . Транзакции IEEE по биомедицинской инженерии (представленная рукопись). 57 (4): 884–893. дои : 10.1109/tbme.2009.2036000 . ПМИД 19932995 . S2CID 7382779 .
^ Клиффорд, Гари Д.; Клифтон, Дэвид (2012). «Беспроводные технологии в лечении заболеваний и медицине». Ежегодный обзор медицины . 63 : 479–492. doi : 10.1146/annurev-med-051210-114650 . ПМИД 22053737 .
^ Зуэ, Виктор; Сенефф, Стефани; Гласс, Джеймс (1990). «Разработка речевых баз данных в Массачусетском технологическом институте: TIMIT и за его пределами». Речевое общение . 9 (4): 351–356. дои : 10.1016/0167-6393(90)90010-7 .
^ Кападиа, Садик, Валчо Валчев и С. Дж. Янг. «Тренинг MMI для непрерывного распознавания фонем в базе данных TIMIT». Акустика, речь и обработка сигналов, 1993. ICASSP-93., 1993 Международная конференция IEEE по . Том. 2. ИИЭР, 1993.
^ Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (докторская диссертация). Университет Саутгемптона , Школа электроники и информатики.
^ Ардила, Розана; Брэнсон, Меган; Дэвис, Келли; Хенретти, Майкл; Колер, Майкл; Мейер, Джош; Мораис, Рубен; Сондерс, Линдси; Тайерс, Фрэнсис М.; Вебер, Грегор (13 декабря 2019 г.). «Общий голос: массово-многоязычный речевой корпус». arXiv : 1912.06670v2 [ cs.CL ].
^ «Набор речевых данных ЖЖ» . keithito.com . Проверено 13 апреля 2022 г.
^ Гандура, Абдулкадер; Хьябо, Фарук; Аль-Даккак, Умайма (июнь 2021 г.). «Создание и сравнение набора данных арабских речевых команд для обнаружения небольших ключевых слов» . Инженерные применения искусственного интеллекта . 102 : 104267. doi : 10.1016/j.engappai.2021.104267 . ISSN 0952-1976 . S2CID 235637809 .
^ Чжоу, Фанг, К. Клэр и Росс Д. Кинг. « Предсказание географического происхождения музыки ». Data Mining (ICDM), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
^ Сакченти, Эдоардо; Камачо, Хосе (2015). «Об использовании k-кратной операции наблюдения в перекрестной проверке PCA». Журнал хемометрики . 29 (8): 467–478. дои : 10.1002/cem.2726 . hdl : 10481/55302 . S2CID 62248957 .
^ Бертен-Маье, Тьерри и др. «Набор данных о миллионе песен». ISMIR 2011: Материалы 12-й конференции Международного общества по поиску музыкальной информации, 24–28 октября 2011 г., Майами, Флорида . Университет Майами, 2011.
^ Хенафф, Микаэль; и др. (2011). «Неконтролируемое изучение редких функций для масштабируемой классификации аудио» (PDF) . ИСМИР . 11 .
^ Рафии, Зафар (2017). "Музыка". MUSDB18 — корпус музыкального разделения . дои : 10.5281/zenodo.1117372 .
^ Дефферрард, Микаэль; Бензи, Кирелл; Вандергейнст, Пьер; Брессон, Ксавье (6 декабря 2016 г.). «FMA: набор данных для музыкального анализа». arXiv : 1612.01840 [ cs.SD ].
^ Эспозито, Роберто; Радичони, Даниэле П. (2009). «Carpediem: Оптимизация алгоритма Витерби и приложений для контролируемого последовательного обучения» (PDF) . Журнал исследований машинного обучения . 10 : 1851–1880.
^ Сурати, Джамшид; и др. (2016). «Классификация активного обучения на основе взаимной информации» . Энтропия . 18 (2): 51. Бибкод : 2016Entrp..18...51S . дои : 10.3390/e18020051 .
^ Саламон, Джастин; Джейкоби, Кристофер; Белло, Хуан Пабло. « Набор данных и таксономия для исследования городского звука ». Материалы Международной конференции ACM по мультимедиа . АКМ, 2014.
^ Лагранж, Матье; Лафай, Грегуар; Россиньоль, Матиас; Бенетос, Эммануил; Робель, Аксель (2015). «Среда оценки для обнаружения событий с использованием морфологической модели акустических сцен». arXiv : 1502.00141 [ стат.ML ].
^ Геммеке, Йорт Ф. и др. «Набор аудио: онтология и набор данных, помеченных человеком, для аудиособытий». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2017.
^ «Берегитесь, птицеловы: искусственный интеллект научился распознавать птиц по их песням» . Наука | АААС . 18 июля 2018 года . Проверено 22 июля 2018 г.
^ «Задание по обнаружению птиц по звуку» . Лаборатория машинного прослушивания в Университете Королевы Марии . 3 мая 2016 года . Проверено 22 июля 2018 г.
^ Вичерн, Гордон; Антоньини, Джо; Флинн, Майкл; Личэн Ричард Чжу; Маккуинн, Эммет; Ворона, Дуайт; Манилоу, Итан; Джонатан Ле Ру (2019). «WHAM !: Расширение разделения речи на шумную среду». arXiv : 1907.01160 [ cs.SD ].
^ Дроссос К., Липпинг С. и Виртанен Т. «Клото: набор данных для аудиотитров» Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2020.
^ Дроссос К., Липпинг С. и Виртанен Т. (2019). Набор данных Clotho (Версия 1.0) [Набор данных]. Зенодо . http://doi.org/10.5281/zenodo.3490684
^ Набор данных CAIDA UCSD по Witty Worm - 19–24 марта 2004 г., http://www.caida.org/data/passive/witty_worm_dataset.xml
^ Чен, Зешэн и Чуаньи Цзи. « Оптимальный метод сканирования червей с использованием дистрибутивов уязвимых хостов ». Международный журнал безопасности и сетей 2.1–2 (2007): 71–80.
^ Качуи, Мохамад и др. « Высокоточная оценка артериального давления без манжеты без калибровки с использованием времени прохождения импульса ^{[ постоянная мертвая ссылка ]}. Схемы и системы (ISCAS), 2015 г. Международный симпозиум IEEE по . IEEE, 2015 г.
^ PhysioBank, PhysioToolkit. «PhysioNet: компоненты нового исследовательского ресурса для сложных физиологических сигналов». Тираж. v101 и23. е215-е220 .
^ Вергара, Александр; и др. (2012). «Компенсация дрейфа датчика химического газа с использованием ансамблей классификаторов». Датчики и исполнительные механизмы B: Химические вещества . 166 : 320–329. Бибкод : 2012SeAcB.166..320В . дои : 10.1016/j.snb.2012.01.074 .
^ Коротценков Г.; Чо, БК (2014). «Инженерные подходы к улучшению параметров кондуктометрических датчиков газа. Часть 2. Снижение рассеиваемой (потребляемой) мощности и повышение стабильности и надежности». Датчики и исполнительные механизмы B: Химические вещества . 198 : 316–341. Бибкод : 2014SeAcB.198..316K . дои : 10.1016/j.snb.2014.03.069 .
^ Куинлан, Джон Р. (1992). «Обучение с помощью непрерывных занятий» (PDF) . 5-я Австралийская совместная конференция по искусственному интеллекту . 92 .
^ Мерц, Кристофер Дж.; Паццани, Майкл Дж. (1999). «Подход на основе главных компонентов к объединению оценок регрессии» . Машинное обучение . 36 (1–2): 9–32. дои : 10.1023/а:1007507221352 .
^ Торрес-Соспедра, Хоакин и др. «UJIIndoorLoc-Mag: новая база данных для задач локализации по магнитному полю». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. по . ИИЭР, 2015.
^ Берквенс, Рафаэль, Маартен Вейн и Герберт Переманс. « Средняя взаимная информация вероятностной локализации Wi-Fi ». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. Банф, Канада: IPIN . 2015.
^ Пашке, Фабиан и др. «Бездатчиковый контроль состояния синхронных двигателей». Слушания. 23-й семинар по вычислительному интеллекту, Дортмунд, 5-6. Декабрь 2013 года . КИТ Научное Издательство, 2013.
^ Лессмайер, Кристиан и др. « Сбор данных и анализ сигналов на основе измеренных токов двигателя для обнаружения дефектов в электромеханических приводных системах ».
^ Угулино, Уоллес и др. « Носимые компьютеры: классификация поз и движений тела по данным акселерометров. Архивировано 25 сентября 2020 года в Wayback Machine ». Достижения в области искусственного интеллекта – SBIA 2012 . Springer Berlin Heidelberg, 2012. 52–61.
^ Шнайдер, Ян; и др. (2015). «Усиление чувств: обзор поддержки обучения на основе датчиков» . Датчики . 15 (2): 4097–4133. Бибкод : 2015Senso..15.4097S . дои : 10.3390/s150204097 . ПМК 4367401 . ПМИД 25679313 .
^ Мадео, Рената CB, Клодоальдо А.М. Лима и Сараджейн М. Перес. « Сегментация единиц жестов с использованием машин опорных векторов: сегментация жестов из исходных положений ». Материалы 28-го ежегодного симпозиума ACM по прикладным вычислениям . АКМ, 2013.
^ Лун, Роанна; Чжао, Вэньбин (2015). «Обзор приложений и распознавания движений человека с помощью Microsoft Kinect» . Международный журнал распознавания образов и искусственного интеллекта . 29 (5): 1555008. doi : 10.1142/s0218001415550083 .
^ Теодоридис, Теодорос и Хуошэн Ху. « Классификация действий трехмерных моделей человека с использованием динамических ИНС для наблюдения за мобильными роботами . Архивировано 6 августа 2019 года в Wayback Machine ». Робототехника и биомиметика, 2007. РОБИО 2007. Международная конференция IEEE по . ИИЭР, 2007.
^ Этемад, Сейед Али и Али Арья. « 3D-распознавание действий человека и трансформация стиля с использованием устойчивых нейронных сетей обратного распространения ошибки». Интеллектуальные вычисления и интеллектуальные системы, 2009. ICIS 2009. Международная конференция IEEE по . Том. 4. ИИЭР, 2009.
^ Алтун, Керем; Баршан, Биллур; Тунчель, Оркун (2010). «Сравнительное исследование классификации деятельности человека с помощью миниатюрных инерционных и магнитных датчиков». Распознавание образов . 43 (10): 3605–3620. Бибкод : 2010PatRe..43.3605A . дои : 10.1016/j.patcog.2010.04.019 . hdl : 11693/11947 .
^ Натан, Ран ; и др. (2012). «Использование данных трехосного ускорения для определения поведенческих режимов животных, находящихся на свободном выгуле: общие концепции и инструменты, проиллюстрированные для белоголовых сипов» . Журнал экспериментальной биологии . 215 (6): 986–996. дои : 10.1242/jeb.058602 . ПМЦ 3284320 . ПМИД 22357592 .
^ Ангита, Давиде и др. « Распознавание активности человека на смартфонах с использованием многоклассовой аппаратно-совместимой машины опорных векторов ». Окружающая среда, сопровождаемая проживанием и уходом на дому . Springer Berlin Heidelberg, 2012. 216–223.
^ Су, Син; Тонг, Ханхан; Цзи, Пин (2014). «Распознавание активности с помощью датчиков смартфона». Цинхуа Наука и Технология . 19 (3): 235–249. дои : 10.1109/tst.2014.6838194 . S2CID 62751498 .
^ Кадус, Мохаммед Валид. Временная классификация: распространение парадигмы классификации на многомерные временные ряды . Дисс. Университет Нового Южного Уэльса, 2002 г.
^ Грейвс, Алекс и др. « Коннекционистская временная классификация: маркировка несегментированных последовательностей данных с помощью рекуррентных нейронных сетей ». Материалы 23-й международной конференции по машинному обучению . АКМ, 2006.
^ Веллосо, Эдуардо и др. « Качественное распознавание активности упражнений по поднятию тяжестей ». Материалы 4-й Международной конференции по дополненному человеку . АКМ, 2013.
^ Мортазави, Бобак Джек и др. « Определение единой наилучшей оси для распознавания повторений упражнений и расчет умных часов. Архивировано 4 ноября 2021 года в Wayback Machine ». Сети носимых и имплантируемых датчиков тела (BSN), 2014 11-я Международная конференция по . ИИЭР, 2014.
^ Сапсанис, Христос и др. « Улучшение классификации основных движений рук на основе ЭМГ с использованием ЭМД ». Общество инженерии в медицине и биологии (EMBC), 2013 г., 35-я ежегодная международная конференция IEEE . ИИЭР, 2013.
^ Перейти обратно: ^а ^б Андрианезис, Константинос; Цзес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем . 78 (2): 257–289. дои : 10.1007/s10846-014-0061-6 . S2CID 207174078 .
^ Банос, Орешти; и др. (2014). «Работа с эффектами смещения датчика при распознавании активности носимых устройств» . Датчики . 14 (6): 9995–10023. Бибкод : 2014Senso..14.9995B . дои : 10.3390/s140609995 . ПМЦ 4118358 . ПМИД 24915181 .
^ Стисен, Аллан и др. « Умные устройства разные: оценка и смягчение неоднородностей мобильных датчиков для распознавания активности ». Материалы 13-й конференции ACM по встраиваемым сетевым сенсорным системам . АКМ, 2015.
^ Бхаттачарья, Сурав и Николас Д. Лейн. « От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения ».
^ Баччу, Давиде; и др. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях для престарелых». Нейронные вычисления и их приложения . 24 (6): 1451–1464. дои : 10.1007/s00521-013-1364-4 . hdl : 11568/237959 . S2CID 14124013 .
^ Палумбо, Филиппо; Барсокки, Паоло; Галличкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Мультисенсорное объединение данных для распознавания активности на основе вычислений резервуара» . Оценка систем AAL посредством сравнительного анализа конкурентов . Коммуникации в компьютерной и информатике. Том. 386. стр. 24–35. дои : 10.1007/978-3-642-41043-7_3 . ISBN 978-3-642-41042-0 .
^ Рейсс, Аттила и Дидье Стрикер. « Представляем новый набор эталонных данных для мониторинга активности ». Носимые компьютеры (ISWC), 2012 г. 16-й международный симпозиум по . ИИЭР, 2012.
^ Рогген, Дэниел и др. « ВОЗМОЖНОСТИ: К оппортунистической деятельности и системам распознавания контекста ». Мир беспроводных, мобильных и мультимедийных сетей и семинаров, 2009. WoWMoM 2009. Международный симпозиум IEEE по . ИИЭР, 2009.
^ Курц, Марк и др. « Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах ». Конференция по автомобильным технологиям (весна VTC), 73-я конференция IEEE 2011 г. ИИЭР, 2011.
^ Штайлер, Тимо и Хайнер Штукеншмидт. « Локализация носимых устройств на теле: исследование распознавания активности с учетом положения ». Повсеместные вычисления и коммуникации (PerCom), Международная конференция IEEE 2016 г., посвященная . ИИЭР, 2016.
^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х.; Долатабади, Эльхам; Ван, Розали Х.; Таати, Бабак (2018). «Автоматическое обнаружение компенсации во время роботизированной реабилитационной терапии после инсульта» . Журнал IEEE трансляционной инженерии в здравоохранении и медицине . 6 : 2100107. doi : 10.1109/JTEHM.2017.2780836 . ISSN 2168-2372 . ПМЦ 5788403 . ПМИД 29404226 .
^ Долатабади, Эльхам; Чжи, Ин Сюань; Да, Бинг; Коаран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). «Набор данных позы реабилитации после инсульта в Торонто для выявления компенсации во время реабилитационной терапии после инсульта». Материалы 11-й Международной конференции EAI по всеобъемлющим вычислительным технологиям в здравоохранении . АКМ. стр. 375–381. дои : 10.1145/3154862.3154925 . ISBN 9781450363631 . S2CID 24581930 .
^ «Набор данных по позы реабилитации после инсульта в Торонто» .
^ Юнг, Мерел М.; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К.Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социальных прикосновений». Журнал о мультимодальных пользовательских интерфейсах . 11 (1): 81–96. дои : 10.1007/s12193-016-0232-9 . ISSN 1783-8738 . S2CID 1802116 .
^ Юнг, ММ (Мерель) (1 июня 2016 г.). «Корпус социальных контактов (CoST)» . Университет Твенте. doi : 10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Эберхард, С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в условиях большой размерности». Кафедра математики. Статистик, Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Реп 92-02 (1992).
^ Басу, Сугато. « Полуконтролируемая кластеризация с ограниченными базовыми знаниями ». АААИ . 2004.
^ Тюфекчи, Пинар (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла с базовой нагрузкой с использованием методов машинного обучения». Международный журнал электроэнергетики и энергетических систем . 60 : 126–140. Бибкод : 2014IJEPE..60..126T . дои : 10.1016/j.ijepes.2014.02.027 .
^ Кая, Хейсем, Пинар Тюфекчи и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной технике (ICETCEE'2012), Дубай . 2012.
^ Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Природные коммуникации . 5 : 2014. arXiv : 1402.4735 . Бибкод : 2014NatCo...5.4308B . дои : 10.1038/ncomms5308 . ПМИД 24986233 . S2CID 195953 .
^ Перейти обратно: ^а ^б Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2015). «Усовершенствованный поиск бозона Хиггса до τ+ τ− с помощью глубокого обучения». Письма о физических отзывах . 114 (11): 111801. arXiv : 1410.3469 . Бибкод : 2015PhRvL.114k1801B . дои : 10.1103/physrevlett.114.111801 . ПМИД 25839260 . S2CID 2339142 .
^ Перейти обратно: ^а ^б Адам-Бурдариос, К.; Коуэн, Г.; Жермен-Рено, К.; Гийон, И.; Кегль, Б.; Руссо, Д. (2015). «Задача машинного обучения Хиггса» . Физический журнал: серия конференций . 664 (7): 072015. Бибкод : 2015JPhCS.664g2015A . дои : 10.1088/1742-6596/664/7/072015 .
^ Бальди, Пьер; Кранмер, Кайл; Фосетт, Тейлор; Садовский, Питер; Уайтсон, Дэниел (2016). «Параметризованные нейронные сети для физики высоких энергий». Европейский физический журнал C . 76 (5): 235. arXiv : 1601.07913 . Бибкод : 2016EPJC...76..235B . doi : 10.1140/epjc/s10052-016-4099-4 . S2CID 254108545 .
^ Ортигоса, И.; Лопес, Р.; Гарсия, Дж. «Подход нейронных сетей к прогнозированию остаточного сопротивления парусных яхт». Материалы Международной конференции по морской технике MARINE . 2007 .
^ Герритсма, Дж., Р. Оннинк и А. Верслуис. Геометрия, устойчивость и устойчивость серии корпусов яхт Delft System . Делфтский технологический университет, 1981 год.
^ Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных . Springer Science & Business Media, 1998.
^ Райх, Йорам. Переход к знаниям идеального дизайна путем обучения . [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.
^ Тодоровский, Люпчо; Джероски, Сашо (1999). «Эксперименты по метауровенному обучению с помощью ILP» . Принципы интеллектуального анализа данных и обнаружения знаний . Конспекты лекций по информатике. Том. 1704. стр. 98–106. дои : 10.1007/978-3-540-48247-5_11 . ISBN 978-3-540-66490-1 . S2CID 39382993 .
^ Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности . Дисс. Университет Вайкато, 2000 г.
^ Киблер, Деннис; Ага, Дэвид В.; Альберт, Марк К. (1989). «Прогнозирование действительных атрибутов на основе экземпляров» . Вычислительный интеллект . 5 (2): 51–57. дои : 10.1111/j.1467-8640.1989.tb00315.x . S2CID 40800413 .
^ Палмер, Кристофер Р. и Христос Фалуцос. « Электричество основано на внешнем сходстве категориальных признаков ». Достижения в области обнаружения знаний и интеллектуального анализа данных . Springer Berlin Heidelberg, 2003. 486–500.
^ Цанас, Афанасий; Хифара, Анжелики (2012). «Точная количественная оценка энергоэффективности жилых зданий с использованием статистических инструментов машинного обучения». Энергия и здания . 49 : 560–567. Бибкод : 2012EneBu..49..560T . дои : 10.1016/j.enbuild.2012.03.003 .
^ Де Уайльд, Питер (2014). «Разрыв между прогнозируемыми и измеренными энергетическими характеристиками зданий: основа для исследования». Автоматизация в строительстве . 41 : 40–49. дои : 10.1016/j.autcon.2014.02.009 .
^ Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум профиля и прогнозирование . Том. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научной и технической информации, 1989.
^ Дрейпер, Дэвид. « Оценка и распространение неопределенности модели ». Журнал Королевского статистического общества, серия B (методологический) (1995): 45–97.
^ Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительных кольцах космического корабля». Журнал Американской статистической ассоциации . 86 (416): 919–921. дои : 10.1080/01621459.1991.10475132 .
^ Ван, Цзюнь, Бэй Ю и Лес Гассер. « Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства ». Data Mining, 2002. ICDM 2003. Труды. Международная конференция IEEE 2002 г. по . ИИЭР, 2002.
^ Петтенгилл, Гордон Х.; Форд, Питер Г.; Джонсон, Уильям Т.К.; Рэйни, Р. Кейт; Содерблом, Лоуренс А. (1991). «Магеллан: характеристики радаров и продукты для обработки данных» . Наука . 252 (5003): 260–265. Бибкод : 1991Sci...252..260P . дои : 10.1126/science.252.5003.260 . ПМИД 17769272 . S2CID 43398343 .
^ Перейти обратно: ^а ^б Агаронян Ф.; и др. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма о физических отзывах . 101 (26): 261104. arXiv : 0811.3894 . Бибкод : 2008PhRvL.101z1104A . doi : 10.1103/PhysRevLett.101.261104 . HDL : 2440/51450 . ПМИД 19437632 . S2CID 41850528 .
^ Бок, РК; и др. (2004). «Методы многомерной классификации событий: пример использования изображений черенковского гамма-телескопа». Ядерные приборы и методы в физических исследованиях. Раздел А: Ускорители, спектрометры, детекторы и сопутствующее оборудование . 516 (2): 511–528. Бибкод : 2004NIMPA.516..511B . дои : 10.1016/j.nima.2003.08.157 .
^ Ли, Цзинььян; и др. (2004). «Deeps: новая система ленивого обнаружения и классификации на основе экземпляров» . Машинное обучение . 54 (2): 99–124. doi : 10.1023/b:mach.0000011804.08528.7d .
^ Вильяэскуса-Наварро, Франциско; др. и др. (2022). «Многополевой набор данных CAMELS: изучение фундаментальных параметров Вселенной с помощью искусственного интеллекта» . Серия дополнений к астрофизическому журналу . 259 (2): 61. arXiv : 2109.10915 . Бибкод : 2022ApJS..259...61В . дои : 10.3847/1538-4365/ac5ab0 . S2CID 237604997 .
^ Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог голоценовых вулканов и их извержений». (2014).
^ Сикора, Марек; Врубель, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собираемых системами мониторинга сейсмической опасности на угольных шахтах» . Архив горных наук . 55 (1): 91–114.
^ Сикора, Марек и Беата Сикора. «Грубый мониторинг природных опасностей». Грубые наборы: избранные методы и приложения в менеджменте и технике . Springer London, 2012. 163–179.
^ Аддор, Нанс; Ньюман, Эндрю Дж.; Мизуками, Наоки; Кларк, Мартин П. (20 октября 2017 г.). «Набор данных CAMELS: атрибуты водосбора и метеорология для исследований на больших выборках» . Гидрология и науки о системе Земли . 21 (10): 5293–5313. Бибкод : 2017HESS...21.5293A . doi : 10.5194/hess-21-5293-2017 . ISSN 1607-7938 .
^ Ньюман, Эй Джей; Кларк, член парламента; Сэмпсон, К.; Вуд, А.; Хэй, LE; Бок, А.; Вигер, Р.Дж.; Блоджетт, Д.; Брекке, Л.; Арнольд-младший; Хопсон, Т. (14 января 2015 г.). «Разработка большого набора гидрометеорологических данных в масштабе водораздела для прилегающих территорий США: характеристики набора данных и оценка региональной изменчивости характеристик гидрологической модели» . Гидрология и науки о системе Земли . 19 (1): 209–223. Бибкод : 2015HESS...19..209N . дои : 10.5194/hess-19-209-2015 . ISSN 1607-7938 .
^ Альварес-Гарретон, Камила; Мендоса, Пол А.; Буазье, Джон Пол; Аддор, Нэнси; Гальегильос, Морис; Самбрано-Биджарини, Морис; Лара, Энтони; Пуэльма, Кристофер; Корты, Гонсало; Гарро, Рене; Макфи, Джеймс (13 ноября 2018 г.). «Набор данных CAMELS-CL: атрибуты водосбора и метеорология для крупных выборочных исследований – набор данных Чили» . Гидрология и науки о системе Земли . 22 (11): 5817–5846. Бибкод : 2018HESS...22.5817A . дои : 10.5194/hess-22-5817-2018 . ISSN 1607-7938 . S2CID 133955609 .
^ Чагас, Винисиус Б.П.; Чаффе, Педро Л.Б.; Аддор, Нанс; Фан, Фернандо М.; Флейшманн, Аян С.; Пайва, Родриго CD; Сикейра, Винисиус А. (8 сентября 2020 г.). «CAMELS-BR: гидрометеорологические временные ряды и атрибуты ландшафта для 897 водосборных бассейнов Бразилии» . Данные науки о системе Земли . 12 (3): 2075–2096. Бибкод : 2020ESSD...12.2075C . doi : 10.5194/essd-12-2075-2020 . ISSN 1866-3516 . S2CID 234737197 .
^ Коксон, Джемма; Аддор, Нанс; Блумфилд, Джон П.; Фрир, Джим; Фрай, Мэтт; Ханнафорд, Джейми; Хауден, Николас Дж. К.; Лейн, Розанна; Льюис, Мелинда; Робинсон, Эмма Л.; Вагенер, Торстен (12 октября 2020 г.). «CAMELS-GB: гидрометеорологические временные ряды и атрибуты ландшафта для 671 водосборного бассейна Великобритании» . Данные науки о системе Земли . 12 (4): 2459–2483. Бибкод : 2020ESSD...12.2459C . doi : 10.5194/essd-12-2459-2020 . ISSN 1866-3516 . S2CID 226192657 .
^ Фаулер, Кейрнан Дж.А.; Ачарья, Суваш Чандра; Аддор, Нанс; Чжоу, Чичжун; Пил, Мюррей К. (6 августа 2021 г.). «CAMELS-AUS: гидрометеорологические временные ряды и характеристики ландшафта для 222 водосборных бассейнов Австралии» . Данные науки о системе Земли . 13 (8): 3847–3867. Бибкод : 2021ESSD...13.3847F . doi : 10.5194/essd-13-3847-2021 . ISSN 1866-3516 . S2CID 238796784 .
^ Клинглер, Кристоф; Шульц, Карстен; Хернеггер, Мэтью (16 сентября 2021 г.). «LamaH-CE: БОЛЬШАЯ ВЫБОРКА ДАННЫХ для гидрологии и наук об окружающей среде для Центральной Европы» . Данные науки о системе Земли . 13 (9): 4529–4565. Бибкод : 2021ESSD...13.4529K . дои : 10.5194/essd-13-4529-2021 . ISSN 1866-3516 . S2CID 240533508 .
^ Да, I – C (1998). «Моделирование прочности высокопрочного бетона с использованием искусственных нейронных сетей». Исследования цемента и бетона . 28 (12): 1797–1808. дои : 10.1016/s0008-8846(98)00165-3 .
^ Заранди, М. Х. Фазель; и др. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления . 8 (1): 488–498. Бибкод : 2008ApSoC...8...79S . дои : 10.1016/j.asoc.2007.02.010 .
^ Да, И. «Моделирование осадки бетона с помощью летучей золы и суперпластификатора». Компьютеры и бетон 5.6 (2008): 559–572.
^ Генсель, Осман; и др. (2011). «Сравнение искусственных нейронных сетей и общих подходов к линейной модели для анализа абразивного износа бетона». Строительство и строительные материалы . 25 (8): 3486–3494. дои : 10.1016/j.conbuildmat.2011.03.040 .
^ Dietterich, Thomas G., et al. "A comparison of dynamic reposing and tangent distance for drug activity prediction Archived 7 December 2019 at the Wayback Machine." Advances in Neural Information Processing Systems (1994): 216–216.
^ Buscema, Massimo, William J. Tastle, and Stefano Terzi. "Meta net: A new meta-classifier family."Data Mining Applications Using Artificial Adaptive Systems. Springer New York, 2013. 141–182.
^ Barnard, Amanda; Sun, Baichuan; Motevalli Soumehsaraei, Ben; & Opletal, George (2019): Silver Nanoparticle Data Set. v3. CSIRO. Data Collection. https://doi.org/10.25919/5d22d20bc543e
^ Barnard, Amanda; Sun, Baichuan; & Opletal, George (2019): Platinum Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/5d3958d9bf5f7
^ Barnard, Amanda; & Opletal, George (2019): Gold Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5d395ef9a4291
^ Barnard, Amanda; & Opletal, George (2019): Ruthenium Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30b8fa67484
^ Barnard, Amanda; & Opletal, George (2019): Copper Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30ba386311f
^ Barnard, Amanda; & Opletal, George (2023): Palladium Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/epxd-8p61
^ Ting, Jonathan; Barnard, Amanda; Opletal, George (2023): AuCo Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/7h3x-1343
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/jzh8-rd31
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/tdnv-jp30
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/qced-2e85
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/az9t-vr97
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/0bs4-sn79
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/em3a-9a89
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/991j-hg07
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/7zh9-3f67
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/9sz9-3a85
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/6ajg-1275
^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/v0r5-sw08
^ Lu, Kaihan; Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/psvw-am47
^ Amoradnejad, Issa; Amoradnejad, Rahimberdi; et al. (2022). "Age dataset: A structured general-purpose dataset on life, work, and death of 1.22 million distinguished people". Workshop Proceedings of the 16th International AAAI Conference on Web and Social Media (ICWSM). 3. ICWSM: 1–4. doi:10.36190/2022.82. S2CID 249668669.
^ "Age Dataset". GitHub. 7 June 2022.
^ "Synthetic Fundus Dataset". Archived from the original on 29 November 2021. Retrieved 22 February 2023.
^ Lo Castro, Dario; et al. (2020). "A visual framework to create photorealistic retinal vessels for diagnosis purposes". Journal of Biomedical Informatics. 108: 103490. doi:10.1016/j.jbi.2020.103490. PMID 32640292. S2CID 220429697.
^ Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.
^ Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.
^ Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179. S2CID 84043.
^ Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.
^ Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. Bibcode:1997PatRe..30.1145B. doi:10.1016/s0031-3203(96)00142-2. S2CID 13806304.
^ Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S; Goldgof, Dmitry B (eds.). Biomedical Image Processing and Biomedical Visualization. Vol. 1905. pp. 861–870. doi:10.1117/12.148698. S2CID 14922543.
^ Demir, Cigdem, and Bülent Yener. "Automated cancer diagnosis based on histopathological images: a systematic survey." Rensselaer Polytechnic Institute, Tech. Rep (2005).
^ Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." Rockville, MD: Substance Abuse and Mental Health Services Administration 201 (2011).
^ Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. Bibcode:1991PatRe..24..317H. doi:10.1016/0031-3203(91)90074-f.
^ Jump up to: ^a ^b Li, Jinyan, and Limsoon Wong. "Using rules to analyse bio-medical data: a comparison between C4. 5 and PCL." Advances in Web-Age Information Management. Springer Berlin Heidelberg, 2003. 254–265.
^ Güvenir, H. Altay, et al. "A supervised machine learning algorithm for arrhythmia analysis."Computers in Cardiology 1997. IEEE, 1997.
^ Lagus, Krista, et al. "Independent variable group analysis in learning compact representations for data." Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR'05), T. Honkela, V. Könönen, M. Pöllä, and O. Simula, Eds., Espoo, Finland. 2005.
^ Strack, Beata, et al. "Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical database patient records." BioMed Research International 2014; 2014
^ Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.
^ Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.
^ Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].
^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.{{cite web}}: CS1 maint: multiple names: authors list (link)
^ Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231–234. doi:10.5566/ias.1155. ISSN 1854-5165.
^ Bagirov, A. M.; et al. (2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007/bf02578945. S2CID 14165678.
^ Fung, Glenn, et al. "A fast iterative algorithm for fisher discriminant using heterogeneous kernels."Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
^ Quinlan, John Ross, et al. "Inductive knowledge acquisition: a case study." Proceedings of the Second Australian Conference on Applications of expert systems. Addison-Wesley Longman Publishing Co., Inc., 1987.
^ Jump up to: ^a ^b Zhou, Zhi-Hua; Jiang, Yuan (2004). "NeC4. 5: neural ensemble based C4. 5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109/tkde.2004.11. S2CID 1024861.
^ Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.
^ Er, Orhan, A. Çetin Tanrikulu, and Abdurrahman Abakay. "Use of artificial intelligence techniques for diagnosis of malignant pleural mesothelioma."Dicle Tıp Dergisi 42.1 (2015).
^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.
^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (May 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112. S2CID 13666294.
^ "Parkinson's Vision-Based Pose Estimation Dataset | Kaggle". kaggle.com. Retrieved 22 August 2018.
^ Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.
^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902. S2CID 146809768.
^ "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.
^ Clark, David, Zoltan Schreter, and Anthony Adams. "A quantitative comparison of dystal and backpropagation." Proceedings of 1996 Australian Conference on Neural Networks. 1996.
^ Jiang, Yuan, and Zhi-Hua Zhou. "Editing training data for kNN classifiers with neural network ensemble." Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
^ Ontañón, Santiago, and Enric Plaza. "On similarity measures based on a refinement lattice." Case-Based Reasoning Research and Development. Springer Berlin Heidelberg, 2009. 240–255.
^ "PLF data inventory". GitHub. 5 November 2021.
^ Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.
^ Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.
^ Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73. Archived from the original (PDF) on 6 August 2019. Retrieved 6 August 2019.
^ "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.
^ Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. Bibcode:2021NatSR..11.8134W. doi:10.1038/s41598-021-87602-3. ISSN 2045-2322. PMC 8046754. PMID 33854157.
^ Cortez, Paulo, and Aníbal de Jesus Raimundo Morais. "A data mining approach to predict forest fires using meteorological data." (2007).
^ Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.
^ Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
^ Ghahramani, Zoubin, and Michael I. Jordan. "Supervised learning from incomplete data via an EM approach Archived 22 April 2017 at the Wayback Machine." Advances in neural information processing systems 6. 1994.
^ Mallah, Charles; Cope, James; Orwell, James (2013). "Plant leaf classification using probabilistic integration of shape, texture and margin features". Signal Processing, Pattern Recognition and Applications. 5: 1.
^ Yahiaoui, Itheri, Olfa Mzoughi, and Nozha Boujemaa. "Leaf shape descriptor for tree species identification Archived 6 August 2019 at the Wayback Machine." Multimedia and Expo (ICME), 2012 IEEE International Conference on. IEEE, 2012.
^ Tan, Ming, and Larry Eshelman. "Using weighted networks to represent classification knowledge in noisy domains." Proceedings of the Fifth International Conference on Machine Learning. 2014.
^ Charytanowicz, Małgorzata, et al. "Complete gradient clustering algorithm for features analysis of x-ray images." Information technologies in biomedicine. Springer Berlin Heidelberg, 2010. 15–24.
^ Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.
^ Blackard, Jock A.; Dean, Denis J. (1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. Bibcode:1999CEAgr..24..131B. CiteSeerX 10.1.1.128.2475. doi:10.1016/s0168-1699(99)00046-0. S2CID 13985407.
^ Fürnkranz, Johannes. "Round robin rule learning."Proceedings of the 18th International Conference on Machine Learning (ICML-01): 146—153. 2001.
^ Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.
^ Мунисами, Тришен; и др. (2015). «Распознавание листьев растений с использованием особенностей формы и цветовой гистограммы с помощью классификаторов K-ближайших соседей» . Procedia Информатика . 58 : 740–747. дои : 10.1016/j.procs.2015.08.095 .
^ Ли, Бай (2016). «Сопоставление атомных потенциалов: эволюционный подход к распознаванию целей, основанный на краевых характеристиках». Оптик . 127 (5): 3162–3168. Бибкод : 2016Оптик.127.3162Л . дои : 10.1016/j.ijleo.2015.11.186 .
^ Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.
^ Нильсбак, Мария-Елена и Эндрю Зиссерман. « Визуальный словарь классификации цветов ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.
^ Гизельссон, Томас М.; и др. (2017). «Общедоступная база данных изображений для эталонных алгоритмов классификации саженцев растений». arXiv : 1711.05458 [ cs.CV ].
^ Олтян, Михай (2017). «Набор данных Fruits-360» . Гитхаб .
^ Накаи, Кента; Канехиса, Минору (1991). «Экспертная система прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика . 11 (2): 95–110. дои : 10.1002/прот.340110203 . ПМИД 1946347 . S2CID 27606447 .
^ Линг, Чарльз X. и др. « Деревья решений с минимальными затратами ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
^ Маэ, Пьер и др. « Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF ». Биоинформатика (2014): btu022.
^ Барбано, Дуэйн; и др. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием времяпролетной масс-спектрометрии с матричной лазерной десорбцией и ионизацией (MALDI-TOF MS)» . ПЛОС ОДИН . 10 (8): e0135337. Бибкод : 2015PLoSO..1035337B . дои : 10.1371/journal.pone.0135337 . ПМЦ 4536233 . ПМИД 26271045 .
^ Хортон, Пол; Накаи, Кента (1996). «Вероятностная система классификации для прогнозирования мест клеточной локализации белков» (PDF) . Протокол ISMB-96 . 4 : 109–15. ПМИД 8877510 . Архивировано из оригинала (PDF) 4 ноября 2021 года . Проверено 6 августа 2019 г.
^ Оллвейн, Эрин Л.; Шапире, Роберт Э.; Певец Йорам (2001). «Превращение мультикласса в двоичный: объединяющий подход для классификаторов полей» (PDF) . Журнал исследований машинного обучения . 1 : 113–141.
^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: прогнозирование токсичности с помощью глубокого обучения» . Границы в науке об окружающей среде . 3 : 80. дои : 10.3389/fenvs.2015.00080 .
^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). «Оценка алгоритмов обнаружения аномалий в реальном времени — эталонный тест Numenta Anomaly». 2015 г., 14-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA) . стр. 38–44. arXiv : 1510.03336 . дои : 10.1109/ICMLA.2015.141 . ISBN 978-1-5090-0287-0 . S2CID 6842305 .
^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович. «Репозиторий SKAB GitHub» . Гитхаб . Проверено 12 января 2021 г.
^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович (2020). «Бенчмарк аномалий Сколтеха (СКАБ)» . Кэггл. doi : 10.34740/KAGGLE/DSV/1693952 (неактивен 17 марта 2024 г.) . Проверено 12 января 2021 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь ) CS1 maint: DOI неактивен с марта 2024 г. ( ссылка )
^ Кампос, Гильерме О.; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Г.Б.; Миценкова, Барбора; Шуберт, Эрих; Согласен, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. doi : 10.1007/s10618-015-0444-8 . ISSN 1384-5810 . S2CID 1952214 .
^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для нейронных ответов на вопросы в базе знаний DBpedia . 2018.
^ Томмазо Сору, Эдгард Маркс. Диего Муссаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык . 2018.
^ Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения . КОЛИНГ 2020.
^ Киет Ван Нгуен, Кхием Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Расширение лексического подхода с использованием внешних знаний для понимания машинного чтения на вьетнамском языке с множественным выбором . Доступ IEEE. 2020.
^ Ананта, Равитея; Вакуленко Светлана; Ту, Чжучэн; Лонгпре, Шейн; Пулман, Стивен; Чаппиди, Шринивас (2020). «Ответы на вопросы в открытой области становятся диалоговыми благодаря переписыванию вопросов». arXiv : 2010.04898 [ cs.IR ].
^ Хашаби, Дэниел; Мин, Севон; Хот, Тушар; Сабхарвал, Ашиш; Тафьорд, Ойвинд; Кларк, Питер; Хаджиширзи, Ханнане (ноябрь 2020 г.). «UNIFIEDQA: пересекая границы форматов с помощью единой системы контроля качества» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2020 . Онлайн: Ассоциация компьютерной лингвистики: 1896–1907. arXiv : 2005.00700 . doi : 10.18653/v1/2020.findings-emnlp.171 . S2CID 218487109 .
^ Taskmaster , Наборы данных исследований Google, 17 декабря 2022 г. , получено 7 января 2023 г.
^ Бирн, Билл; Кришнамурти, Картик; Санкар, Чиннадхурай; Нилакантан, Арвинд; Дакворт, Дэниел; Явуз, Семих; Гудрич, Бен; Дубей, Амит; Цедильник, Энди; Ким, Кю Ён (1 сентября 2019 г.). «Наставник задач-1: к реалистичному и разнообразному набору данных диалога». arXiv : 1909.05358 [ cs.CL ].
^ Ясунага, Мичихиро; Лян, Перси (21 ноября 2020 г.). «Восстановление программ с самоконтролем на основе графиков на основе диагностической обратной связи» . Международная конференция по машинному обучению . ПМЛР: 10799–10808. arXiv : 2005.10636 .
^ Ван, Ичжун; Мишра, Сваруп; Алипурмолабаши, Пега; Корди, Йегане; Мирзаи, Амирреза; Арункумар, Анджана; Ашок, Арджун; Дханасекаран, Арут Сельван; Наик, Атхарва; Стапп, Дэвид; Патхак, Эшаан; Караманолакис, Яннис; Лай, Хайжи Гэри; Пурохит, Ишан; Мондал, Ишани (24 октября 2022 г.). «Сверхестественные инструкции: обобщение с помощью декларативных инструкций для более чем 1600 задач НЛП». arXiv : 2204.07705 [ cs.CL ].
^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Куан Нгок; Бернарди, Рафаэлла; Пеццелле, Сандро Барони, Марко; Боледа, Джемма; Фернандес, Ракель (7 августа 2016 г.), Набор данных LAMBADA , номер doi : 10.5281/zenodo.2630551 , получено 7 января 2023 г.
^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Нгок Куан; Бернарди, Рафаэлла; Пеццелле, Сандро; Барони, Марко; Боледа, Джемма; Фернандес, Ракель (август 2016 г.). «Набор данных LAMBADA: предсказание слов, требующее широкого контекста дискурса» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 1525–1534 гг. дои : 10.18653/v1/P16-1144 . hdl : 10230/32702 . S2CID 2381275 .
^ Вэй, Джейсон; Босма, Мартен; Чжао, Винсент; Гуу, Кельвин; Ю, Адамс Вэй; Лестер, Брайан; Ду, Нэн; Дай, Эндрю М.; Ле, Куок В. (10 февраля 2022 г.). «Точно настроенные языковые модели — это ученики с нулевым шансом» . arXiv : 2109.01652 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ «Работа с ATT&CK | MITRE ATT&CK®» . Attack.mitre.org . Проверено 14 января 2023 г.
^ «CAPEC — Перечисление и классификация общих шаблонов атак (CAPEC™)» . capec.mitre.org . Проверено 14 января 2023 г.
^ «CVE — Главная» . cve.mitre.org . Проверено 14 января 2023 г.
^ «CWE — Перечень общих слабостей» . cwe.mitre.org . Проверено 14 января 2023 г.
^ Лим, Суи Киат; Муис, Алдриан Обаха; Лу, Вэй; Онг, Чэнь Хуэй (июль 2017 г.). «MalwareTextDB: база данных для аннотированных статей о вредоносном ПО» . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Ванкувер, Канада: Ассоциация компьютерной лингвистики: 1557–1567. дои : 10.18653/v1/P17-1143 . S2CID 7816596 .
^ «ЮСЕНИКС» . УСЕНИКС . Проверено 19 января 2023 г.
^ «APTnotes | Прочтите документацию» . readthedocs.org . Проверено 19 января 2023 г.
^ «Недавние публикации авторов/названий в области криптографии и безопасности» . arxiv.org . Проверено 19 января 2023 г.
^ «Целостная информационная безопасность для веб-разработчиков — выпуск 0» . f0.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
^ «Целостная информационная безопасность для веб-разработчиков — выпуск 1» . f1.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
^ Винсент, Адам. «Взлом и усиление защиты веб-сервисов» (PDF) . owasp.org .
^ МакКрей, Джо. «Расширенное внедрение SQL» (PDF) . defcon.org .
^ Шах, Шрирадж. «Техника обнаружения и использования слепого внедрения SQL» (PDF) . blueinfy.com .
^ Палцер, КЦ «Этический хакерство» (PDF) . текстовые файлы .
^ «Раскрытые секреты взлома — информационно-методическое руководство» (PDF) .
^ Парк, Алексис. «Взломать любой сайт» (PDF) .
^ Серрудо, Сезар; Мартинес Файо, Эстебан. «Взлом баз данных для владения вашими данными» (PDF) . черная шляпа .
^ О'Коннор, Тиджей. «Violent Python — кулинарная книга для хакеров, судебных аналитиков, тестеров на проникновение и инженеров по безопасности» (PDF) . Гитхаб .
^ Гранд, Джо. «Реверс-инжиниринг оборудования: доступ, анализ и поражение» (PDF) . черная шляпа .
^ Чанг, Джейсон В. «Компьютерный взлом: обоснование требований к национальной отчетности» (PDF) . cyber.harvard.edu .
^ «Репозиторий национальных стратегий кибербезопасности» . МСЭ . Проверено 20 января 2023 г.
^ Чен, Яньлинь (31 августа 2022 г.), Cyber Security Natural Language Processing , получено 20 января 2023 г.
^ Зампиери, Маркос; Мальмаси, Шервин; Наков, Преслав; Розенталь, Сара; Фарра, Нура; Кумар, Ритеш (16 апреля 2019 г.). «Прогнозирование типа и цели оскорбительных публикаций в социальных сетях». arXiv : 1902.09666 [ cs.CL ].
^ «Сообщения об угрозах» . www.ncsc.gov.uk. Проверено 20 января 2023 г.
^ «Категория: Отчеты APT | Securelist» . Securelist.com . Проверено 23 января 2023 г.
^ «Ваша связь с новостями о кибербезопасности - Киберновости | CyberWire» . КиберВайр . Проверено 23 января 2023 г.
^ «Новости» . 21 августа 2016 года . Проверено 23 января 2023 г.
^ «Киберньюс» . Киберньюс .
^ «Блипингкомпьютер» . Мигающий компьютер . Проверено 23 января 2023 г.
^ «Домашняя страница» . Запись из Recorded Future News . Проверено 23 января 2023 г.
^ «HackRead | Последние киберпреступления — InfoSec-Tech — Новости хакерства» . 8 января 2022 г. Проверено 23 января 2023 г.
^ «Securelist | Исследования и отчеты Касперского об угрозах» . Securelist.com . Проверено 31 января 2023 г.
^ Харшоу, Кристофер Р.; Бриджес, Роберт А.; Яннаконе, Майкл Д.; Рид, Джоэл В.; Гудолл, Джон Р. (5 апреля 2016 г.). «Графпринтс» . Материалы 11-й ежегодной конференции по исследованию кибербезопасности и информационной безопасности . ЦИРЦ '16. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–4. дои : 10.1145/2897795.2897806 . ISBN 978-1-4503-3752-6 .
^ «Farsight Security, решения для кибербезопасности» . Безопасность Фарсайта . Проверено 13 февраля 2023 г.
^ «Шнайер о безопасности» . www.schneier.com . Проверено 13 февраля 2023 г.
^ «№1 в области облачной безопасности и кибербезопасности конечных точек» . Тренд Микро . Проверено 13 февраля 2023 г.
^ «Новости хакеров | Надежный сайт новостей кибербезопасности №1» . Хакерские новости . Проверено 13 февраля 2023 г.
^ «Кребс о безопасности – подробные новости и расследования в области безопасности» . Проверено 25 февраля 2023 г.
^ «График знаний MITRE D3FEND» . d3fend.mitre.org . Проверено 31 марта 2023 г.
^ «МИТР | АТЛАС™» . atlas.mitre.org . Проверено 31 марта 2023 г.
^ «MITRE Engage™ | Система взаимодействия с противниками от MITRE» . Проверено 1 апреля 2023 г.
^ «Уроки взлома — лучшие пошаговые руководства по хакерству» . Учебники по взлому . Проверено 1 апреля 2023 г.
^ «Центр знаний TCFD» . Центр знаний TCFD . Проверено 3 февраля 2023 г.
^ «ResponsibilityReports.com» . www.responsibilityreports.com . Проверено 3 февраля 2023 г.
^ «О — МГЭИК» . Проверено 20 февраля 2023 г.
^ «Альянс исследований корпоративной устойчивости | ARCS служит средством продвижения тщательных академических исследований по вопросам корпоративной устойчивости» . Corporate-sustainability.org . Проверено 2 марта 2023 г.
^ Мехра, Шришти; Лука, Роберт; Чжан, Исюнь (26 марта 2022 г.). «ESGBERT: языковая модель для помощи в задачах классификации, связанных с экологической, социальной и управленческой практикой компаний». Встроенные системы и приложения : 183–190. arXiv : 2203.16788 . дои : 10.5121/csit.2022.120616 . ISBN 9781925953657 . S2CID 247825524 .
^ В эту статью включен текст , доступный по лицензии CC BY 4.0 .
^ Диггельманн, Томас; Бойд-Грабер, Иордания; Булиан, Яннис; Чиарамита, Массимилиано; Лейппольд, Маркус (2 января 2021 г.). «КЛИМАТНАЯ ЛИХОРАДКА: набор данных для проверки реальных климатических заявлений». arXiv : 2012.00614 [ cs.CL ].
^ "климат-новости-дб" . www.climate-news-db.com . Проверено 3 февраля 2023 г.
^ «Климатекст» . www.sustainablefinance.uzh.ch . Проверено 19 февраля 2023 г.
^ «Гринбиз» . www.greenbiz.com . Проверено 2 марта 2023 г.
^ «Изучите горячий список @Reuters из 1000 ведущих ученых-климатологов» . Рейтер . Проверено 22 марта 2023 г.
^ «Блоги | Альянс исследований корпоративной устойчивости» . Corporate-sustainability.org . Проверено 27 марта 2023 г.
^ «Гринбиз» . www.greenbiz.com . Проверено 29 марта 2023 г.
^ «Новости КСО» . www.csrwire.com . Проверено 29 марта 2023 г.
^ «Домашняя страница CDP» . www.cdp.net . Проверено 29 марта 2023 г.
^ де Врис, Вред (2022). «Стек: 3 ТБ исходного кода с разрешительной лицензией». arXiv : 2211.15533 [ cs.CL ].
^ «Дедуляция стека» . Обнимающее лицо . Проверено 29 августа 2023 г.
^ «Блог о гибридном облаке» . content.cloud.redhat.com . Проверено 9 апреля 2023 г.
^ «Оркестровка контейнеров производственного уровня» . Кубернетес . Проверено 9 апреля 2023 г.
^ «Главная страница | Официальная документация Red Hat OpenShift» . docs.openshift.com . Проверено 9 апреля 2023 г.
^ «Фонд облачных вычислений» . Фонд облачных вычислений . Проверено 9 апреля 2023 г.
^ Презентации сообщества CNCF , Cloud Native Computing Foundation (CNCF), 11 апреля 2023 г. , получено 11 апреля 2023 г.
^ «Red Hat – Мы создаем технологии с открытым исходным кодом для предприятий» . www.redhat.com . Проверено 1 мая 2023 г.
^ Браун, Майкл Скотт, Майкл Дж. Пелоси и Генри Дирска. Генетический алгоритм с динамическим радиусом, сохраняющий виды, для финансового прогнозирования акций индекса Доу-Джонса. ^{[ мертвая ссылка ]}.. Машинное обучение и интеллектуальный анализ данных в распознавании образов . Springer Berlin Heidelberg, 2013. 27–41.
^ Шен, Као-И; Цзенг, Гво-Сюн (2015). «Модель VC-DRSA с нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем . 17 (3): 375–389. дои : 10.1007/s40815-015-0058-8 . S2CID 68241024 .
^ Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований . 27 (3): 221–234. CiteSeerX 10.1.1.18.4267 . дои : 10.1016/s0020-7373(87)80053-6 .
^ Хамерс, Барт; Суйкенс, Йохан АК; Де Мур, Барт (2003). «Связанное трансдуктивное ансамблевое обучение моделей ядра» (PDF) . Журнал исследований машинного обучения . 1 :1–48.
^ Шмуэли, Галит , Ральф П. Руссо и Вольфганг Янк. « БАРИСТА: модель поступления ставок на интернет-аукционах ». Анналы прикладной статистики (2007): 412–441.
^ Пэн, Цзе и Ханс-Георг Мюллер. « Дистанционная кластеризация редко наблюдаемых случайных процессов с применением к онлайн-аукционам ». Анналы прикладной статистики (2008): 1056–1077.
^ Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. « Генетическое программирование для классификации данных: разделение пространства поиска ». Материалы симпозиума ACM 2004 года по прикладным вычислениям . АКМ, 2004.
^ Моро, Сержио; Кортес, Пауло; Рита, Пауло (2014). «Подход, основанный на данных, для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений . 62 : 22–31. дои : 10.1016/j.dss.2014.03.001 . hdl : 10071/9499 . S2CID 14181100 .
^ Пейн, Ричард Д.; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv : 1411.5653 [ stat.ME ].
^ Акбилгыч, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель гибридных нейронных сетей RBF в качестве прогнозиста». Статистика и вычисления . 24 (3): 365–375. дои : 10.1007/s11222-013-9375-7 . S2CID 17764829 .
^ Джабин, Сурайя. « Прогнозирование фондового рынка с использованием искусственной нейронной сети прямого распространения ». Межд. Дж. Компьютер. Прил. (IJCA) 99,9 (2014 г.).
^ Да, И-Чэн; Че-хуэй, Лянь (2009). «Сравнение методов интеллектуального анализа данных для точности прогнозирования вероятности дефолта клиентов по кредитным картам». Экспертные системы с приложениями . 36 (2): 2473–2480. дои : 10.1016/j.eswa.2007.12.020 . S2CID 15696161 .
^ Линь, Шу Лин (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями . 36 (4): 8333–8341. дои : 10.1016/j.eswa.2008.10.015 .
^ Юмо Сюй и Шей Б. Коэн. 2018. Прогноз движения акций на основе твитов и исторических цен. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) , страницы 1970–1979, Мельбурн, Австралия. Ассоциация компьютерной лингвистики.
^ Пелкманс, Кристиан; и др. (2005). «Дифференциограмма: непараметрическая оценка дисперсии шума и ее использование для выбора модели». Нейрокомпьютинг . 69 (1): 100–122. doi : 10.1016/j.neucom.2005.02.015 .
^ Бэй, Стивен Д.; и др. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень об исследованиях ACM SIGKDD . 2 (2): 81–85. CiteSeerX 10.1.1.15.9776 . дои : 10.1145/380995.381030 . S2CID 534881 .
^ Лукас, Д.Д.; и др. (2015). «Разработка оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости» . Геонаучные приборы, методы и системы данных . 4 (1): 121. Бибкод : 2015GI......4..121L . дои : 10.5194/gi-4-121-2015 .
^ Пэйлс, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований . 70 (24): 6053–6076. Бибкод : 1965JGR....70.6053P . дои : 10.1029/jz070i024p06053 .
^ Сигиллито, Винсент Г. и др. «Классификация радиолокационных сигналов из ионосферы с использованием нейронных сетей». Технический дайджест Johns Hopkins APL 10.3 (1989): 262–266.
^ Чжан, Кун и Вэй Фань. « Прогнозирование искаженных стохастических озоновых дней: анализ, решения и не только ». Знания и информационные системы 14.3 (2008): 299–326.
^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. « Байесовская пространственная квантильная регрессия ». Журнал Американской статистической ассоциации (2012).
^ Кохави, Рон (1996). «Повышение точности классификаторов Найва-Байеса: гибрид дерева решений». КДД . 96 .
^ Оза, Никундж К. и Стюарт Рассел. «Экспериментальное сравнение онлайн- и пакетной версий упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2001.
^ Бэй, Стивен Д. (2001). «Многомерная дискретизация для интеллектуального анализа множеств». Знания и информационные системы . 3 (4): 491–512. CiteSeerX 10.1.1.217.921 . дои : 10.1007/pl00011680 . S2CID 10945544 .
^ Рагглс, Стивен (1995). «Схемы выборки и ошибки выборки». Исторические методы . 28 (1): 40–46. дои : 10.1080/01615440.1995.9955312 .
^ Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. « Метод кривой обучения применительно к кластеризации ». АЙСТАТС . 2001.
^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая ансамблевые детекторы и базовые знания» . Прогресс в области искусственного интеллекта . 2 (2–3): 113–127. дои : 10.1007/s13748-013-0040-3 . S2CID 3345087 .
^ Жио, Ромен и Рафаэль Шерье. « Прогнозирование использования системы велопроката на день вперед ». Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г., Россия . ИИЭР, 2014.
^ Чжан, Сяньюань; и др. (2013). «Оценка времени в пути по городскому маршруту с использованием крупномасштабных данных такси с частичной информацией». Транспортные исследования, часть C: Новые технологии . 33 : 37–49. Бибкод : 2013TRPC...33...37Z . дои : 10.1016/j.trc.2013.04.001 .
^ Морейра-Матиас, Луис; и др. (2013). «Прогнозирование спроса пассажиров на такси с использованием потоковых данных» . Транзакции IEEE в интеллектуальных транспортных системах . 14 (3): 1393–1402. дои : 10.1109/tits.2013.2262376 . S2CID 14764358 .
^ Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки . 314 : 28–40. дои : 10.1016/j.ins.2015.03.068 .
^ Х.В. Джагадиш, Йоханнес Герке, Александрос Лабринидис, Яннис Папаконстантину, Джинеш М. Патель,Рагху Рамакришнан и Сайрус Шахаби. Большие данные и их технические проблемы. Коммун. акм,57(7):86–94, июль 2014 г.
^ Кальтранс ПеМС
^ Мейзель, Роберт и др. « Структура графов в Интернете — анализ на разных уровнях агрегации ». Журнал веб-науки 1.1 (2015).
^ Кушмерик, Николас. « Учимся удалять интернет-рекламу ». Материалы третьей ежегодной конференции по автономным агентам . АКМ, 1999.
^ Фрадкин, Дмитрий и Дэвид Мэдиган. « Эксперименты со случайными прогнозами для машинного обучения ». Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2003.
^ Эти данные использовались в разделах статистической графики и вычислений Американской статистической ассоциации за 1999 год.
^ Ма, Джастин и др. « Выявление подозрительных URL-адресов: применение масштабного онлайн-обучения ». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ, 2009.
^ Левченко, Кирилл и др. « Траектории кликов: сквозной анализ цепочки создания стоимости спама ». Безопасность и конфиденциальность (SP), симпозиум IEEE 2011 г., посвященный . ИИЭР, 2011.
^ Мохаммад, Рами М., Фади Табта и Ли Маккласки. « Оценка особенностей, связанных с фишинговыми веб-сайтами, с использованием автоматизированного метода ». Интернет-технологии и защищенные транзакции, Международная конференция 2012 г. для . ИИЭР, 2012.
^ Сингх, Ашишкумар и др. « Эксперименты по кластеризации больших данных о транзакциях для сегментации рынка ». Материалы Международной конференции по науке о больших данных и вычислительной технике 2014 года . АКМ, 2014.
^ Боллакер, Курт и др. « Freebase: совместно созданная графовая база данных для структурирования человеческих знаний ». Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными . АКМ, 2008.
^ Минц, Майк и др. « Дистанционный контроль для извлечения отношений без помеченных данных ». Материалы совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции по обработке естественного языка AFNLP: Том 2-Том 2 . Ассоциация компьютерной лингвистики, 2009.
^ Местерхарм, Крис и Майкл Дж. Паццани. « Активное обучение с использованием онлайн-алгоритмов. Архивировано 22 сентября 2017 г. в Wayback Machine ». Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2011.
^ Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и аппроксимации Нистрема с помощью адаптивной выборки» (PDF) . Журнал исследований машинного обучения . 14 (1): 2729–2769. arXiv : 1303.4207 . Бибкод : 2013arXiv1303.4207W .
^ Перейти обратно: ^а ^б «Куча» . Pile.eleuther.ai . Проверено 14 апреля 2022 г.
^ «Линии JSON» . jsonlines.org . Проверено 14 апреля 2022 г.
^ Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
^ «ОСКАР» . oscar-project.org . Проверено 12 августа 2023 г.
^ Ортис Суарес, Педро и др. « [2] ». Асинхронный конвейер для обработки огромных корпораций в инфраструктурах со средними и низкими ресурсами . ЦМЛК-7, 2019.
^ Абаджи, Жюльен и др. « [3] ». На пути к более чистому многоязычному сканируемому корпусу, ориентированному на документы . ЛРЭЦ, 2022.
^ Коэн, Ваня. «ОпенВебТекстКорпус» . OpenWebTextКорпус . Проверено 9 января 2023 г.
^ "openwebtext · Наборы данных в обнимающем лице" . Huggingface.co . 16 ноября 2022 г. Проверено 9 января 2023 г.
^ Солнье, Люсиль (2023). «Корпус BigScience ROOTS: составной многоязычный набор данных объемом 1,6 ТБ». arXiv : 2303.03915 [ cs.CL ].
^ «Данные BigScience · Наборы данных в обнимающем лице» . Huggingface.co . 29 августа 2023 г. Проверено 29 августа 2023 г.
^ Каттрал, Роберт; Оппачер, Франц; Деуго, Дуайт (2002). «Эволюционный анализ данных с автоматическим обобщением правил» (PDF) . Последние достижения в области компьютеров, вычислений и коммуникаций : 296–300. S2CID 18625415 . Архивировано из оригинала (PDF) 6 августа 2019 года.
^ Бертон, Ариэль Н.; Келли, Пол Х.Дж. (2006). «Прогнозирование производительности рабочих нагрузок подкачки с использованием облегченной трассировки». Компьютерные системы будущего поколения . 22 (7). Эльзевир Б.В.: 784–793. дои : 10.1016/j.future.2006.02.003 . ISSN 0167-739X .
^ Бейн, Майкл; Магглтон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект . 13 . Oxford University Press, Inc.: 291–309. дои : 10.1093/oso/9780198538509.003.0012 . ISBN 978-0-19-853850-9 .
^ Килан, младший (1983). «Изучение эффективных процедур классификации и их применение к шахматным эндшпилям». Машинное обучение – эффективные процедуры классификации обучения и их применение в шахматных эндшпильах . Том. 1. С. 463–482. дои : 10.1007/978-3-662-12405-5_15 . ISBN 978-3-662-12407-9 . {{cite book}}: |journal= игнорируется ( помогите )
^ Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк.
^ Матеус, Кристофер Дж.; Ренделл, Ларри А. (1989). «Конструктивная индукция по деревьям решений» (PDF) . ИДЖКАИ . 89 . ^{[ мертвая ссылка ]}
^ Белсли, Дэвид А., Эдвин Кух и Рой Э. Уэлш. Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности . Том. 571. Джон Уайли и сыновья, 2005.
^ Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия, основанная на знаниях» (PDF) . Интеллектуальные системы IEEE . 24 (2): 64–75. дои : 10.1109/MIS.2009.32 . hdl : 1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7 . S2CID 6667472 . Архивировано из оригинала (PDF) 16 августа 2017 года . Проверено 6 декабря 2018 г.
^ Ли, Лихун; Чу, Вэй; Лэнгфорд, Джон; Ван, Сюаньхуэй (2011). «Непредвзятая офлайн-оценка алгоритмов рекомендации новостных статей на основе контекстных бандитов». Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных . стр. 297–306. arXiv : 1003.5956 . дои : 10.1145/1935826.1935878 . ISBN 9781450304931 . S2CID 744200 .
^ Юнг, Кам Фунг и Яньян Ян. « Проактивная персонализированная система рекомендаций для мобильных новостей ». Разработки в области разработки электронных систем (DESE), 2010 г. ИИЭР, 2010.
^ Гасс, Сьюзен Э.; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль над распространением». Бюллетень о загрязнении морской среды . 52 (5): 549–559. Бибкод : 2006МарПБ..52..549Г . дои : 10.1016/j.marpolbul.2005.10.002 . ПМИД 16300800 .
^ Гионис, Аристид; Маннила, Хейкки; Цапарас, Панайотис (2007). «Кластерная агрегация». Транзакции ACM по извлечению знаний из данных . 1 (1): 4. CiteSeerX 10.1.1.709.528 . дои : 10.1145/1217299.1217303 . S2CID 433708 .
^ Обрадович, Зоран и Слободан Вучетич. Проблемы интеллектуального анализа научных данных: гетерогенные, смещенные и большие выборки . Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.
^ Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). «Вызов CoIL 2000: Дело страховой компании». Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук . 9 : 1–43.
^ Мао, Казахстан (2002). «Выбор центра нейронной сети RBF на основе меры разделимости класса отношения Фишера». Транзакции IEEE в нейронных сетях . 13 (5): 1211–1217. дои : 10.1109/tnn.2002.1031953 . ПМИД 18244518 .
^ Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в государственные школы» (PDF) . Экспертные системы в государственном управлении . 1 : 145–160.
^ Лизотт, Дэниел Дж.; Мадани, Омид; Грейнер, Рассел (2012). «Бюджетное обучение классификаторов Найва-Байеса». arXiv : 1212.2472 [ cs.LG ].
^ Лебовиц, Майкл (1986). «Концептуальное обучение в богатой входной области: память, основанная на обобщениях» . Машинное обучение: подход искусственного интеллекта . 2 : 193–214. ISBN 9780934613002 .
^ Да, И-Чэн; Ян, Кинг-Янг; Тин, Тао-Мин (2009). «Открытие знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями . 36 (3): 5866–5871. дои : 10.1016/j.eswa.2008.07.018 .
^ Ли, Вэнь-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система для повышения эффективности донорства крови» . Журнал качества Vol . 18 (2): 173.
^ Шмидтманн, Ирен и др. « Оценка реестра раковых заболеваний NRW с упором на связь записей. Архивировано 6 декабря 2018 г. в Wayback Machine ». Итоговый отчет от 11 ноября (2009 г.).
^ Сарияр, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с использованием теории экстремальных значений». Журнал биомедицинской информатики . 44 (4): 648–654. дои : 10.1016/j.jbi.2011.02.008 . ПМИД 21352952 .
^ Кандильер, Лоран и Винсент Лемэр. « Разработка и анализ задачи Nomao по активному обучению в реальном мире ». Труды ALRA: активное обучение в реальных приложениях, семинар ECML-PKDD . 2012.
^ Маркес, Иван Гарридо. « Метод адаптации предметной области для классификации текста на основе подхода самонастраивающегося обучения ». (2013).
^ Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные сетки для кластеризации больших наборов данных». СДМ. 2001.
^ Кузилек, Якуб и др. « OU Analyse: анализ студентов из группы риска в Открытом университете ». Обзор аналитики обучения (2015): 1–16.
^ Сименс, Джордж и др. Open Learning Analytics: интегрированная и модульная платформа ^{[ постоянная мертвая ссылка ]}. Дисс. Издательство Открытого университета, 2011.
^ Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читик, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных о городской жизни города Милана и провинции Трентино из нескольких источников» . Научные данные . 2 : 150055. Бибкод : 2015NatSD...250055B . дои : 10.1038/sdata.2015.55 . ISSN 2052-4463 . ПМЦ 4622222 . ПМИД 26528394 .
^ Ваншорен Дж., Ван Рейн Дж.Н., Бишл Б., Торго Л. (2013). «OpenML: сетевая наука в машинном обучении». Исследования SIGKDD . 15 (2): 49–60. arXiv : 1407.7722 . дои : 10.1145/2641190.2641198 . S2CID 4977460 .
^ Олсон Р.С., Ла Кава В., Ожеховский П., Урбанович Р.Дж., Мур Дж.Х. (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения» . Добыча биоданных . 10 (1): 36. arXiv : 1703.00512 . Бибкод : 2017arXiv170300512O . дои : 10.1186/s13040-017-0154-4 . ПМЦ 5725843 . ПМИД 29238404 .
^ «Готовые наборы данных» . appen.com . Приложение . Проверено 30 декабря 2020 г.
^ «Наборы данных с открытым исходным кодом» . appen.com . Приложение . Проверено 30 декабря 2020 г.

[1] Wissner-Gross, A. "Datasets Over Algorithms". Edge.com. Retrieved 8 January 2016.

[2] Weiss, G. M.; Provost, F. (1 September 2003). "Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction". Journal of Artificial Intelligence Research. 19. AI Access Foundation: 315–354. doi:10.1613/jair.1199. ISSN 1076-9757. S2CID 2344521.

[3] Turney, Peter (2000). "Types of cost in inductive concept learning". arXiv:cs/0212034.

[4] Abney, Steven (17 September 2007). Semisupervised Learning for Computational Linguistics. CRC Press. ISBN 978-1-4200-1080-0.

[5] Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Active Learning with Evolving Streaming Data". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. Vol. 6913. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 597–612. doi:10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9. ISSN 0302-9743.

[6] McAuley, Julian; Targett, Christopher; Shi, Qinfeng; Anton van den Hengel (2015). "Image-based Recommendations on Styles and Substitutes". arXiv:1506.04757 [cs.CV].

[7] "Amazon review data". nijianmo.github.io. Retrieved 8 October 2021.

[8] Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Information Retrieval. 15 (2): 116–150. doi:10.1007/s10791-011-9174-8. hdl:2142/15252. S2CID 16258727.

[9] Lv, Yuanhua, Dimitrios Lymberopoulos, and Qiang Wu. "An exploration of ranking heuristics in mobile local search." Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012.

[10] Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". ACM Transactions on Interactive Intelligent Systems. 5 (4): 19. doi:10.1145/2827872. S2CID 16619709.

[11] Koenigstein, Noam, Gideon Dror, and Yehuda Koren. "Yahoo! music recommendations: modeling music ratings with temporal dynamics and item taxonomy." Proceedings of the fifth ACM conference on Recommender systems. ACM, 2011.

[12] McFee, Brian, et al. "The million song dataset challenge." Proceedings of the 21st international conference companion on World Wide Web. ACM, 2012.

[13] Bohanec, Marko, and Vladislav Rajkovic. "Knowledge acquisition and explanation for multi-attribute decision making." 8th Intl Workshop on Expert Systems and their Applications. 1988.

[14] Tan, Peter J., and David L. Dowe. "MML inference of decision graphs with multi-way joins." Australian Joint Conference on Artificial Intelligence. 2002.

[15] "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Retrieved 26 October 2020.

[16] Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Communications in Computer and Information Science. Vol. 310. pp. 505–512. doi:10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2.

[17] Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339.

[18] Loh, Wei-Yin, and Yu-Shan Shih. "Split selection methods for classification trees." Statistica sinica(1997): 815–840.

[19] Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Machine Learning. 40 (3): 203–228. doi:10.1023/a:1007608224229. S2CID 17030953.

[20] Kiet Van Nguyen, Vu Duc Nguyen, Phu X. V. Nguyen, Tham T. H. Truong, Ngan Luu-Thuy Nguyen. "UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis

[21] Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Emotion Recognition for Vietnamese Social Media Text". Computational Linguistics. Communications in Computer and Information Science. Vol. 1215. pp. 319–333. arXiv:1911.09339. doi:10.1007/978-981-15-6168-9_27. ISBN 978-981-15-6167-2. S2CID 208202333.

[22] Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 April 2021). "Vietnamese Open-domain Complaint Detection in E-Commerce Websites". arXiv:2104.11969 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)

[23] Phu Gia Hoang, Canh Duc Luu, Khanh Quoc Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (26 January 2023). "ViHOS: Hate Speech Spans Detection for Vietnamese". arXiv:2301.10186 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)

[24] Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). "A Joint Model for Topic-Sentiment Evolution over Time". 2014 IEEE International Conference on Data Mining. IEEE. pp. 773–778. doi:10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9.

[25] Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF). LREC. 2. S2CID 9239414. Archived from the original (PDF) on 6 August 2019.

[26] Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views – an Application to Multilingual Text Categorization". Advances in Neural Information Processing Systems. 22: 28–36.

[27] Liu, Ming; et al. (2015). "VRCA: a clustering algorithm for massive amount of texts". Proceedings of the 24th International Conference on Artificial Intelligence. AAAI Press. Archived from the original on 5 November 2021. Retrieved 6 August 2019.

[28] Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.

[29] "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". GitHub. 17 December 2018.

[30] "The Examiner – SpamClickBait Catalogue".

[31] "A Million News Headlines".

[32] "One Week of Global News Feeds".

[33] Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, doi:10.7910/DVN/XDB74W

[34] "IrishTimes – the Waxy-Wany News".

[35] "News Headlines Dataset For Sarcasm Detection". kaggle.com. Retrieved 27 April 2019.

[36] Klimt, Bryan, and Yiming Yang. "Introducing the Enron Corpus." CEAS. 2004.

[37] Kossinets, Gueorgi; Kleinberg, Jon; Watts, Duncan (2008). "The Structure of Information Pathways in a Social Communication Network". arXiv:0806.3201 [physics.soc-ph].

[38] Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. Vol. 11. pp. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.

[39] Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). The Journal of Machine Learning Research. 7: 2673–2698.

[40] Almeida, Tiago A., José María G. Hidalgo, and Akebo Yamakami. "Contributions to the study of SMS spam filtering: new collection and results."Proceedings of the 11th ACM symposium on Document engineering. ACM, 2011.

[41] Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Expert Systems with Applications. 39 (10): 9899–9908. doi:10.1016/j.eswa.2012.02.053. S2CID 15546924.

[42] Joachims, Thorsten. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. No. CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa dept of computer science, 1996.

[43] Dimitrakakis, Christos, and Samy Bengio. Online Policy Adaptation for Ensemble Algorithms. No. EPFL-REPORT-82788. IDIAP, 2002.

[44] Dooms, S. et al. "Movietweetings: a movie rating dataset collected from twitter, 2013. Available from https://github.com/sidooms/MovieTweetings."

[45] RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV].

[46] "huyt16/Twitter100k". GitHub. Retrieved 26 March 2018.

[47] Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.

[48] Chikersal, Prerna, Soujanya Poria, and Erik Cambria. "SeNTU: sentiment analysis of tweets by combining a rule-based classifier with supervised learning." Proceedings of the International Workshop on Semantic Evaluation, SemEval. 2015.

[49] Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).

[50] Data Science Course by DataTrained Education "IBM Certified Data Science Course^{[dead link]}." IBM Certified Online Data Science Course

[51] McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.

[52] Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Scientific Reports. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4E6496S. doi:10.1038/srep06496. PMC 4178292. PMID 25263231.

[53] Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.

[54] Abooraig, Raddad, et al. "On the automatic categorization of Arabic articles based on their political orientation." Third International Conference on Informatics Engineering and Information Science (ICIEIS2014). 2014.

[55] Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.

[56] Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG].

[57] Xu et al. "SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT)" Proceedings of the 9th International Workshop on Semantic Evaluation. 2015.

[58] Xu et al. "Extracting Lexically Divergent Paraphrases from Twitter" Transactions of the Association for Computational (TACL). 2014.

[59] Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). IEEE Intelligent Systems. 29 (2): 9–17. doi:10.1109/MIS.2013.126. S2CID 15139204.

[60] "geoparsepy". 2016. Python PyPI library

[61] Shmueli, Boaz; Ku, Lun-Wei; Ray, Soumya (2020). "Reactive Supervision: A New Method for Collecting Sarcasm Data". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. pp. 2553–2559. doi:10.18653/v1/2020.emnlp-main.201. S2CID 221970454.

[62] Shmueli, Boaz. "SPIRS Sarcasm Dataset". GitHub.

[DSMC_1-63] Gupta, Aakash (2020). "Dutch social media collection". COVID-19 Data Hub. doi:10.5072/FK2/MTPTL7. Retrieved 11 November 2023.

[64] "Streamlit". huggingface.co. Retrieved 18 December 2020.

[65] "Dutch Social media collection". kaggle.com. Retrieved 18 December 2020.

[66] Shmueli, Boaz; Ray, Soumya; Lun-Wei (2021). "Happy Dance, Slow Clap: Using Reaction GIFs to Predict Induced Affect on Twitter". Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Vol. Association for Computational Linguistics. As. pp. 395–401. doi:10.18653/v1/2021.acl-short.50. S2CID 235125510.

[67] Shmueli, Boaz (5 May 2023), ReactionGIF, retrieved 6 October 2023

[68] Forsyth, E., Lin, J., & Martell, C. (2008, June 25). The NPS Chat Corpus. Retrieved from http://faculty.nps.edu/cmartell/NPSChat.htm

[69] Sordoni, Alessandro; Galley, Michel; Auli, Michael; Brockett, Chris; Ji, Yangfeng; Mitchell, Margaret; Nie, Jian-Yun; Gao, Jianfeng; Dolan, Bill (2015). "A Neural Network Approach to Context-Sensitive Generation of Conversational Responses". arXiv:1506.06714 [cs.CL].

[70] Shaoul, C. & Westbury C. (2013) A reduced redundancy USENET corpus (2005–2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html)

[71] KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Retrieved from http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/ Archived 29 June 2018 at the Wayback Machine

[72] Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Message posted to https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

[73] Lowe, Ryan; Pow, Nissan; Serban, Iulian; Pineau, Joelle (2015). "The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems". arXiv:1506.08909 [cs.CL].

[74] Jason Williams Antoine Raux Matthew Henderson, "[1]", Dialogue & Discourse | April 2016 .

[75] Hoppe, Travis (16 December 2021), The-Pile-FreeLaw, retrieved 11 January 2023

[76] Zheng, Lucia; Guha, Neel; Anderson, Brandon R.; Henderson, Peter; Ho, Daniel E. (21 June 2021). "When does pretraining help?". Proceedings of the Eighteenth International Conference on Artificial Intelligence and Law. New York, NY, USA: ACM. pp. 159–168. doi:10.1145/3462757.3466088. ISBN 9781450385268. S2CID 233296302.

[77] "pile-of-law/pile-of-law · Datasets at Hugging Face". huggingface.co. 4 July 2022. Retrieved 11 January 2023.

[78] "About | Caselaw Access Project". case.law. Retrieved 11 January 2023.

[KOW2017-79] K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364–371. doi:10.1109/ICMLA.2017.0-134

[KOW2017WOS-80] K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "Web of Science Dataset", doi:10.17632/9rw3vkcfy4.6

[81] Galgani, Filippo, Paul Compton, and Achim Hoffmann. "Combining different summarization techniques for legal text." Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Association for Computational Linguistics, 2012.

[82] Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Journal of Big Data. 2 (1): 1–18. doi:10.1186/s40537-015-0020-5.

[83] Schler, Jonathan; et al. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6. Archived from the original (PDF) on 14 November 2020. Retrieved 6 August 2019.

[84] Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.

[85] Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Statistical Mechanics and its Applications391.16 (2012): 4165–4180.

[86] Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS].

[87] Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.

[88] Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI].

[89] Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Computational Linguistics. 19 (2): 313–330.

[90] Коллинз, Майкл (2003). «Головные статистические модели для анализа естественного языка» . Компьютерная лингвистика . 29 (4): 589–637. дои : 10.1162/089120103322753356 .

[91] Гийон, Изабель и др., ред. Извлечение функций: основы и приложения . Том. 207. Спрингер, 2008.

[92] Лин, Юрий и др. « Синтаксические аннотации для корпуса ngram книг Google ». Материалы демонстраций системы ACL 2012 . Ассоциация компьютерной лингвистики, 2012.

[93] Кришнамурти, Ниведа; и др. (2013). «Создание описаний видео на естественном языке с использованием текстовых знаний» . АААИ . 1 . Архивировано из оригинала 6 августа 2019 года . Проверено 6 августа 2019 г.

[94] Люйкс, Ким и Уолтер Далеманс. « Персоны: корпус предсказаний автора и личности на основе текста» ^{[ мертвая ссылка ]}ЛРЭЦ . 2008.

[95] Солорио, Тамар, Рагиб Хасан и Майнул Мизан. « Пример обнаружения кукол в Википедии ». Семинар по языковому анализу в социальных сетях (LASM) в NAACL HLT . 2013.

[96] «Файлы сдвига» . файлы.pushshift.io . Архивировано из оригинала 12 января 2023 года . Проверено 12 января 2023 г.

[97] Баумгартнер, Джейсон; Занетту, Саввас; Киган, Брайан; Сквайр, Меган; Блэкберн, Джереми (23 января 2020 г.). «Набор данных Pushshift Reddit». arXiv : 2001.08435 [ cs.SI ].

[98] Сиарелли, Патрик Маркес и Элиас Оливейра. « Агломерация и устранение условий понижения размерности ». Проектирование и применение интеллектуальных систем, 2009. ISDA'09. Девятая международная конференция по . ИИЭР, 2009.

[99] Чжоу, Минъюань, Оскар Эрнан Мадрид Падилья и Джеймс Г. Скотт. «Априорные данные для матриц случайного счета, полученных из семейства отрицательных биномиальных процессов». журнал Американской статистической ассоциации (2015 г.): 00–00. Только что принятый

[100] Коциас, Димитриос и др. « От группы к индивидуальным меткам с использованием глубоких функций ». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. АКМ, 2015.

[101] Нин, Юэ; Мутия, Сатхаппан; Рангвала, Хузефа; Рамакришнан, Нарен (2016). «Моделирование предшественников для прогнозирования событий посредством вложенного многоэкземплярного обучения». arXiv : 1602.08033 [ cs.SI ].

[102] Буза, Кристиан. « Прогнозирование обратной связи для блогов ». Анализ данных, машинное обучение и обнаружение знаний . Springer International Publishing, 2014. 145–152.

[103] Сойсал, Омер М (2015). «Анализ правил ассоциации с преимущественно связанными последовательными шаблонами». Экспертные системы с приложениями . 42 (5): 2582–2592. дои : 10.1016/j.eswa.2014.10.049 .

[104] Чжу, Юкун и др. «Совмещение книг и фильмов: к визуальным объяснениям, похожим на истории, путем просмотра фильмов и чтения книг». Материалы международной конференции IEEE по компьютерному зрению . 2015.

[105] Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). «Большой аннотированный корпус для изучения вывода на естественном языке». arXiv : 1508.05326 [ cs.CL ].

[106] «Коллекция корпуса DSL» . ttg.uni-saarland.de . Проверено 22 сентября 2017 г.

[107] «Городской словарь слов и определений» .

[108] Х. Эльсахар, П. Вугиуклис, А. Ремачи, К. Гравье, Дж. Хэйр, Ф. Лафорест, Э. Симперл, « T-REx: крупномасштабное согласование естественного языка с тройками базы знаний », Труды Одиннадцатая Международная конференция по языковым ресурсам и оценке (LREC-2018).

[109] Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омер; Боуман, Сэмюэл Р. (2018). «GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка». arXiv : 1804.07461 [ cs.CL ].

[110] «Компьютеры учатся читать, но они все еще не такие умные» . Проводной . Проверено 29 декабря 2019 г.

[111] «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Проверено 25 февраля 2019 г.

[112] Цюань, Хоанг Лам; Куанг, Дуй Ле; Ван Киет, Нгуен; Нган, Луу-Туй Нгуен. «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке» .

[113] Куок Хай; Нгуен, Ван Киет; Нгуен, Луу Туй Нган; Нгуен, Гиа Туан Ань (2020). «Прогнозирование пола на основе вьетнамских имен с использованием методов машинного обучения». Материалы 4-й Международной конференции по обработке естественного языка и поиску информации . стр. 55–60. arXiv : 2010.10852 . дои : 10.1145/3443279.3443309 . ISBN 9781450377607 . S2CID 224814110 .

[114] Нгуен, Луан Тхань; Ван Нгуен, Киет; Нгуен, Нган Луу-Туи (18 марта 2021 г.). «Обнаружение конструктивной и токсичной речи для комментариев в социальных сетях в открытом доступе на вьетнамском языке». Достижения и тенденции в области искусственного интеллекта. Практика искусственного интеллекта . Конспекты лекций по информатике. Том. 12798. стр. 572–583. arXiv : 2103.10069 . дои : 10.1007/978-3-030-79457-6_49 . ISBN 978-3-030-79456-9 . S2CID 232269671 .

[115] Сакстон, Дэвид и др. «Анализ способностей нейронных моделей к математическому мышлению». Международная конференция по обучению представлений . 2018.

[116] М. Верстег, Р. Тиольер, Т. Шац, X.-N. Цао, К. Ангера, А. Янсен и Э. Дюпу (2015). «The Zero Resource Speech Challenge 2015», в рамках INTERSPEECH-2015.

[117] М. Верстег, X. Ангера, А. Янсен и Э. Дюпу (2016). « Вызов речи с нулевыми ресурсами 2015: предлагаемые подходы и результаты », на SLTU-2016.

[118] Сакар, Бетул Эрдогду; и др. (2013). «Сбор и анализ набора речевых данных Паркинсона с несколькими типами звукозаписей». Журнал IEEE по биомедицинской и медицинской информатике . 17 (4): 828–834. дои : 10.1109/jbhi.2013.2245674 . ПМИД 25055311 . S2CID 15491516 .

[119] Чжао, Шунан и др. « Автоматическое обнаружение выраженных эмоций при болезни Паркинсона ». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.

[:2-120] Используется в: Хаммами, Насереддине и Моулди Бедде. «Улучшенная древовидная модель распознавания арабской речи». Компьютерные науки и информационные технологии (ICCSIT), 2010 г. 3-я Международная конференция IEEE по . Том. 5. ИИЭР, 2010.

[121] Маатен, Лоуренс. « Изучение дискриминационных ядер Фишера ». Материалы 28-й Международной конференции по машинному обучению (ICML-11) . 2011.

[122] Коул, Рональд и Марк Фэнти. « Распознавание устной буквы ». Учеб. Третий семинар DARPA по речи и естественному языку . 1990.

[123] Шапель, Оливье; Синдхвани, Викас; Кирти, Сатья С. (2008). «Методы оптимизации для полуконтролируемых машин опорных векторов» (PDF) . Журнал исследований машинного обучения . 9 : 203–233.

[124] Кудо, Минеичи; Тояма, Джун; Симбо, Масару (1999). «Классификация многомерных кривых с использованием областей прохождения». Буквы для распознавания образов . 20 (11): 1103–1111. Бибкод : 1999PaReL..20.1103K . CiteSeerX 10.1.1.46.2515 . дои : 10.1016/s0167-8655(99)00077-x .

[125] Джагер, Герберт; и др. (2007). «Оптимизация и применение сетей эхо-состояний с нейронами вытекающего интегратора». Нейронные сети . 20 (3): 335–352. дои : 10.1016/j.neunet.2007.04.016 . ПМИД 17517495 .

[126] Цанас, Афанасий; и др. (2010). «Точный телемониторинг прогрессирования болезни Паркинсона с помощью неинвазивных речевых тестов» . Транзакции IEEE по биомедицинской инженерии (представленная рукопись). 57 (4): 884–893. дои : 10.1109/tbme.2009.2036000 . ПМИД 19932995 . S2CID 7382779 .

[127] Клиффорд, Гари Д.; Клифтон, Дэвид (2012). «Беспроводные технологии в лечении заболеваний и медицине». Ежегодный обзор медицины . 63 : 479–492. doi : 10.1146/annurev-med-051210-114650 . ПМИД 22053737 .

[128] Зуэ, Виктор; Сенефф, Стефани; Гласс, Джеймс (1990). «Разработка речевых баз данных в Массачусетском технологическом институте: TIMIT и за его пределами». Речевое общение . 9 (4): 351–356. дои : 10.1016/0167-6393(90)90010-7 .

[129] Кападиа, Садик, Валчо Валчев и С. Дж. Янг. «Тренинг MMI для непрерывного распознавания фонем в базе данных TIMIT». Акустика, речь и обработка сигналов, 1993. ICASSP-93., 1993 Международная конференция IEEE по . Том. 2. ИИЭР, 1993.

[HALABI2016-130] Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (докторская диссертация). Университет Саутгемптона , Школа электроники и информатики.

[131] Ардила, Розана; Брэнсон, Меган; Дэвис, Келли; Хенретти, Майкл; Колер, Майкл; Мейер, Джош; Мораис, Рубен; Сондерс, Линдси; Тайерс, Фрэнсис М.; Вебер, Грегор (13 декабря 2019 г.). «Общий голос: массово-многоязычный речевой корпус». arXiv : 1912.06670v2 [ cs.CL ].

[132] «Набор речевых данных ЖЖ» . keithito.com . Проверено 13 апреля 2022 г.

[133] Гандура, Абдулкадер; Хьябо, Фарук; Аль-Даккак, Умайма (июнь 2021 г.). «Создание и сравнение набора данных арабских речевых команд для обнаружения небольших ключевых слов» . Инженерные применения искусственного интеллекта . 102 : 104267. doi : 10.1016/j.engappai.2021.104267 . ISSN 0952-1976 . S2CID 235637809 .

[134] Чжоу, Фанг, К. Клэр и Росс Д. Кинг. « Предсказание географического происхождения музыки ». Data Mining (ICDM), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.

[135] Сакченти, Эдоардо; Камачо, Хосе (2015). «Об использовании k-кратной операции наблюдения в перекрестной проверке PCA». Журнал хемометрики . 29 (8): 467–478. дои : 10.1002/cem.2726 . hdl : 10481/55302 . S2CID 62248957 .

[136] Бертен-Маье, Тьерри и др. «Набор данных о миллионе песен». ISMIR 2011: Материалы 12-й конференции Международного общества по поиску музыкальной информации, 24–28 октября 2011 г., Майами, Флорида . Университет Майами, 2011.

[137] Хенафф, Микаэль; и др. (2011). «Неконтролируемое изучение редких функций для масштабируемой классификации аудио» (PDF) . ИСМИР . 11 .

[138] Рафии, Зафар (2017). "Музыка". MUSDB18 — корпус музыкального разделения . дои : 10.5281/zenodo.1117372 .

[139] Дефферрард, Микаэль; Бензи, Кирелл; Вандергейнст, Пьер; Брессон, Ксавье (6 декабря 2016 г.). «FMA: набор данных для музыкального анализа». arXiv : 1612.01840 [ cs.SD ].

[140] Эспозито, Роберто; Радичони, Даниэле П. (2009). «Carpediem: Оптимизация алгоритма Витерби и приложений для контролируемого последовательного обучения» (PDF) . Журнал исследований машинного обучения . 10 : 1851–1880.

[141] Сурати, Джамшид; и др. (2016). «Классификация активного обучения на основе взаимной информации» . Энтропия . 18 (2): 51. Бибкод : 2016Entrp..18...51S . дои : 10.3390/e18020051 .

[142] Саламон, Джастин; Джейкоби, Кристофер; Белло, Хуан Пабло. « Набор данных и таксономия для исследования городского звука ». Материалы Международной конференции ACM по мультимедиа . АКМ, 2014.

[143] Лагранж, Матье; Лафай, Грегуар; Россиньоль, Матиас; Бенетос, Эммануил; Робель, Аксель (2015). «Среда оценки для обнаружения событий с использованием морфологической модели акустических сцен». arXiv : 1502.00141 [ стат.ML ].

[144] Геммеке, Йорт Ф. и др. «Набор аудио: онтология и набор данных, помеченных человеком, для аудиособытий». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2017.

[145] «Берегитесь, птицеловы: искусственный интеллект научился распознавать птиц по их песням» . Наука | АААС . 18 июля 2018 года . Проверено 22 июля 2018 г.

[146] «Задание по обнаружению птиц по звуку» . Лаборатория машинного прослушивания в Университете Королевы Марии . 3 мая 2016 года . Проверено 22 июля 2018 г.

[147] Вичерн, Гордон; Антоньини, Джо; Флинн, Майкл; Личэн Ричард Чжу; Маккуинн, Эммет; Ворона, Дуайт; Манилоу, Итан; Джонатан Ле Ру (2019). «WHAM !: Расширение разделения речи на шумную среду». arXiv : 1907.01160 [ cs.SD ].

[148] Дроссос К., Липпинг С. и Виртанен Т. «Клото: набор данных для аудиотитров» Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2020.

[149] Дроссос К., Липпинг С. и Виртанен Т. (2019). Набор данных Clotho (Версия 1.0) [Набор данных]. Зенодо . http://doi.org/10.5281/zenodo.3490684

[150] Набор данных CAIDA UCSD по Witty Worm - 19–24 марта 2004 г., http://www.caida.org/data/passive/witty_worm_dataset.xml

[151] Чен, Зешэн и Чуаньи Цзи. « Оптимальный метод сканирования червей с использованием дистрибутивов уязвимых хостов ». Международный журнал безопасности и сетей 2.1–2 (2007): 71–80.

[152] Качуи, Мохамад и др. « Высокоточная оценка артериального давления без манжеты без калибровки с использованием времени прохождения импульса ^{[ постоянная мертвая ссылка ]}. Схемы и системы (ISCAS), 2015 г. Международный симпозиум IEEE по . IEEE, 2015 г.

[153] PhysioBank, PhysioToolkit. «PhysioNet: компоненты нового исследовательского ресурса для сложных физиологических сигналов». Тираж. v101 и23. е215-е220 .

[154] Вергара, Александр; и др. (2012). «Компенсация дрейфа датчика химического газа с использованием ансамблей классификаторов». Датчики и исполнительные механизмы B: Химические вещества . 166 : 320–329. Бибкод : 2012SeAcB.166..320В . дои : 10.1016/j.snb.2012.01.074 .

[155] Коротценков Г.; Чо, БК (2014). «Инженерные подходы к улучшению параметров кондуктометрических датчиков газа. Часть 2. Снижение рассеиваемой (потребляемой) мощности и повышение стабильности и надежности». Датчики и исполнительные механизмы B: Химические вещества . 198 : 316–341. Бибкод : 2014SeAcB.198..316K . дои : 10.1016/j.snb.2014.03.069 .

[156] Куинлан, Джон Р. (1992). «Обучение с помощью непрерывных занятий» (PDF) . 5-я Австралийская совместная конференция по искусственному интеллекту . 92 .

[157] Мерц, Кристофер Дж.; Паццани, Майкл Дж. (1999). «Подход на основе главных компонентов к объединению оценок регрессии» . Машинное обучение . 36 (1–2): 9–32. дои : 10.1023/а:1007507221352 .

[158] Торрес-Соспедра, Хоакин и др. «UJIIndoorLoc-Mag: новая база данных для задач локализации по магнитному полю». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. по . ИИЭР, 2015.

[159] Берквенс, Рафаэль, Маартен Вейн и Герберт Переманс. « Средняя взаимная информация вероятностной локализации Wi-Fi ». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. Банф, Канада: IPIN . 2015.

[160] Пашке, Фабиан и др. «Бездатчиковый контроль состояния синхронных двигателей». Слушания. 23-й семинар по вычислительному интеллекту, Дортмунд, 5-6. Декабрь 2013 года . КИТ Научное Издательство, 2013.

[161] Лессмайер, Кристиан и др. « Сбор данных и анализ сигналов на основе измеренных токов двигателя для обнаружения дефектов в электромеханических приводных системах ».

[162] Угулино, Уоллес и др. « Носимые компьютеры: классификация поз и движений тела по данным акселерометров. Архивировано 25 сентября 2020 года в Wayback Machine ». Достижения в области искусственного интеллекта – SBIA 2012 . Springer Berlin Heidelberg, 2012. 52–61.

[163] Шнайдер, Ян; и др. (2015). «Усиление чувств: обзор поддержки обучения на основе датчиков» . Датчики . 15 (2): 4097–4133. Бибкод : 2015Senso..15.4097S . дои : 10.3390/s150204097 . ПМК 4367401 . ПМИД 25679313 .

[164] Мадео, Рената CB, Клодоальдо А.М. Лима и Сараджейн М. Перес. « Сегментация единиц жестов с использованием машин опорных векторов: сегментация жестов из исходных положений ». Материалы 28-го ежегодного симпозиума ACM по прикладным вычислениям . АКМ, 2013.

[165] Лун, Роанна; Чжао, Вэньбин (2015). «Обзор приложений и распознавания движений человека с помощью Microsoft Kinect» . Международный журнал распознавания образов и искусственного интеллекта . 29 (5): 1555008. doi : 10.1142/s0218001415550083 .

[166] Теодоридис, Теодорос и Хуошэн Ху. « Классификация действий трехмерных моделей человека с использованием динамических ИНС для наблюдения за мобильными роботами . Архивировано 6 августа 2019 года в Wayback Machine ». Робототехника и биомиметика, 2007. РОБИО 2007. Международная конференция IEEE по . ИИЭР, 2007.

[167] Этемад, Сейед Али и Али Арья. « 3D-распознавание действий человека и трансформация стиля с использованием устойчивых нейронных сетей обратного распространения ошибки». Интеллектуальные вычисления и интеллектуальные системы, 2009. ICIS 2009. Международная конференция IEEE по . Том. 4. ИИЭР, 2009.

[168] Алтун, Керем; Баршан, Биллур; Тунчель, Оркун (2010). «Сравнительное исследование классификации деятельности человека с помощью миниатюрных инерционных и магнитных датчиков». Распознавание образов . 43 (10): 3605–3620. Бибкод : 2010PatRe..43.3605A . дои : 10.1016/j.patcog.2010.04.019 . hdl : 11693/11947 .

[169] Натан, Ран ; и др. (2012). «Использование данных трехосного ускорения для определения поведенческих режимов животных, находящихся на свободном выгуле: общие концепции и инструменты, проиллюстрированные для белоголовых сипов» . Журнал экспериментальной биологии . 215 (6): 986–996. дои : 10.1242/jeb.058602 . ПМЦ 3284320 . ПМИД 22357592 .

[170] Ангита, Давиде и др. « Распознавание активности человека на смартфонах с использованием многоклассовой аппаратно-совместимой машины опорных векторов ». Окружающая среда, сопровождаемая проживанием и уходом на дому . Springer Berlin Heidelberg, 2012. 216–223.

[171] Су, Син; Тонг, Ханхан; Цзи, Пин (2014). «Распознавание активности с помощью датчиков смартфона». Цинхуа Наука и Технология . 19 (3): 235–249. дои : 10.1109/tst.2014.6838194 . S2CID 62751498 .

[172] Кадус, Мохаммед Валид. Временная классификация: распространение парадигмы классификации на многомерные временные ряды . Дисс. Университет Нового Южного Уэльса, 2002 г.

[173] Грейвс, Алекс и др. « Коннекционистская временная классификация: маркировка несегментированных последовательностей данных с помощью рекуррентных нейронных сетей ». Материалы 23-й международной конференции по машинному обучению . АКМ, 2006.

[174] Веллосо, Эдуардо и др. « Качественное распознавание активности упражнений по поднятию тяжестей ». Материалы 4-й Международной конференции по дополненному человеку . АКМ, 2013.

[175] Мортазави, Бобак Джек и др. « Определение единой наилучшей оси для распознавания повторений упражнений и расчет умных часов. Архивировано 4 ноября 2021 года в Wayback Machine ». Сети носимых и имплантируемых датчиков тела (BSN), 2014 11-я Международная конференция по . ИИЭР, 2014.

[176] Сапсанис, Христос и др. « Улучшение классификации основных движений рук на основе ЭМГ с использованием ЭМД ». Общество инженерии в медицине и биологии (EMBC), 2013 г., 35-я ежегодная международная конференция IEEE . ИИЭР, 2013.

[Andrianesis,_Konstantinos_2015-177] Перейти обратно: ^а ^б Андрианезис, Константинос; Цзес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем . 78 (2): 257–289. дои : 10.1007/s10846-014-0061-6 . S2CID 207174078 .

[178] Банос, Орешти; и др. (2014). «Работа с эффектами смещения датчика при распознавании активности носимых устройств» . Датчики . 14 (6): 9995–10023. Бибкод : 2014Senso..14.9995B . дои : 10.3390/s140609995 . ПМЦ 4118358 . ПМИД 24915181 .

[179] Стисен, Аллан и др. « Умные устройства разные: оценка и смягчение неоднородностей мобильных датчиков для распознавания активности ». Материалы 13-й конференции ACM по встраиваемым сетевым сенсорным системам . АКМ, 2015.

[180] Бхаттачарья, Сурав и Николас Д. Лейн. « От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения ».

[181] Баччу, Давиде; и др. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях для престарелых». Нейронные вычисления и их приложения . 24 (6): 1451–1464. дои : 10.1007/s00521-013-1364-4 . hdl : 11568/237959 . S2CID 14124013 .

[182] Палумбо, Филиппо; Барсокки, Паоло; Галличкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Мультисенсорное объединение данных для распознавания активности на основе вычислений резервуара» . Оценка систем AAL посредством сравнительного анализа конкурентов . Коммуникации в компьютерной и информатике. Том. 386. стр. 24–35. дои : 10.1007/978-3-642-41043-7_3 . ISBN 978-3-642-41042-0 .

[183] Рейсс, Аттила и Дидье Стрикер. « Представляем новый набор эталонных данных для мониторинга активности ». Носимые компьютеры (ISWC), 2012 г. 16-й международный симпозиум по . ИИЭР, 2012.

[184] Рогген, Дэниел и др. « ВОЗМОЖНОСТИ: К оппортунистической деятельности и системам распознавания контекста ». Мир беспроводных, мобильных и мультимедийных сетей и семинаров, 2009. WoWMoM 2009. Международный симпозиум IEEE по . ИИЭР, 2009.

[185] Курц, Марк и др. « Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах ». Конференция по автомобильным технологиям (весна VTC), 73-я конференция IEEE 2011 г. ИИЭР, 2011.

[186] Штайлер, Тимо и Хайнер Штукеншмидт. « Локализация носимых устройств на теле: исследование распознавания активности с учетом положения ». Повсеместные вычисления и коммуникации (PerCom), Международная конференция IEEE 2016 г., посвященная . ИИЭР, 2016.

[187] Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х.; Долатабади, Эльхам; Ван, Розали Х.; Таати, Бабак (2018). «Автоматическое обнаружение компенсации во время роботизированной реабилитационной терапии после инсульта» . Журнал IEEE трансляционной инженерии в здравоохранении и медицине . 6 : 2100107. doi : 10.1109/JTEHM.2017.2780836 . ISSN 2168-2372 . ПМЦ 5788403 . ПМИД 29404226 .

[188] Долатабади, Эльхам; Чжи, Ин Сюань; Да, Бинг; Коаран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). «Набор данных позы реабилитации после инсульта в Торонто для выявления компенсации во время реабилитационной терапии после инсульта». Материалы 11-й Международной конференции EAI по всеобъемлющим вычислительным технологиям в здравоохранении . АКМ. стр. 375–381. дои : 10.1145/3154862.3154925 . ISBN 9781450363631 . S2CID 24581930 .

[189] «Набор данных по позы реабилитации после инсульта в Торонто» .

[190] Юнг, Мерел М.; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К.Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социальных прикосновений». Журнал о мультимодальных пользовательских интерфейсах . 11 (1): 81–96. дои : 10.1007/s12193-016-0232-9 . ISSN 1783-8738 . S2CID 1802116 .

[191] Юнг, ММ (Мерель) (1 июня 2016 г.). «Корпус социальных контактов (CoST)» . Университет Твенте. doi : 10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[192] Эберхард, С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в условиях большой размерности». Кафедра математики. Статистик, Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Реп 92-02 (1992).

[193] Басу, Сугато. « Полуконтролируемая кластеризация с ограниченными базовыми знаниями ». АААИ . 2004.

[194] Тюфекчи, Пинар (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла с базовой нагрузкой с использованием методов машинного обучения». Международный журнал электроэнергетики и энергетических систем . 60 : 126–140. Бибкод : 2014IJEPE..60..126T . дои : 10.1016/j.ijepes.2014.02.027 .

[195] Кая, Хейсем, Пинар Тюфекчи и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной технике (ICETCEE'2012), Дубай . 2012.

[196] Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Природные коммуникации . 5 : 2014. arXiv : 1402.4735 . Бибкод : 2014NatCo...5.4308B . дои : 10.1038/ncomms5308 . ПМИД 24986233 . S2CID 195953 .

[:8-197] Перейти обратно: ^а ^б Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2015). «Усовершенствованный поиск бозона Хиггса до τ+ τ− с помощью глубокого обучения». Письма о физических отзывах . 114 (11): 111801. arXiv : 1410.3469 . Бибкод : 2015PhRvL.114k1801B . дои : 10.1103/physrevlett.114.111801 . ПМИД 25839260 . S2CID 2339142 .

[:9-198] Перейти обратно: ^а ^б Адам-Бурдариос, К.; Коуэн, Г.; Жермен-Рено, К.; Гийон, И.; Кегль, Б.; Руссо, Д. (2015). «Задача машинного обучения Хиггса» . Физический журнал: серия конференций . 664 (7): 072015. Бибкод : 2015JPhCS.664g2015A . дои : 10.1088/1742-6596/664/7/072015 .

[199] Бальди, Пьер; Кранмер, Кайл; Фосетт, Тейлор; Садовский, Питер; Уайтсон, Дэниел (2016). «Параметризованные нейронные сети для физики высоких энергий». Европейский физический журнал C . 76 (5): 235. arXiv : 1601.07913 . Бибкод : 2016EPJC...76..235B . doi : 10.1140/epjc/s10052-016-4099-4 . S2CID 254108545 .

[200] Ортигоса, И.; Лопес, Р.; Гарсия, Дж. «Подход нейронных сетей к прогнозированию остаточного сопротивления парусных яхт». Материалы Международной конференции по морской технике MARINE . 2007 .

[201] Герритсма, Дж., Р. Оннинк и А. Верслуис. Геометрия, устойчивость и устойчивость серии корпусов яхт Delft System . Делфтский технологический университет, 1981 год.

[202] Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных . Springer Science & Business Media, 1998.

[203] Райх, Йорам. Переход к знаниям идеального дизайна путем обучения . [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.

[204] Тодоровский, Люпчо; Джероски, Сашо (1999). «Эксперименты по метауровенному обучению с помощью ILP» . Принципы интеллектуального анализа данных и обнаружения знаний . Конспекты лекций по информатике. Том. 1704. стр. 98–106. дои : 10.1007/978-3-540-48247-5_11 . ISBN 978-3-540-66490-1 . S2CID 39382993 .

[205] Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности . Дисс. Университет Вайкато, 2000 г.

[206] Киблер, Деннис; Ага, Дэвид В.; Альберт, Марк К. (1989). «Прогнозирование действительных атрибутов на основе экземпляров» . Вычислительный интеллект . 5 (2): 51–57. дои : 10.1111/j.1467-8640.1989.tb00315.x . S2CID 40800413 .

[207] Палмер, Кристофер Р. и Христос Фалуцос. « Электричество основано на внешнем сходстве категориальных признаков ». Достижения в области обнаружения знаний и интеллектуального анализа данных . Springer Berlin Heidelberg, 2003. 486–500.

[208] Цанас, Афанасий; Хифара, Анжелики (2012). «Точная количественная оценка энергоэффективности жилых зданий с использованием статистических инструментов машинного обучения». Энергия и здания . 49 : 560–567. Бибкод : 2012EneBu..49..560T . дои : 10.1016/j.enbuild.2012.03.003 .

[209] Де Уайльд, Питер (2014). «Разрыв между прогнозируемыми и измеренными энергетическими характеристиками зданий: основа для исследования». Автоматизация в строительстве . 41 : 40–49. дои : 10.1016/j.autcon.2014.02.009 .

[210] Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум профиля и прогнозирование . Том. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научной и технической информации, 1989.

[211] Дрейпер, Дэвид. « Оценка и распространение неопределенности модели ». Журнал Королевского статистического общества, серия B (методологический) (1995): 45–97.

[212] Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительных кольцах космического корабля». Журнал Американской статистической ассоциации . 86 (416): 919–921. дои : 10.1080/01621459.1991.10475132 .

[213] Ван, Цзюнь, Бэй Ю и Лес Гассер. « Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства ». Data Mining, 2002. ICDM 2003. Труды. Международная конференция IEEE 2002 г. по . ИИЭР, 2002.

[214] Петтенгилл, Гордон Х.; Форд, Питер Г.; Джонсон, Уильям Т.К.; Рэйни, Р. Кейт; Содерблом, Лоуренс А. (1991). «Магеллан: характеристики радаров и продукты для обработки данных» . Наука . 252 (5003): 260–265. Бибкод : 1991Sci...252..260P . дои : 10.1126/science.252.5003.260 . ПМИД 17769272 . S2CID 43398343 .

[:10-215] Перейти обратно: ^а ^б Агаронян Ф.; и др. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма о физических отзывах . 101 (26): 261104. arXiv : 0811.3894 . Бибкод : 2008PhRvL.101z1104A . doi : 10.1103/PhysRevLett.101.261104 . HDL : 2440/51450 . ПМИД 19437632 . S2CID 41850528 .

[216] Бок, РК; и др. (2004). «Методы многомерной классификации событий: пример использования изображений черенковского гамма-телескопа». Ядерные приборы и методы в физических исследованиях. Раздел А: Ускорители, спектрометры, детекторы и сопутствующее оборудование . 516 (2): 511–528. Бибкод : 2004NIMPA.516..511B . дои : 10.1016/j.nima.2003.08.157 .

[217] Ли, Цзинььян; и др. (2004). «Deeps: новая система ленивого обнаружения и классификации на основе экземпляров» . Машинное обучение . 54 (2): 99–124. doi : 10.1023/b:mach.0000011804.08528.7d .

[218] Вильяэскуса-Наварро, Франциско; др. и др. (2022). «Многополевой набор данных CAMELS: изучение фундаментальных параметров Вселенной с помощью искусственного интеллекта» . Серия дополнений к астрофизическому журналу . 259 (2): 61. arXiv : 2109.10915 . Бибкод : 2022ApJS..259...61В . дои : 10.3847/1538-4365/ac5ab0 . S2CID 237604997 .

[219] Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог голоценовых вулканов и их извержений». (2014).

[220] Сикора, Марек; Врубель, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собираемых системами мониторинга сейсмической опасности на угольных шахтах» . Архив горных наук . 55 (1): 91–114.

[221] Сикора, Марек и Беата Сикора. «Грубый мониторинг природных опасностей». Грубые наборы: избранные методы и приложения в менеджменте и технике . Springer London, 2012. 163–179.

[222] Аддор, Нанс; Ньюман, Эндрю Дж.; Мизуками, Наоки; Кларк, Мартин П. (20 октября 2017 г.). «Набор данных CAMELS: атрибуты водосбора и метеорология для исследований на больших выборках» . Гидрология и науки о системе Земли . 21 (10): 5293–5313. Бибкод : 2017HESS...21.5293A . doi : 10.5194/hess-21-5293-2017 . ISSN 1607-7938 .

[223] Ньюман, Эй Джей; Кларк, член парламента; Сэмпсон, К.; Вуд, А.; Хэй, LE; Бок, А.; Вигер, Р.Дж.; Блоджетт, Д.; Брекке, Л.; Арнольд-младший; Хопсон, Т. (14 января 2015 г.). «Разработка большого набора гидрометеорологических данных в масштабе водораздела для прилегающих территорий США: характеристики набора данных и оценка региональной изменчивости характеристик гидрологической модели» . Гидрология и науки о системе Земли . 19 (1): 209–223. Бибкод : 2015HESS...19..209N . дои : 10.5194/hess-19-209-2015 . ISSN 1607-7938 .

[224] Альварес-Гарретон, Камила; Мендоса, Пол А.; Буазье, Джон Пол; Аддор, Нэнси; Гальегильос, Морис; Самбрано-Биджарини, Морис; Лара, Энтони; Пуэльма, Кристофер; Корты, Гонсало; Гарро, Рене; Макфи, Джеймс (13 ноября 2018 г.). «Набор данных CAMELS-CL: атрибуты водосбора и метеорология для крупных выборочных исследований – набор данных Чили» . Гидрология и науки о системе Земли . 22 (11): 5817–5846. Бибкод : 2018HESS...22.5817A . дои : 10.5194/hess-22-5817-2018 . ISSN 1607-7938 . S2CID 133955609 .

[225] Чагас, Винисиус Б.П.; Чаффе, Педро Л.Б.; Аддор, Нанс; Фан, Фернандо М.; Флейшманн, Аян С.; Пайва, Родриго CD; Сикейра, Винисиус А. (8 сентября 2020 г.). «CAMELS-BR: гидрометеорологические временные ряды и атрибуты ландшафта для 897 водосборных бассейнов Бразилии» . Данные науки о системе Земли . 12 (3): 2075–2096. Бибкод : 2020ESSD...12.2075C . doi : 10.5194/essd-12-2075-2020 . ISSN 1866-3516 . S2CID 234737197 .

[226] Коксон, Джемма; Аддор, Нанс; Блумфилд, Джон П.; Фрир, Джим; Фрай, Мэтт; Ханнафорд, Джейми; Хауден, Николас Дж. К.; Лейн, Розанна; Льюис, Мелинда; Робинсон, Эмма Л.; Вагенер, Торстен (12 октября 2020 г.). «CAMELS-GB: гидрометеорологические временные ряды и атрибуты ландшафта для 671 водосборного бассейна Великобритании» . Данные науки о системе Земли . 12 (4): 2459–2483. Бибкод : 2020ESSD...12.2459C . doi : 10.5194/essd-12-2459-2020 . ISSN 1866-3516 . S2CID 226192657 .

[227] Фаулер, Кейрнан Дж.А.; Ачарья, Суваш Чандра; Аддор, Нанс; Чжоу, Чичжун; Пил, Мюррей К. (6 августа 2021 г.). «CAMELS-AUS: гидрометеорологические временные ряды и характеристики ландшафта для 222 водосборных бассейнов Австралии» . Данные науки о системе Земли . 13 (8): 3847–3867. Бибкод : 2021ESSD...13.3847F . doi : 10.5194/essd-13-3847-2021 . ISSN 1866-3516 . S2CID 238796784 .

[228] Клинглер, Кристоф; Шульц, Карстен; Хернеггер, Мэтью (16 сентября 2021 г.). «LamaH-CE: БОЛЬШАЯ ВЫБОРКА ДАННЫХ для гидрологии и наук об окружающей среде для Центральной Европы» . Данные науки о системе Земли . 13 (9): 4529–4565. Бибкод : 2021ESSD...13.4529K . дои : 10.5194/essd-13-4529-2021 . ISSN 1866-3516 . S2CID 240533508 .

[229] Да, I – C (1998). «Моделирование прочности высокопрочного бетона с использованием искусственных нейронных сетей». Исследования цемента и бетона . 28 (12): 1797–1808. дои : 10.1016/s0008-8846(98)00165-3 .

[230] Заранди, М. Х. Фазель; и др. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления . 8 (1): 488–498. Бибкод : 2008ApSoC...8...79S . дои : 10.1016/j.asoc.2007.02.010 .

[231] Да, И. «Моделирование осадки бетона с помощью летучей золы и суперпластификатора». Компьютеры и бетон 5.6 (2008): 559–572.

[232] Генсель, Осман; и др. (2011). «Сравнение искусственных нейронных сетей и общих подходов к линейной модели для анализа абразивного износа бетона». Строительство и строительные материалы . 25 (8): 3486–3494. дои : 10.1016/j.conbuildmat.2011.03.040 .

[233] Dietterich, Thomas G., et al. "A comparison of dynamic reposing and tangent distance for drug activity prediction Archived 7 December 2019 at the Wayback Machine." Advances in Neural Information Processing Systems (1994): 216–216.

[234] Buscema, Massimo, William J. Tastle, and Stefano Terzi. "Meta net: A new meta-classifier family."Data Mining Applications Using Artificial Adaptive Systems. Springer New York, 2013. 141–182.

[235] Barnard, Amanda; Sun, Baichuan; Motevalli Soumehsaraei, Ben; & Opletal, George (2019): Silver Nanoparticle Data Set. v3. CSIRO. Data Collection. https://doi.org/10.25919/5d22d20bc543e

[236] Barnard, Amanda; Sun, Baichuan; & Opletal, George (2019): Platinum Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/5d3958d9bf5f7

[237] Barnard, Amanda; & Opletal, George (2019): Gold Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5d395ef9a4291

[238] Barnard, Amanda; & Opletal, George (2019): Ruthenium Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30b8fa67484

[239] Barnard, Amanda; & Opletal, George (2019): Copper Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30ba386311f

[240] Barnard, Amanda; & Opletal, George (2023): Palladium Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/epxd-8p61

[241] Ting, Jonathan; Barnard, Amanda; Opletal, George (2023): AuCo Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/7h3x-1343

[242] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/jzh8-rd31

[243] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/tdnv-jp30

[244] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/qced-2e85

[245] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/az9t-vr97

[246] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/0bs4-sn79

[247] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/em3a-9a89

[248] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/991j-hg07

[249] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/7zh9-3f67

[250] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/9sz9-3a85

[251] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/6ajg-1275

[252] Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/v0r5-sw08

[253] Lu, Kaihan; Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/psvw-am47

[254] Amoradnejad, Issa; Amoradnejad, Rahimberdi; et al. (2022). "Age dataset: A structured general-purpose dataset on life, work, and death of 1.22 million distinguished people". Workshop Proceedings of the 16th International AAAI Conference on Web and Social Media (ICWSM). 3. ICWSM: 1–4. doi:10.36190/2022.82. S2CID 249668669.

[255] "Age Dataset". GitHub. 7 June 2022.

[256] "Synthetic Fundus Dataset". Archived from the original on 29 November 2021. Retrieved 22 February 2023.

[257] Lo Castro, Dario; et al. (2020). "A visual framework to create photorealistic retinal vessels for diagnosis purposes". Journal of Biomedical Informatics. 108: 103490. doi:10.1016/j.jbi.2020.103490. PMID 32640292. S2CID 220429697.

[:3-258] Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.

[259] Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.

[260] Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179. S2CID 84043.

[261] Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.

[262] Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. Bibcode:1997PatRe..30.1145B. doi:10.1016/s0031-3203(96)00142-2. S2CID 13806304.

[263] Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S; Goldgof, Dmitry B (eds.). Biomedical Image Processing and Biomedical Visualization. Vol. 1905. pp. 861–870. doi:10.1117/12.148698. S2CID 14922543.

[264] Demir, Cigdem, and Bülent Yener. "Automated cancer diagnosis based on histopathological images: a systematic survey." Rensselaer Polytechnic Institute, Tech. Rep (2005).

[265] Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." Rockville, MD: Substance Abuse and Mental Health Services Administration 201 (2011).

[266] Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. Bibcode:1991PatRe..24..317H. doi:10.1016/0031-3203(91)90074-f.

[Jinyan_2003-267] Jump up to: ^a ^b Li, Jinyan, and Limsoon Wong. "Using rules to analyse bio-medical data: a comparison between C4. 5 and PCL." Advances in Web-Age Information Management. Springer Berlin Heidelberg, 2003. 254–265.

[268] Güvenir, H. Altay, et al. "A supervised machine learning algorithm for arrhythmia analysis."Computers in Cardiology 1997. IEEE, 1997.

[269] Lagus, Krista, et al. "Independent variable group analysis in learning compact representations for data." Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR'05), T. Honkela, V. Könönen, M. Pöllä, and O. Simula, Eds., Espoo, Finland. 2005.

[270] Strack, Beata, et al. "Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical database patient records." BioMed Research International 2014; 2014

[271] Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.

[272] Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.

[273] Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].

[274] ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.{{cite web}}: CS1 maint: multiple names: authors list (link)

[275] Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231–234. doi:10.5566/ias.1155. ISSN 1854-5165.

[276] Bagirov, A. M.; et al. (2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007/bf02578945. S2CID 14165678.

[277] Fung, Glenn, et al. "A fast iterative algorithm for fisher discriminant using heterogeneous kernels."Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.

[278] Quinlan, John Ross, et al. "Inductive knowledge acquisition: a case study." Proceedings of the Second Australian Conference on Applications of expert systems. Addison-Wesley Longman Publishing Co., Inc., 1987.

[Zhou,_Zhi-Hua_2004-279] Jump up to: ^a ^b Zhou, Zhi-Hua; Jiang, Yuan (2004). "NeC4. 5: neural ensemble based C4. 5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109/tkde.2004.11. S2CID 1024861.

[280] Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.

[281] Er, Orhan, A. Çetin Tanrikulu, and Abdurrahman Abakay. "Use of artificial intelligence techniques for diagnosis of malignant pleural mesothelioma."Dicle Tıp Dergisi 42.1 (2015).

[282] Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.

[283] Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (May 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112. S2CID 13666294.

[284] "Parkinson's Vision-Based Pose Estimation Dataset | Kaggle". kaggle.com. Retrieved 22 August 2018.

[285] Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.

[286] Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902. S2CID 146809768.

[287] "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.

[288] Clark, David, Zoltan Schreter, and Anthony Adams. "A quantitative comparison of dystal and backpropagation." Proceedings of 1996 Australian Conference on Neural Networks. 1996.

[289] Jiang, Yuan, and Zhi-Hua Zhou. "Editing training data for kNN classifiers with neural network ensemble." Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.

[290] Ontañón, Santiago, and Enric Plaza. "On similarity measures based on a refinement lattice." Case-Based Reasoning Research and Development. Springer Berlin Heidelberg, 2009. 240–255.

[291] "PLF data inventory". GitHub. 5 November 2021.

[292] Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.

[293] Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.

[294] Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73. Archived from the original (PDF) on 6 August 2019. Retrieved 6 August 2019.

[295] "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.

[296] Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. Bibcode:2021NatSR..11.8134W. doi:10.1038/s41598-021-87602-3. ISSN 2045-2322. PMC 8046754. PMID 33854157.

[297] Cortez, Paulo, and Aníbal de Jesus Raimundo Morais. "A data mining approach to predict forest fires using meteorological data." (2007).

[298] Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.

[299] Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.

[300] Ghahramani, Zoubin, and Michael I. Jordan. "Supervised learning from incomplete data via an EM approach Archived 22 April 2017 at the Wayback Machine." Advances in neural information processing systems 6. 1994.

[301] Mallah, Charles; Cope, James; Orwell, James (2013). "Plant leaf classification using probabilistic integration of shape, texture and margin features". Signal Processing, Pattern Recognition and Applications. 5: 1.

[302] Yahiaoui, Itheri, Olfa Mzoughi, and Nozha Boujemaa. "Leaf shape descriptor for tree species identification Archived 6 August 2019 at the Wayback Machine." Multimedia and Expo (ICME), 2012 IEEE International Conference on. IEEE, 2012.

[303] Tan, Ming, and Larry Eshelman. "Using weighted networks to represent classification knowledge in noisy domains." Proceedings of the Fifth International Conference on Machine Learning. 2014.

[304] Charytanowicz, Małgorzata, et al. "Complete gradient clustering algorithm for features analysis of x-ray images." Information technologies in biomedicine. Springer Berlin Heidelberg, 2010. 15–24.

[305] Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.

[306] Blackard, Jock A.; Dean, Denis J. (1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. Bibcode:1999CEAgr..24..131B. CiteSeerX 10.1.1.128.2475. doi:10.1016/s0168-1699(99)00046-0. S2CID 13985407.

[307] Fürnkranz, Johannes. "Round robin rule learning."Proceedings of the 18th International Conference on Machine Learning (ICML-01): 146—153. 2001.

[308] Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.

[309] Мунисами, Тришен; и др. (2015). «Распознавание листьев растений с использованием особенностей формы и цветовой гистограммы с помощью классификаторов K-ближайших соседей» . Procedia Информатика . 58 : 740–747. дои : 10.1016/j.procs.2015.08.095 .

[310] Ли, Бай (2016). «Сопоставление атомных потенциалов: эволюционный подход к распознаванию целей, основанный на краевых характеристиках». Оптик . 127 (5): 3162–3168. Бибкод : 2016Оптик.127.3162Л . дои : 10.1016/j.ijleo.2015.11.186 .

[Razavian,_Ali_2014-311] Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.

[312] Нильсбак, Мария-Елена и Эндрю Зиссерман. « Визуальный словарь классификации цветов ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.

[313] Гизельссон, Томас М.; и др. (2017). «Общедоступная база данных изображений для эталонных алгоритмов классификации саженцев растений». arXiv : 1711.05458 [ cs.CV ].

[314] Олтян, Михай (2017). «Набор данных Fruits-360» . Гитхаб .

[315] Накаи, Кента; Канехиса, Минору (1991). «Экспертная система прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика . 11 (2): 95–110. дои : 10.1002/прот.340110203 . ПМИД 1946347 . S2CID 27606447 .

[316] Линг, Чарльз X. и др. « Деревья решений с минимальными затратами ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.

[317] Маэ, Пьер и др. « Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF ». Биоинформатика (2014): btu022.

[318] Барбано, Дуэйн; и др. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием времяпролетной масс-спектрометрии с матричной лазерной десорбцией и ионизацией (MALDI-TOF MS)» . ПЛОС ОДИН . 10 (8): e0135337. Бибкод : 2015PLoSO..1035337B . дои : 10.1371/journal.pone.0135337 . ПМЦ 4536233 . ПМИД 26271045 .

[319] Хортон, Пол; Накаи, Кента (1996). «Вероятностная система классификации для прогнозирования мест клеточной локализации белков» (PDF) . Протокол ISMB-96 . 4 : 109–15. ПМИД 8877510 . Архивировано из оригинала (PDF) 4 ноября 2021 года . Проверено 6 августа 2019 г.

[320] Оллвейн, Эрин Л.; Шапире, Роберт Э.; Певец Йорам (2001). «Превращение мультикласса в двоичный: объединяющий подход для классификаторов полей» (PDF) . Журнал исследований машинного обучения . 1 : 113–141.

[321] Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: прогнозирование токсичности с помощью глубокого обучения» . Границы в науке об окружающей среде . 3 : 80. дои : 10.3389/fenvs.2015.00080 .

[322] Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). «Оценка алгоритмов обнаружения аномалий в реальном времени — эталонный тест Numenta Anomaly». 2015 г., 14-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA) . стр. 38–44. arXiv : 1510.03336 . дои : 10.1109/ICMLA.2015.141 . ISBN 978-1-5090-0287-0 . S2CID 6842305 .

[323] Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович. «Репозиторий SKAB GitHub» . Гитхаб . Проверено 12 января 2021 г.

[324] Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович (2020). «Бенчмарк аномалий Сколтеха (СКАБ)» . Кэггл. doi : 10.34740/KAGGLE/DSV/1693952 (неактивен 17 марта 2024 г.) . Проверено 12 января 2021 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь ) CS1 maint: DOI неактивен с марта 2024 г. ( ссылка )

[CamposZimek2016-325] Кампос, Гильерме О.; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Г.Б.; Миценкова, Барбора; Шуберт, Эрих; Согласен, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. doi : 10.1007/s10618-015-0444-8 . ISSN 1384-5810 . S2CID 1952214 .

[326] Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для нейронных ответов на вопросы в базе знаний DBpedia . 2018.

[327] Томмазо Сору, Эдгард Маркс. Диего Муссаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык . 2018.

[328] Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения . КОЛИНГ 2020.

[329] Киет Ван Нгуен, Кхием Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Расширение лексического подхода с использованием внешних знаний для понимания машинного чтения на вьетнамском языке с множественным выбором . Доступ IEEE. 2020.

[330] Ананта, Равитея; Вакуленко Светлана; Ту, Чжучэн; Лонгпре, Шейн; Пулман, Стивен; Чаппиди, Шринивас (2020). «Ответы на вопросы в открытой области становятся диалоговыми благодаря переписыванию вопросов». arXiv : 2010.04898 [ cs.IR ].

[331] Хашаби, Дэниел; Мин, Севон; Хот, Тушар; Сабхарвал, Ашиш; Тафьорд, Ойвинд; Кларк, Питер; Хаджиширзи, Ханнане (ноябрь 2020 г.). «UNIFIEDQA: пересекая границы форматов с помощью единой системы контроля качества» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2020 . Онлайн: Ассоциация компьютерной лингвистики: 1896–1907. arXiv : 2005.00700 . doi : 10.18653/v1/2020.findings-emnlp.171 . S2CID 218487109 .

[332] Taskmaster , Наборы данных исследований Google, 17 декабря 2022 г. , получено 7 января 2023 г.

[333] Бирн, Билл; Кришнамурти, Картик; Санкар, Чиннадхурай; Нилакантан, Арвинд; Дакворт, Дэниел; Явуз, Семих; Гудрич, Бен; Дубей, Амит; Цедильник, Энди; Ким, Кю Ён (1 сентября 2019 г.). «Наставник задач-1: к реалистичному и разнообразному набору данных диалога». arXiv : 1909.05358 [ cs.CL ].

[334] Ясунага, Мичихиро; Лян, Перси (21 ноября 2020 г.). «Восстановление программ с самоконтролем на основе графиков на основе диагностической обратной связи» . Международная конференция по машинному обучению . ПМЛР: 10799–10808. arXiv : 2005.10636 .

[335] Ван, Ичжун; Мишра, Сваруп; Алипурмолабаши, Пега; Корди, Йегане; Мирзаи, Амирреза; Арункумар, Анджана; Ашок, Арджун; Дханасекаран, Арут Сельван; Наик, Атхарва; Стапп, Дэвид; Патхак, Эшаан; Караманолакис, Яннис; Лай, Хайжи Гэри; Пурохит, Ишан; Мондал, Ишани (24 октября 2022 г.). «Сверхестественные инструкции: обобщение с помощью декларативных инструкций для более чем 1600 задач НЛП». arXiv : 2204.07705 [ cs.CL ].

[336] Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Куан Нгок; Бернарди, Рафаэлла; Пеццелле, Сандро Барони, Марко; Боледа, Джемма; Фернандес, Ракель (7 августа 2016 г.), Набор данных LAMBADA , номер doi : 10.5281/zenodo.2630551 , получено 7 января 2023 г.

[337] Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Нгок Куан; Бернарди, Рафаэлла; Пеццелле, Сандро; Барони, Марко; Боледа, Джемма; Фернандес, Ракель (август 2016 г.). «Набор данных LAMBADA: предсказание слов, требующее широкого контекста дискурса» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 1525–1534 гг. дои : 10.18653/v1/P16-1144 . hdl : 10230/32702 . S2CID 2381275 .

[338] Вэй, Джейсон; Босма, Мартен; Чжао, Винсент; Гуу, Кельвин; Ю, Адамс Вэй; Лестер, Брайан; Ду, Нэн; Дай, Эндрю М.; Ле, Куок В. (10 февраля 2022 г.). «Точно настроенные языковые модели — это ученики с нулевым шансом» . arXiv : 2109.01652 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[339] «Работа с ATT&CK | MITRE ATT&CK®» . Attack.mitre.org . Проверено 14 января 2023 г.

[340] «CAPEC — Перечисление и классификация общих шаблонов атак (CAPEC™)» . capec.mitre.org . Проверено 14 января 2023 г.

[341] «CVE — Главная» . cve.mitre.org . Проверено 14 января 2023 г.

[342] «CWE — Перечень общих слабостей» . cwe.mitre.org . Проверено 14 января 2023 г.

[343] Лим, Суи Киат; Муис, Алдриан Обаха; Лу, Вэй; Онг, Чэнь Хуэй (июль 2017 г.). «MalwareTextDB: база данных для аннотированных статей о вредоносном ПО» . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Ванкувер, Канада: Ассоциация компьютерной лингвистики: 1557–1567. дои : 10.18653/v1/P17-1143 . S2CID 7816596 .

[344] «ЮСЕНИКС» . УСЕНИКС . Проверено 19 января 2023 г.

[345] «APTnotes | Прочтите документацию» . readthedocs.org . Проверено 19 января 2023 г.

[346] «Недавние публикации авторов/названий в области криптографии и безопасности» . arxiv.org . Проверено 19 января 2023 г.

[347] «Целостная информационная безопасность для веб-разработчиков — выпуск 0» . f0.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.

[348] «Целостная информационная безопасность для веб-разработчиков — выпуск 1» . f1.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.

[349] Винсент, Адам. «Взлом и усиление защиты веб-сервисов» (PDF) . owasp.org .

[350] МакКрей, Джо. «Расширенное внедрение SQL» (PDF) . defcon.org .

[351] Шах, Шрирадж. «Техника обнаружения и использования слепого внедрения SQL» (PDF) . blueinfy.com .

[352] Палцер, КЦ «Этический хакерство» (PDF) . текстовые файлы .

[353] «Раскрытые секреты взлома — информационно-методическое руководство» (PDF) .

[354] Парк, Алексис. «Взломать любой сайт» (PDF) .

[355] Серрудо, Сезар; Мартинес Файо, Эстебан. «Взлом баз данных для владения вашими данными» (PDF) . черная шляпа .

[356] О'Коннор, Тиджей. «Violent Python — кулинарная книга для хакеров, судебных аналитиков, тестеров на проникновение и инженеров по безопасности» (PDF) . Гитхаб .

[357] Гранд, Джо. «Реверс-инжиниринг оборудования: доступ, анализ и поражение» (PDF) . черная шляпа .

[358] Чанг, Джейсон В. «Компьютерный взлом: обоснование требований к национальной отчетности» (PDF) . cyber.harvard.edu .

[359] «Репозиторий национальных стратегий кибербезопасности» . МСЭ . Проверено 20 января 2023 г.

[360] Чен, Яньлинь (31 августа 2022 г.), Cyber Security Natural Language Processing , получено 20 января 2023 г.

[361] Зампиери, Маркос; Мальмаси, Шервин; Наков, Преслав; Розенталь, Сара; Фарра, Нура; Кумар, Ритеш (16 апреля 2019 г.). «Прогнозирование типа и цели оскорбительных публикаций в социальных сетях». arXiv : 1902.09666 [ cs.CL ].

[362] «Сообщения об угрозах» . www.ncsc.gov.uk. Проверено 20 января 2023 г.

[363] «Категория: Отчеты APT | Securelist» . Securelist.com . Проверено 23 января 2023 г.

[364] «Ваша связь с новостями о кибербезопасности - Киберновости | CyberWire» . КиберВайр . Проверено 23 января 2023 г.

[365] «Новости» . 21 августа 2016 года . Проверено 23 января 2023 г.

[366] «Киберньюс» . Киберньюс .

[367] «Блипингкомпьютер» . Мигающий компьютер . Проверено 23 января 2023 г.

[368] «Домашняя страница» . Запись из Recorded Future News . Проверено 23 января 2023 г.

[369] «HackRead | Последние киберпреступления — InfoSec-Tech — Новости хакерства» . 8 января 2022 г. Проверено 23 января 2023 г.

[370] «Securelist | Исследования и отчеты Касперского об угрозах» . Securelist.com . Проверено 31 января 2023 г.

[371] Харшоу, Кристофер Р.; Бриджес, Роберт А.; Яннаконе, Майкл Д.; Рид, Джоэл В.; Гудолл, Джон Р. (5 апреля 2016 г.). «Графпринтс» . Материалы 11-й ежегодной конференции по исследованию кибербезопасности и информационной безопасности . ЦИРЦ '16. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–4. дои : 10.1145/2897795.2897806 . ISBN 978-1-4503-3752-6 .

[372] «Farsight Security, решения для кибербезопасности» . Безопасность Фарсайта . Проверено 13 февраля 2023 г.

[373] «Шнайер о безопасности» . www.schneier.com . Проверено 13 февраля 2023 г.

[374] «№1 в области облачной безопасности и кибербезопасности конечных точек» . Тренд Микро . Проверено 13 февраля 2023 г.

[375] «Новости хакеров | Надежный сайт новостей кибербезопасности №1» . Хакерские новости . Проверено 13 февраля 2023 г.

[376] «Кребс о безопасности – подробные новости и расследования в области безопасности» . Проверено 25 февраля 2023 г.

[377] «График знаний MITRE D3FEND» . d3fend.mitre.org . Проверено 31 марта 2023 г.

[378] «МИТР | АТЛАС™» . atlas.mitre.org . Проверено 31 марта 2023 г.

[379] «MITRE Engage™ | Система взаимодействия с противниками от MITRE» . Проверено 1 апреля 2023 г.

[380] «Уроки взлома — лучшие пошаговые руководства по хакерству» . Учебники по взлому . Проверено 1 апреля 2023 г.

[381] «Центр знаний TCFD» . Центр знаний TCFD . Проверено 3 февраля 2023 г.

[382] «ResponsibilityReports.com» . www.responsibilityreports.com . Проверено 3 февраля 2023 г.

[383] «О — МГЭИК» . Проверено 20 февраля 2023 г.

[384] «Альянс исследований корпоративной устойчивости | ARCS служит средством продвижения тщательных академических исследований по вопросам корпоративной устойчивости» . Corporate-sustainability.org . Проверено 2 марта 2023 г.

[385] Мехра, Шришти; Лука, Роберт; Чжан, Исюнь (26 марта 2022 г.). «ESGBERT: языковая модель для помощи в задачах классификации, связанных с экологической, социальной и управленческой практикой компаний». Встроенные системы и приложения : 183–190. arXiv : 2203.16788 . дои : 10.5121/csit.2022.120616 . ISBN 9781925953657 . S2CID 247825524 .

[386] В эту статью включен текст , доступный по лицензии CC BY 4.0 .

[387] Диггельманн, Томас; Бойд-Грабер, Иордания; Булиан, Яннис; Чиарамита, Массимилиано; Лейппольд, Маркус (2 января 2021 г.). «КЛИМАТНАЯ ЛИХОРАДКА: набор данных для проверки реальных климатических заявлений». arXiv : 2012.00614 [ cs.CL ].

[388] "климат-новости-дб" . www.climate-news-db.com . Проверено 3 февраля 2023 г.

[389] «Климатекст» . www.sustainablefinance.uzh.ch . Проверено 19 февраля 2023 г.

[390] «Гринбиз» . www.greenbiz.com . Проверено 2 марта 2023 г.

[391] «Изучите горячий список @Reuters из 1000 ведущих ученых-климатологов» . Рейтер . Проверено 22 марта 2023 г.

[392] «Блоги | Альянс исследований корпоративной устойчивости» . Corporate-sustainability.org . Проверено 27 марта 2023 г.

[393] «Гринбиз» . www.greenbiz.com . Проверено 29 марта 2023 г.

[394] «Новости КСО» . www.csrwire.com . Проверено 29 марта 2023 г.

[395] «Домашняя страница CDP» . www.cdp.net . Проверено 29 марта 2023 г.

[396] де Врис, Вред (2022). «Стек: 3 ТБ исходного кода с разрешительной лицензией». arXiv : 2211.15533 [ cs.CL ].

[397] «Дедуляция стека» . Обнимающее лицо . Проверено 29 августа 2023 г.

[398] «Блог о гибридном облаке» . content.cloud.redhat.com . Проверено 9 апреля 2023 г.

[399] «Оркестровка контейнеров производственного уровня» . Кубернетес . Проверено 9 апреля 2023 г.

[400] «Главная страница | Официальная документация Red Hat OpenShift» . docs.openshift.com . Проверено 9 апреля 2023 г.

[401] «Фонд облачных вычислений» . Фонд облачных вычислений . Проверено 9 апреля 2023 г.

[402] Презентации сообщества CNCF , Cloud Native Computing Foundation (CNCF), 11 апреля 2023 г. , получено 11 апреля 2023 г.

[403] «Red Hat – Мы создаем технологии с открытым исходным кодом для предприятий» . www.redhat.com . Проверено 1 мая 2023 г.

[404] Браун, Майкл Скотт, Майкл Дж. Пелоси и Генри Дирска. Генетический алгоритм с динамическим радиусом, сохраняющий виды, для финансового прогнозирования акций индекса Доу-Джонса. ^{[ мертвая ссылка ]}.. Машинное обучение и интеллектуальный анализ данных в распознавании образов . Springer Berlin Heidelberg, 2013. 27–41.

[405] Шен, Као-И; Цзенг, Гво-Сюн (2015). «Модель VC-DRSA с нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем . 17 (3): 375–389. дои : 10.1007/s40815-015-0058-8 . S2CID 68241024 .

[406] Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований . 27 (3): 221–234. CiteSeerX 10.1.1.18.4267 . дои : 10.1016/s0020-7373(87)80053-6 .

[407] Хамерс, Барт; Суйкенс, Йохан АК; Де Мур, Барт (2003). «Связанное трансдуктивное ансамблевое обучение моделей ядра» (PDF) . Журнал исследований машинного обучения . 1 :1–48.

[408] Шмуэли, Галит , Ральф П. Руссо и Вольфганг Янк. « БАРИСТА: модель поступления ставок на интернет-аукционах ». Анналы прикладной статистики (2007): 412–441.

[409] Пэн, Цзе и Ханс-Георг Мюллер. « Дистанционная кластеризация редко наблюдаемых случайных процессов с применением к онлайн-аукционам ». Анналы прикладной статистики (2008): 1056–1077.

[410] Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. « Генетическое программирование для классификации данных: разделение пространства поиска ». Материалы симпозиума ACM 2004 года по прикладным вычислениям . АКМ, 2004.

[411] Моро, Сержио; Кортес, Пауло; Рита, Пауло (2014). «Подход, основанный на данных, для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений . 62 : 22–31. дои : 10.1016/j.dss.2014.03.001 . hdl : 10071/9499 . S2CID 14181100 .

[412] Пейн, Ричард Д.; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv : 1411.5653 [ stat.ME ].

[413] Акбилгыч, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель гибридных нейронных сетей RBF в качестве прогнозиста». Статистика и вычисления . 24 (3): 365–375. дои : 10.1007/s11222-013-9375-7 . S2CID 17764829 .

[414] Джабин, Сурайя. « Прогнозирование фондового рынка с использованием искусственной нейронной сети прямого распространения ». Межд. Дж. Компьютер. Прил. (IJCA) 99,9 (2014 г.).

[415] Да, И-Чэн; Че-хуэй, Лянь (2009). «Сравнение методов интеллектуального анализа данных для точности прогнозирования вероятности дефолта клиентов по кредитным картам». Экспертные системы с приложениями . 36 (2): 2473–2480. дои : 10.1016/j.eswa.2007.12.020 . S2CID 15696161 .

[416] Линь, Шу Лин (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями . 36 (4): 8333–8341. дои : 10.1016/j.eswa.2008.10.015 .

[417] Юмо Сюй и Шей Б. Коэн. 2018. Прогноз движения акций на основе твитов и исторических цен. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) , страницы 1970–1979, Мельбурн, Австралия. Ассоциация компьютерной лингвистики.

[418] Пелкманс, Кристиан; и др. (2005). «Дифференциограмма: непараметрическая оценка дисперсии шума и ее использование для выбора модели». Нейрокомпьютинг . 69 (1): 100–122. doi : 10.1016/j.neucom.2005.02.015 .

[419] Бэй, Стивен Д.; и др. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень об исследованиях ACM SIGKDD . 2 (2): 81–85. CiteSeerX 10.1.1.15.9776 . дои : 10.1145/380995.381030 . S2CID 534881 .

[420] Лукас, Д.Д.; и др. (2015). «Разработка оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости» . Геонаучные приборы, методы и системы данных . 4 (1): 121. Бибкод : 2015GI......4..121L . дои : 10.5194/gi-4-121-2015 .

[421] Пэйлс, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований . 70 (24): 6053–6076. Бибкод : 1965JGR....70.6053P . дои : 10.1029/jz070i024p06053 .

[422] Сигиллито, Винсент Г. и др. «Классификация радиолокационных сигналов из ионосферы с использованием нейронных сетей». Технический дайджест Johns Hopkins APL 10.3 (1989): 262–266.

[423] Чжан, Кун и Вэй Фань. « Прогнозирование искаженных стохастических озоновых дней: анализ, решения и не только ». Знания и информационные системы 14.3 (2008): 299–326.

[424] Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. « Байесовская пространственная квантильная регрессия ». Журнал Американской статистической ассоциации (2012).

[425] Кохави, Рон (1996). «Повышение точности классификаторов Найва-Байеса: гибрид дерева решений». КДД . 96 .

[426] Оза, Никундж К. и Стюарт Рассел. «Экспериментальное сравнение онлайн- и пакетной версий упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2001.

[427] Бэй, Стивен Д. (2001). «Многомерная дискретизация для интеллектуального анализа множеств». Знания и информационные системы . 3 (4): 491–512. CiteSeerX 10.1.1.217.921 . дои : 10.1007/pl00011680 . S2CID 10945544 .

[428] Рагглс, Стивен (1995). «Схемы выборки и ошибки выборки». Исторические методы . 28 (1): 40–46. дои : 10.1080/01615440.1995.9955312 .

[429] Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. « Метод кривой обучения применительно к кластеризации ». АЙСТАТС . 2001.

[430] Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая ансамблевые детекторы и базовые знания» . Прогресс в области искусственного интеллекта . 2 (2–3): 113–127. дои : 10.1007/s13748-013-0040-3 . S2CID 3345087 .

[431] Жио, Ромен и Рафаэль Шерье. « Прогнозирование использования системы велопроката на день вперед ». Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г., Россия . ИИЭР, 2014.

[432] Чжан, Сяньюань; и др. (2013). «Оценка времени в пути по городскому маршруту с использованием крупномасштабных данных такси с частичной информацией». Транспортные исследования, часть C: Новые технологии . 33 : 37–49. Бибкод : 2013TRPC...33...37Z . дои : 10.1016/j.trc.2013.04.001 .

[433] Морейра-Матиас, Луис; и др. (2013). «Прогнозирование спроса пассажиров на такси с использованием потоковых данных» . Транзакции IEEE в интеллектуальных транспортных системах . 14 (3): 1393–1402. дои : 10.1109/tits.2013.2262376 . S2CID 14764358 .

[434] Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки . 314 : 28–40. дои : 10.1016/j.ins.2015.03.068 .

[435] Х.В. Джагадиш, Йоханнес Герке, Александрос Лабринидис, Яннис Папаконстантину, Джинеш М. Патель,Рагху Рамакришнан и Сайрус Шахаби. Большие данные и их технические проблемы. Коммун. акм,57(7):86–94, июль 2014 г.

[436] Кальтранс ПеМС

[437] Мейзель, Роберт и др. « Структура графов в Интернете — анализ на разных уровнях агрегации ». Журнал веб-науки 1.1 (2015).

[438] Кушмерик, Николас. « Учимся удалять интернет-рекламу ». Материалы третьей ежегодной конференции по автономным агентам . АКМ, 1999.

[439] Фрадкин, Дмитрий и Дэвид Мэдиган. « Эксперименты со случайными прогнозами для машинного обучения ». Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2003.

[440] Эти данные использовались в разделах статистической графики и вычислений Американской статистической ассоциации за 1999 год.

[441] Ма, Джастин и др. « Выявление подозрительных URL-адресов: применение масштабного онлайн-обучения ». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ, 2009.

[442] Левченко, Кирилл и др. « Траектории кликов: сквозной анализ цепочки создания стоимости спама ». Безопасность и конфиденциальность (SP), симпозиум IEEE 2011 г., посвященный . ИИЭР, 2011.

[443] Мохаммад, Рами М., Фади Табта и Ли Маккласки. « Оценка особенностей, связанных с фишинговыми веб-сайтами, с использованием автоматизированного метода ». Интернет-технологии и защищенные транзакции, Международная конференция 2012 г. для . ИИЭР, 2012.

[444] Сингх, Ашишкумар и др. « Эксперименты по кластеризации больших данных о транзакциях для сегментации рынка ». Материалы Международной конференции по науке о больших данных и вычислительной технике 2014 года . АКМ, 2014.

[445] Боллакер, Курт и др. « Freebase: совместно созданная графовая база данных для структурирования человеческих знаний ». Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными . АКМ, 2008.

[446] Минц, Майк и др. « Дистанционный контроль для извлечения отношений без помеченных данных ». Материалы совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции по обработке естественного языка AFNLP: Том 2-Том 2 . Ассоциация компьютерной лингвистики, 2009.

[447] Местерхарм, Крис и Майкл Дж. Паццани. « Активное обучение с использованием онлайн-алгоритмов. Архивировано 22 сентября 2017 г. в Wayback Machine ». Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2011.

[448] Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и аппроксимации Нистрема с помощью адаптивной выборки» (PDF) . Журнал исследований машинного обучения . 14 (1): 2729–2769. arXiv : 1303.4207 . Бибкод : 2013arXiv1303.4207W .

[The_Pile-449] Перейти обратно: ^а ^б «Куча» . Pile.eleuther.ai . Проверено 14 апреля 2022 г.

[450] «Линии JSON» . jsonlines.org . Проверено 14 апреля 2022 г.

[451] Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].

[OSCAR-452] «ОСКАР» . oscar-project.org . Проверено 12 августа 2023 г.

[453] Ортис Суарес, Педро и др. « [2] ». Асинхронный конвейер для обработки огромных корпораций в инфраструктурах со средними и низкими ресурсами . ЦМЛК-7, 2019.

[454] Абаджи, Жюльен и др. « [3] ». На пути к более чистому многоязычному сканируемому корпусу, ориентированному на документы . ЛРЭЦ, 2022.

[455] Коэн, Ваня. «ОпенВебТекстКорпус» . OpenWebTextКорпус . Проверено 9 января 2023 г.

[456] "openwebtext · Наборы данных в обнимающем лице" . Huggingface.co . 16 ноября 2022 г. Проверено 9 января 2023 г.

[457] Солнье, Люсиль (2023). «Корпус BigScience ROOTS: составной многоязычный набор данных объемом 1,6 ТБ». arXiv : 2303.03915 [ cs.CL ].

[458] «Данные BigScience · Наборы данных в обнимающем лице» . Huggingface.co . 29 августа 2023 г. Проверено 29 августа 2023 г.

[459] Каттрал, Роберт; Оппачер, Франц; Деуго, Дуайт (2002). «Эволюционный анализ данных с автоматическим обобщением правил» (PDF) . Последние достижения в области компьютеров, вычислений и коммуникаций : 296–300. S2CID 18625415 . Архивировано из оригинала (PDF) 6 августа 2019 года.

[460] Бертон, Ариэль Н.; Келли, Пол Х.Дж. (2006). «Прогнозирование производительности рабочих нагрузок подкачки с использованием облегченной трассировки». Компьютерные системы будущего поколения . 22 (7). Эльзевир Б.В.: 784–793. дои : 10.1016/j.future.2006.02.003 . ISSN 0167-739X .

[461] Бейн, Майкл; Магглтон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект . 13 . Oxford University Press, Inc.: 291–309. дои : 10.1093/oso/9780198538509.003.0012 . ISBN 978-0-19-853850-9 .

[Q.J.R_1-462] Килан, младший (1983). «Изучение эффективных процедур классификации и их применение к шахматным эндшпилям». Машинное обучение – эффективные процедуры классификации обучения и их применение в шахматных эндшпильах . Том. 1. С. 463–482. дои : 10.1007/978-3-662-12405-5_15 . ISBN 978-3-662-12407-9 . {{cite book}}: |journal= игнорируется ( помогите )

[463] Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк.

[464] Матеус, Кристофер Дж.; Ренделл, Ларри А. (1989). «Конструктивная индукция по деревьям решений» (PDF) . ИДЖКАИ . 89 . ^{[ мертвая ссылка ]}

[:5-465] Белсли, Дэвид А., Эдвин Кух и Рой Э. Уэлш. Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности . Том. 571. Джон Уайли и сыновья, 2005.

[466] Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия, основанная на знаниях» (PDF) . Интеллектуальные системы IEEE . 24 (2): 64–75. дои : 10.1109/MIS.2009.32 . hdl : 1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7 . S2CID 6667472 . Архивировано из оригинала (PDF) 16 августа 2017 года . Проверено 6 декабря 2018 г.

[467] Ли, Лихун; Чу, Вэй; Лэнгфорд, Джон; Ван, Сюаньхуэй (2011). «Непредвзятая офлайн-оценка алгоритмов рекомендации новостных статей на основе контекстных бандитов». Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных . стр. 297–306. arXiv : 1003.5956 . дои : 10.1145/1935826.1935878 . ISBN 9781450304931 . S2CID 744200 .

[468] Юнг, Кам Фунг и Яньян Ян. « Проактивная персонализированная система рекомендаций для мобильных новостей ». Разработки в области разработки электронных систем (DESE), 2010 г. ИИЭР, 2010.

[469] Гасс, Сьюзен Э.; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль над распространением». Бюллетень о загрязнении морской среды . 52 (5): 549–559. Бибкод : 2006МарПБ..52..549Г . дои : 10.1016/j.marpolbul.2005.10.002 . ПМИД 16300800 .

[470] Гионис, Аристид; Маннила, Хейкки; Цапарас, Панайотис (2007). «Кластерная агрегация». Транзакции ACM по извлечению знаний из данных . 1 (1): 4. CiteSeerX 10.1.1.709.528 . дои : 10.1145/1217299.1217303 . S2CID 433708 .

[471] Обрадович, Зоран и Слободан Вучетич. Проблемы интеллектуального анализа научных данных: гетерогенные, смещенные и большие выборки . Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.

[472] Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). «Вызов CoIL 2000: Дело страховой компании». Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук . 9 : 1–43.

[473] Мао, Казахстан (2002). «Выбор центра нейронной сети RBF на основе меры разделимости класса отношения Фишера». Транзакции IEEE в нейронных сетях . 13 (5): 1211–1217. дои : 10.1109/tnn.2002.1031953 . ПМИД 18244518 .

[474] Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в государственные школы» (PDF) . Экспертные системы в государственном управлении . 1 : 145–160.

[475] Лизотт, Дэниел Дж.; Мадани, Омид; Грейнер, Рассел (2012). «Бюджетное обучение классификаторов Найва-Байеса». arXiv : 1212.2472 [ cs.LG ].

[476] Лебовиц, Майкл (1986). «Концептуальное обучение в богатой входной области: память, основанная на обобщениях» . Машинное обучение: подход искусственного интеллекта . 2 : 193–214. ISBN 9780934613002 .

[477] Да, И-Чэн; Ян, Кинг-Янг; Тин, Тао-Мин (2009). «Открытие знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями . 36 (3): 5866–5871. дои : 10.1016/j.eswa.2008.07.018 .

[478] Ли, Вэнь-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система для повышения эффективности донорства крови» . Журнал качества Vol . 18 (2): 173.

[479] Шмидтманн, Ирен и др. « Оценка реестра раковых заболеваний NRW с упором на связь записей. Архивировано 6 декабря 2018 г. в Wayback Machine ». Итоговый отчет от 11 ноября (2009 г.).

[480] Сарияр, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с использованием теории экстремальных значений». Журнал биомедицинской информатики . 44 (4): 648–654. дои : 10.1016/j.jbi.2011.02.008 . ПМИД 21352952 .

[481] Кандильер, Лоран и Винсент Лемэр. « Разработка и анализ задачи Nomao по активному обучению в реальном мире ». Труды ALRA: активное обучение в реальных приложениях, семинар ECML-PKDD . 2012.

[482] Маркес, Иван Гарридо. « Метод адаптации предметной области для классификации текста на основе подхода самонастраивающегося обучения ». (2013).

[483] Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные сетки для кластеризации больших наборов данных». СДМ. 2001.

[484] Кузилек, Якуб и др. « OU Analyse: анализ студентов из группы риска в Открытом университете ». Обзор аналитики обучения (2015): 1–16.

[485] Сименс, Джордж и др. Open Learning Analytics: интегрированная и модульная платформа ^{[ постоянная мертвая ссылка ]}. Дисс. Издательство Открытого университета, 2011.

[BarlacchiDe_Nadai2015-486] Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читик, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных о городской жизни города Милана и провинции Трентино из нескольких источников» . Научные данные . 2 : 150055. Бибкод : 2015NatSD...250055B . дои : 10.1038/sdata.2015.55 . ISSN 2052-4463 . ПМЦ 4622222 . ПМИД 26528394 .

[487] Ваншорен Дж., Ван Рейн Дж.Н., Бишл Б., Торго Л. (2013). «OpenML: сетевая наука в машинном обучении». Исследования SIGKDD . 15 (2): 49–60. arXiv : 1407.7722 . дои : 10.1145/2641190.2641198 . S2CID 4977460 .

[488] Олсон Р.С., Ла Кава В., Ожеховский П., Урбанович Р.Дж., Мур Дж.Х. (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения» . Добыча биоданных . 10 (1): 36. arXiv : 1703.00512 . Бибкод : 2017arXiv170300512O . дои : 10.1186/s13040-017-0154-4 . ПМЦ 5725843 . ПМИД 29238404 .

[489] «Готовые наборы данных» . appen.com . Приложение . Проверено 30 декабря 2020 г.

[490] «Наборы данных с открытым исходным кодом» . appen.com . Приложение . Проверено 30 декабря 2020 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]