Список наборов данных для исследований в области машинного обучения
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Эти наборы данных используются в исследованиях машинного обучения (ML) и цитируются в рецензируемых научных журналах . Наборы данных являются неотъемлемой частью области машинного обучения. Крупные достижения в этой области могут быть результатом достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерного оборудования и, что менее интуитивно понятно, доступности высококачественных наборов обучающих данных. [1] Высококачественные помеченные наборы обучающих данных для контролируемых и полуконтролируемых машинного обучения алгоритмов обычно сложно и дорого создавать из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим. [2] [3] [4] [5]
Многие организации, включая правительства, публикуют и делятся своими наборами данных . Наборы данных классифицируются в зависимости от лицензий на открытые данные и неоткрытые данные .
Наборы данных различных государственных органов представлены в Списке открытых сайтов государственных данных . Наборы данных портируются на порталы открытых данных . Они доступны для поиска, размещения и доступа через такие интерфейсы, как Open API . Наборы данных доступны в различных отсортированных типах и подтипах.
Список сортировок, используемых для наборов данных
[ редактировать ]Портал данных классифицируется в зависимости от типа лицензии. известны Порталы данных с открытым исходным кодом, основанные на лицензии, как порталы открытых данных , которые используются многими правительственными организациями и академическими учреждениями .
Список порталов открытых данных
[ редактировать ]Имя портала | Лицензия | Список установок портала | Типичное использование |
---|---|---|---|
Комплексная сеть архивов знаний ( CKAN ) | АГПЛ | https://ckan.github.io/ckan-instances/ https://github.com/sebneu/ckan_instances/blob/master/instances.csv | Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов |
ДЭН | лицензия GPL | https://getdkan.org/community | Репозиторий данных для государственных или некоммерческих организаций, решение для управления данными для исследовательских институтов |
Вселенная данных | Апач | https://dataverse.org/installations | Решение для управления данными для научно-исследовательских институтов |
DSpace | БСД | https://registry.lyrasis.org/ | Решение для управления данными для научно-исследовательских институтов |
OpenML | БСД | https://www.openml.org/search?type=data&sort=runs&status=active | Решение для управления данными для обмена наборами данных, алгоритмами и результатами экспериментов через API. |
Список порталов, подходящих для нескольких типов приложений
[ редактировать ]Портал данных иногда перечисляет самые разнообразные подтипы наборов данных, относящиеся ко многим приложениям машинного обучения .
Список порталов, подходящих для конкретного подтипа приложений
[ редактировать ]Порталы данных, подходящие для определенного подтипа приложения машинного обучения, перечислены в последующих разделах.
Данные изображения
[ редактировать ]Текстовые данные
[ редактировать ]Эти наборы данных состоят в основном из текста для таких задач, как обработка естественного языка , анализ настроений , перевод и кластерный анализ .
Отзывы
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Амазонские обзоры | Обзоры продуктов в США на Amazon.com . | Никто. | 233,1 миллиона | Текст | Классификация, анализ настроений | 2015 (2018) | [6] [7] | Маколи и др. |
Набор данных обзора OpinRank | Обзоры автомобилей и отелей на Edmunds.com и TripAdvisor соответственно. | Никто. | 42 230 / ~ 259 000 соответственно | Текст | Анализ настроений, кластеризация | 2011 | [8] [9] | К. Ганесан и др. |
КиноОбъектив | 22 000 000 оценок и 580 000 тегов присвоены 33 000 фильмам 240 000 пользователей. | Никто. | ~22 млн. | Текст | Регрессия, кластеризация, классификация | 2016 | [10] | Группа исследований линз |
Yahoo! Музыкальные рейтинги музыкальных исполнителей | Более 10 миллионов оценок исполнителей от пользователей Yahoo. | Ничего не описано. | ~ 10М | Текст | Кластеризация, регрессия | 2004 | [11] [12] | Yahoo! |
Набор данных для оценки автомобиля | Свойства автомобилей и их общая приемлемость. | Даны шесть категориальных признаков. | 1728 | Текст | Классификация | 1997 | [13] [14] | М. Боханец |
Набор данных о предпочтениях YouTube Comedy Slam | Данные голосования пользователей за пары видеороликов, показанных на YouTube. Пользователи голосовали за более смешные видео. | Метаданные видео предоставлены. | 1,138,562 | Текст | Классификация | 2012 | [15] [16] | |
Набор данных отзывов пользователей Skytrax | Отзывы пользователей об авиакомпаниях, аэропортах, местах и залах ожидания от Skytrax. | Рейтинги являются детальными и включают в себя множество аспектов опыта работы в аэропорту. | 41396 | Текст | Классификация, регрессия | 2015 | [17] | К. Нгуен |
Набор данных для оценки помощника преподавателя | Отзывы помощника преподавателя. | Приведены характеристики каждого экземпляра, такие как класс, размер класса и инструктор. | 151 | Текст | Классификация | 1997 | [18] [19] | В. Лох и др. |
Корпус отзывов вьетнамских студентов (UIT-VSFC) | Отзывы студентов. | Комментарии | 16,000 | Текст | Классификация | 1997 | [20] | Нгуен и др. |
Вьетнамский корпус эмоций в социальных сетях (UIT-VSMEC) | Комментарии пользователей Facebook. | Комментарии | 6,927 | Текст | Классификация | 1997 | [21] | Нгуен и др. |
Вьетнамский открытый набор данных для обнаружения жалоб (ViOCD) | Отзывы клиентов о продукции | Комментарии | 5,485 | Текст | Классификация | 2021 | [22] | Нгуен и др. |
ViHOS: вьетнамцы выявляют разжигание ненависти | Тексты в социальных сетях | Комментарии | Содержит 26 тысяч промежутков на 11 тысяч комментариев. | Текст | Обнаружение диапазона | 2021 | [23] | Хоанг и др. |
Новостные статьи
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных NYSK | Английские новостные статьи о деле, касающемся обвинений в сексуальном насилии против бывшего МВФ директора Доминика Стросс-Кана . | Отфильтровано и представлено в формате XML. | 10,421 | XML, текст | Анализ настроений, извлечение тем | 2013 | [24] | Дермуш М. и др. |
Корпус Reuters, том 1 | Большой корпус Reuters новостей на английском языке. | Детальная категоризация и коды тем. | 810,000 | Текст | Классификация, кластеризация, обобщение | 2002 | [25] | Рейтер |
Корпус Reuters, том 2 | Большой корпус Reuters новостей на нескольких языках. | Детальная категоризация и коды тем. | 487,000 | Текст | Классификация, кластеризация, обобщение | 2005 | [26] | Рейтер |
Коллекция текстовых исследований Thomson Reuters | Большой корпус новостей. | Подробности не описаны. | 1,800,370 | Текст | Классификация, кластеризация, обобщение | 2009 | [27] | Т. Роуз и др. |
Корпус газет Саудовской Аравии | 31 030 статей в арабских газетах. | Метаданные извлечены. | 31,030 | JSON | Обобщение, кластеризация | 2015 | [28] | М. Альхагри |
RE3D (набор данных для оценки извлечения связей и сущностей) | Entity и Relation маркируют данные из различных новостей и правительственных источников. При поддержке Dstl | Фильтрация, категоризация с использованием типов уса. | не известно | JSON | Классификация, распознавание сущностей и отношений | 2017 | [29] | Дстл |
Examiner Каталог спама-кликбейта | Кликбейт, спам, краудсорсинговые заголовки с 2010 по 2015 год. | Дата публикации и заголовки | 3,089,781 | CSV-файл | Кластеризация, События, Настроения | 2016 | [30] | Р. Кулкарни |
ABC Корпус новостей Australia | Весь корпус новостей ABC Australia с 2003 по 2019 год. | Дата публикации и заголовки | 1,186,018 | CSV-файл | Кластеризация, События, Настроения | 2020 | [31] | Р. Кулкарни |
Мировые новости – совокупность 20 тысяч каналов | Снимок всех онлайн-заголовков за неделю на более чем 20 языках. | Время публикации, URL и заголовки | 1,398,431 | CSV-файл | Кластеризация, события, определение языка | 2018 | [32] | Р. Кулкарни |
Reuters Заголовок новостей | 11 лет событий с временными метками, опубликованных в новостной ленте | Время публикации, текст заголовка | 16,121,310 | CSV-файл | НЛП, Компьютерная лингвистика, События | 2018 | [33] | Р. Кулкарни |
The Irish Times Корпус новостей Ирландии | 24 года новостей Ирландии с 1996 по 2019 год | Время публикации, категория заголовка и текст | 1,484,340 | CSV-файл | НЛП, Компьютерная лингвистика, События | 2020 | [34] | Р. Кулкарни |
Набор данных заголовков новостей для обнаружения сарказма | Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей. | Чистый, нормализованный текст | 26,709 | JSON | НЛП, Классификация, Лингвистика | 2018 | [35] | Ришаб Мишра |
Сообщения
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных электронной почты Enron | Электронные письма от сотрудников Enron упорядочены по папкам. | Вложения удалены, недействительные адреса электронной почты преобразованы в [email protected] или [email protected] . | ~ 500,000 | Текст | Сетевой анализ , анализ настроений | 2004 (2015) | [36] [37] | Климт Б. и Ю. Ян |
Набор данных линг-спама | Корпус, содержащий как легитимные, так и спам -сообщения. | Четыре версии корпуса, определяющие, ли лемматизатор включен или стоп-лист. | 2,412 Ему 481 Спам | Текст | Классификация | 2000 | [38] [39] | Анрутсопулос Дж. и др. |
Набор данных для сбора SMS-спама | Сбор SMS-спама. | Никто. | 5,574 | Текст | Классификация | 2011 | [40] [41] | Т. Алмейда и др. |
Набор данных двадцати групп новостей | Сообщения из 20 различных групп новостей. | Никто. | 20,000 | Текст | Обработка естественного языка | 1999 | [42] | Т. Митчелл и др. |
Набор данных базы спама | Спам-письма. | Извлечено множество текстовых функций. | 4,601 | Текст | Обнаружение спама, классификация | 1999 | [43] | М. Хопкинс и др. |
Твиттер и твиты
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
КиноТвиты | Набор данных о рейтингах фильмов, основанный на публичных и хорошо структурированных твитах. | ~710,000 | Текст | Классификация, регрессия | 2018 | [44] | С. Думс | |
Твиттер100 тыс. | Пары изображений и твитов | 100,000 | Текст и изображения | Межмедийный поиск | 2017 | [45] [46] | Ю. Ху и др. | |
Чувство140 | Данные твитов за 2009 год, включая исходный текст, отметку времени, пользователя и тональность. | Засекречено с использованием дистанционного наблюдения по наличию смайлика в твите. | 1,578,627 | Твиты, запятая, разделенные значения | Анализ настроений | 2009 | [47] [48] | А. Го и др. |
Набор данных ASU Twitter | Данные сети Twitter, а не реальные твиты. Показывает связи между большим количеством пользователей. | Никто. | 11 316 811 пользователей, 85 331 846 подключений | Текст | Кластеризация, графовый анализ | 2009 | [49] [50] | Р. Зафарани и др. |
Социальные круги SNAP: база данных Twitter | Большие данные сети Twitter. | Особенности узлов, круги и эго-сети. | 1,768,149 | Текст | Кластеризация, графовый анализ | 2012 | [51] [52] | Дж. Маколи и др. |
Набор данных Twitter для анализа настроений на арабском языке | Арабские твиты. | Образцы вручную помечаются как положительные или отрицательные. | 2000 | Текст | Классификация | 2014 | [53] [54] | Н. Абдулла |
Ажиотаж в наборе данных социальных сетей | Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. | Данные представлены в виде окна, поэтому пользователь может попытаться предсказать события, которые приведут к ажиотажу в социальных сетях. | 140,000 | Текст | Регрессия, Классификация | 2013 | [55] [56] | Ф. Кавала и др. |
Парафраз и семантическое сходство в Твиттере (PIT) | Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение/информацию или нет. Маркировка вручную. | токенизация, тегирование частей речи и именованных объектов | 18,762 | Текст | Регрессия, Классификация | 2015 | [57] [58] | Сюй и др. |
Набор контрольных данных Geoparse Twitter | Этот набор данных содержит твиты во время различных новостных мероприятий в разных странах. Упоминания местоположения, помеченные вручную. | аннотации местоположения добавлены в метаданные JSON | 6,386 | Твиты, JSON | Классификация, извлечение информации | 2014 | [59] [60] | С.Э. Миддлтон и др. |
Сарказм, воспринимаемый и преднамеренный, методом реактивного надзора (SPIRS) | Намеренные и воспринимаемые саркастические твиты вместе с их контекстом, собранные с использованием реактивного надзора; равное количество отрицательных (несаркастических) образцов | 30,000 | Идентификаторы твитов, CSV | Классификация | 2020 | [61] [62] | Б. Шмуэли и др. | |
Голландская коллекция социальных сетей | Этот набор данных содержит твиты о COVID-19, написанные носителями голландского языка или пользователями из Нидерландов. Данные были помечены машиной | классифицировано по настроению, тексту твита и описанию пользователя, переведенному на английский язык. Упоминания отрасли извлечены | 271,342 | JSONL | Настроения, классификация по нескольким меткам, машинный перевод | 2020 | [63] [64] [65] | Ааакш Гупта, CoronaWhy |
Набор данных ReactionGIF | Набор данных из 30 тысяч твитов и их реакций в формате GIF. | Классифицируется по настроениям, реакциям и эмоциям. | 30,000 | Идентификаторы твитов, JSONL | Классифицируется по настроениям, реакциям и эмоциям. | 2021 | [66] [67] | Б. Шмуэли и др. |
Диалоги
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Корпус чата NPS | Сообщения из возрастных онлайн-чатов. | Конфиденциальность рук замаскирована, отмечена часть речи и диалоговый акт. | ~ 500,000 | XML | НЛП, программирование, лингвистика | 2007 | [68] | Форсайт Э., Лин Дж. и Мартелл К. |
Тройной корпус Твиттера | Тройки ABA взяты из Twitter. | 4,232 | Текст | НЛП | 2016 | [69] | Сордини А. и др. | |
Корпус UseNet | Сообщения на форуме UseNet. | Анонимные электронные письма и URL-адреса. Пропущены документы длиной <500 слов или >500 000 слов или менее 90% английского языка. | 7 миллиардов | Текст | 2011 | [70] | Шауль К. и Вестбери К. | |
SMS-корпус НУС | SMS-сообщения, собранные между двумя пользователями, с временным анализом. | ~ 10,000 | XML | НЛП | 2011 | [71] | ГДЕ, М | |
Reddit Все комментарии Корпус | Все комментарии Reddit (по состоянию на 2015 год). | ~ 1,7 миллиарда | JSON | НЛП, исследования | 2015 | [72] | Застрял_В_Матрице | |
Корпус диалогов Ubuntu | Диалоги извлечены из чата Ubuntu в IRC. | 930 тысяч диалогов, 7,1 миллиона высказываний | CSV-файл | Исследование диалоговых систем | 2015 | [73] | Лоу, Р. и др. | |
Задача отслеживания состояния диалогового окна | Задачи отслеживания состояния диалога 2 и 3 (DSTC2 и 3) представляли собой исследовательскую задачу, направленную на улучшение современного состояния систем отслеживания состояния разговорных диалогов. | Транскрипция устных диалогов с маркировкой | DSTC2 содержит ~3,2 тыс. вызовов – DSTC3 содержит ~2,3 тыс. вызовов | Json | Отслеживание состояния диалога | 2014 | [74] | Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д. |
Юридический
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Свободное право | Отфильтрованные данные из Court Listener, части проекта FreeLaw. | Очищенный и нормализованный текст | 4,940,710 | Json | НЛП, лингвистика | 2020 | [75] | Т. Хоппе |
Куча закона | Корпус юридических и административных данных | Очищено, нормализовано и приватизировано | ~50,000,000 | Json | НЛП, лингвистика, сантименты | 2022 | [76] [77] | Л. Чжэн; Н. Гуха; Б. Андерсон; П. Хендерсон; Д. Хо |
Проект доступа к судебным делам | Вся официальная, опубликованная в книгах прецедентная практика штата и федерального правительства США — каждый том или дело, обозначенное как официальный отчет о решениях суда на территории Соединенных Штатов. | Очищенный и нормализованный текст | ~10,000 | Json | НЛП, лингвистика | 2022 | [78] | А. Айзман; С. Чепмен; Дж. Кушман; К. Дулин; Х. Эйдолон; и др. |
Другой текст
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Web of Science | Иерархические наборы данных для классификации текста | Никто. | 46,985 | Текст | Классификация, Категоризация | 2017 | [79] [80] | К. Ковсари и др. |
Отчеты о судебных делах | Дела Федерального суда Австралии с 2006 по 2009 год. | Никто. | 4,000 | Текст | Подведение итогов, анализ цитирования | 2012 | [81] [82] | Ф. Гальгани и др. |
Корпус авторства блоггеров | Записи в блогах 19 320 человек с сайта blogger.com. | Блогер самостоятельно указал пол, возраст, сферу деятельности и астрологический знак. | 681,288 | Текст | Анализ настроений, обобщение, классификация | 2006 | [83] [84] | Дж. Шлер и др. |
Социальная структура сетей Facebook | Большой набор данных о социальной структуре Facebook. | Никто. | охвачено 100 колледжей | Текст | Сетевой анализ, кластеризация | 2012 | [85] [86] | А. Трауд и др. |
Набор данных для машинного понимания текста | Истории и сопутствующие вопросы для проверки понимания текста. | Никто. | 660 | Текст | Обработка естественного языка, машинное понимание | 2013 | [87] [88] | М. Ричардсон и др. |
Проект Пенн-Трибанк | Естественно встречающийся текст, аннотированный по лингвистической структуре. | Текст разбивается на семантические деревья. | ~ 1 млн слов | Текст | Обработка естественного языка, обобщение | 1995 | [89] [90] | М. Маркус и др. |
Набор данных ДЭКСТЕР | Задача состоит в том, чтобы по приведенным признакам определить, какие статьи посвящены корпоративным приобретениям. | Извлеченные особенности включают основы слов. Включены функции отвлечения. | 2600 | Текст | Классификация | 2008 | [91] | Рейтер |
Google Книги | N-граммы из очень большого корпуса книг | Никто. | 2,2 ТБ текста | Текст | Классификация, кластеризация, регрессия | 2011 | [92] [93] | |
Тело человека | Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. | Помимо обычных текстов приводятся синтаксически размеченные тексты. | 145 | Текст | Классификация, регрессия | 2008 | [94] [95] | К. Люйкс и др. |
НажмитеShift | Архивы сайтов социальных сетей, включая Reddit , Twitter и Hackernews . | Текст извлечен и нормализован из WARC | ~100 000 000 сообщений | Json | НЛП, сантименты, лингвистика | 2022 | [96] [97] | Дж. Баумгартнер |
Документы SEC | ЭДГАР | Документы компании | Текст извлечен. | csv | НЛП | ||||
Набор данных CNAE-9 | Задача категоризации свободных текстовых описаний бразильских компаний. | Частота слов была извлечена. | 1080 | Текст | Классификация | 2012 | [98] [99] | П. Сиарелли и др. |
Набор данных предложений с маркировкой настроений | 3000 настроений, помеченных предложениями. | Настроение каждого предложения было вручную помечено как положительное или отрицательное. | 3000 | Текст | Классификация, анализ настроений | 2015 | [100] [101] | Д. Коциас |
Набор данных обратной связи блога | Набор данных для прогнозирования количества комментариев, которые получит сообщение, на основе особенностей этого сообщения. | Извлечено множество особенностей каждого поста. | 60,021 | Текст | Регрессия | 2014 | [102] [103] | К. Губа |
ПабМед Централ | PubMed® включает более 35 миллионов ссылок на биомедицинскую литературу из MEDLINE, журналов по наукам о жизни и онлайн-книг. | Никто | 35 миллионов | Текст | НЛП | |||
ВПТЗ США | Ведомство США по патентам и товарным знакам | Текст | НЛП | |||||
Филпаперс | Коллекция публикаций по философии в открытом доступе | Текст | НЛП | |||||
Книжный корпус | Популярный крупномасштабный текстовый корпус. | Никто | Текст | НЛП | 2015 | [104] | Чжу, Юкунь и др. | |
Стэнфордский корпус вывода естественного языка (SNLI) | Подписи к изображениям сочетались с вновь построенными предложениями, образуя пары следствий, противоречий или нейтральных пар. | Метки классов Entailment, синтаксический анализ с помощью парсера Stanford PCFG. | 570,000 | Текст | Вывод на естественном языке/распознавание текстовых последствий | 2015 | [105] | С. Боуман и др. |
Коллекция корпусов DSL (DSLCC) | Многоязычный сборник коротких отрывков публицистических текстов на близких языках и диалектах. | Никто | 294 000 фраз | Текст | Различение похожих языков | 2017 | [106] | И Лилинг и др. |
городского словаря Набор данных | Корпус слов, голосов и определений | Имена пользователей анонимизированы | 2,580,925 | CSV-файл | НЛП, Машинное понимание | 2016 май | [107] | Анонимный |
Т-РЕкс | Рефераты Википедии, соответствующие Викиданных объектам | Согласование троек Викиданных с рефератами Википедии | 11M выровненных троек | JSON и NIF [4] | НЛП, Извлечение отношений | 2018 | [108] | Х. Эльсахар и др. |
Общая оценка понимания языка (GLUE) | Тест из девяти задач | Различный | ~1 млн предложений и пар предложений | НЛУ | 2018 | [109] [110] [111] | Ван и др. | |
Понимание контрактов Набор данных Atticus (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK)) | Набор данных юридических контрактов с обширными экспертными аннотациями | ~13 000 этикеток | CSV и PDF | Обработка естественного языка, QnA | 2021 | Проект Аттикус | ||
Набор данных подписей к изображениям на вьетнамском языке (UIT-ViIC) | Набор данных для подписей к изображениям на вьетнамском языке | 19 250 подписей к 3 850 изображениям | CSV и PDF | Обработка естественного языка, Компьютерное зрение | 2020 | [112] | Лам и др. | |
Вьетнамские имена с указанием пола (UIT-ViNames) | Вьетнамские имена с указанием пола | 26 850 полных имен на вьетнамском языке с указанием пола. | CSV-файл | Обработка естественного языка | 2020 | [113] | Два и др. | |
Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке (UIT-ViCTSD) | Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке | 10 000 комментариев вьетнамских пользователей к интернет-газетам на 10 доменах | CSV-файл | Обработка естественного языка | 2021 | [114] | Нгуен и др. | |
PG-19 | Набор книг, извлеченных из книжной библиотеки Project Gutenberg. | Текст | Обработка естественного языка | 2019 | Джек В. и др. | |||
Глубокая математика | Математические пары вопросов и ответов. | Текст | Обработка естественного языка | 2018 | [115] | Д. Сакстон и др. | ||
Архив Анны | Полный архив опубликованных книг и статей. | Никто | 100,356,641 | Текст, epub, PDF | Обработка естественного языка | 2024 |
Звуковые данные
[ редактировать ]Эти наборы данных состоят из звуков и звуковых характеристик, используемых для таких задач, как распознавание и синтез речи .
Речь
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Конкурс речи с нулевыми ресурсами 2015 года | Спонтанная речь (английский), Чтение речи (Сицонга). | Нет, необработанные файлы WAV. | Английский: 5 часов, 12 носителей; Ситсонга: 2 часа 30 минут, 24 динамика | WAV (только аудио) | Неконтролируемое обнаружение особенностей речи/единиц подслов/единиц слов | 2015 | [116] [117] | Верстиг и др. |
Набор речевых данных Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Извлечены особенности голоса, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона . | 1,040 | Текст | Классификация, регрессия | 2013 | [118] [119] | Б.Е. Сакар и др. |
Разговорные арабские цифры | Разговорные арабские цифры от 44 мужчин и 44 женщин. | Временные ряды мел-частотных коэффициентов кепстра. | 8,800 | Текст | Классификация | 2010 | [120] [121] | М. Бедда и др. |
Набор данных ISOLET | Разговорные названия букв. | Особенности, извлеченные из звуков. | 7797 | Текст | Классификация | 1994 | [122] [123] | Р. Коул и др. |
Набор данных японских гласных | Девять носителей мужского пола последовательно произнесли две японские гласные. | Применил к нему 12-градусный анализ линейного прогнозирования, чтобы получить дискретный временной ряд с 12 кепстральными коэффициентами. | 640 | Текст | Классификация | 1999 | [124] [125] | М. Кудо и др. |
Набор данных телемониторинга Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Звуковые особенности извлечены. | 5875 | Текст | Классификация | 2009 | [126] [127] | А. Цанас и др. |
ТИОН | Записи 630 носителей восьми основных диалектов американского английского, каждый из которых читает десять фонетически богатых предложений. | Речь лексически и фонематически транскрибируется. | 6300 | Текст | Распознавание речи, классификация. | 1986 | [128] [129] | Дж. Гарофоло и др. |
Корпус арабской речи | (MSA) для одного говорящего Речевой корпус современного стандартного арабского языка с фонетическими и орфографическими расшифровками, согласованными с уровнем фонем. | Речь орфографически и фонетически транскрибируется со знаками ударения. | ~1900 | Текст, WAV | Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. | 2016 | [130] | Н. Халаби |
Общий голос | Общедоступная база данных краудсорсинговых данных на широком спектре диалектов. | Проверка другими пользователями. | Английский: 1118 часов | MP3 с соответствующими текстовыми файлами | Распознавание речи | июнь 2017 г. (декабрь 2019 г.) | [131] | Мозилла |
LJРечь | Сборник аудиокниг , являющихся общественным достоянием, на английском языке , разделенных на короткие отрывки знаками препинания. | Проверка качества, нормализация транскрипции рядом с оригиналом. | 13,100 | CSV, WAV | Синтез речи | 2017 | [132] | Кит Ито, Линда Джонсон |
Набор данных арабских речевых команд | Собрано от 30 участников и сгруппировано по 40 ключевым словам. | Необработанные файлы WAV | 12,000 | WAV, CSV | Распознавание речи, определение ключевых слов | 2021 | [133] | Абдулкадер Гандура |
Музыка
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Географическое происхождение набора музыкальных данных | Аудио особенности музыкальных сэмплов из разных мест. | Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. | 1,059 | Текст | Географическая классификация, кластеризация | 2014 | [134] [135] | Ф. Чжоу и др. |
Набор данных «Миллион песен» | Аудио функции из миллиона разных песен. | Аудио функции извлечены. | 1М | Текст | Классификация, кластеризация | 2011 | [136] [137] | Т. Бертен-Маье и др. |
MUSDB18 | Многодорожечные записи популярной музыки | Необработанный звук | 150 | MP4, WAV | Разделение источников | 2017 | [138] | З. Рафии и др. |
Бесплатный музыкальный архив | Аудио под Creative Commons из 100 тысяч песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданными, пользовательскими данными, текстом в произвольной форме. | Необработанный звук и аудиофункции. | 106,574 | Текст, MP3 | Классификация, рекомендации | 2017 | [139] | М. Дефферрард и др. |
Набор данных хоровой гармонии Баха | Хоральные аккорды Баха. | Аудио функции извлечены. | 5665 | Текст | Классификация | 2014 | [140] [141] | Д. Радичиони и др. |
Другие звуки
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
UrbanSound | Маркированные звукозаписи звуков, таких как работа кондиционера, автомобильные гудки и игра детей. | Сортировка по папкам по классам событий, а также метаданные в файле JSON и аннотации в файле CSV. | 1,059 | Звук ( ВАВ ) | Классификация | 2014 | [142] [143] | Дж. Саламон и др. |
АудиоСет | 10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 ярлыков. | 128-мерный PCA в стиле VGG воспроизводится каждые 1 секунду. | 2,084,320 | Текстовые (CSV) и файлы записей TensorFlow. | Классификация | 2017 | [144] | Дж. Геммеке и др., Google |
Задача обнаружения звука птиц | Звук со станций мониторинга окружающей среды, а также краудсорсинговые записи | 17,000+ | Классификация | 2016 (2018) | [145] [146] | Университет Королевы Марии и Общество обработки сигналов IEEE | ||
Хипстерские эмбиентные смеси WSJ0 | Звук с WSJ0, смешанный с шумом, записанный в районе залива Сан-Франциско. | Шумовые клипы, соответствующие клипам WSJ0. | 28,000 | Звук ( WAV ) | Разделение источников звука | 2019 | [147] | Вичерн Г. и др., Whisper and MERL. |
ткань | 4981 аудиосэмпл длиной от 15 до 30 секунд, каждый аудиосэмпл имеет пять разных подписей длиной от 8 до 20 слов. | 24,905 | Звук ( WAV ) и текст ( CSV ) | Автоматизированные аудио субтитры | 2020 | [148] [149] | К. Дроссос, С. Липпинг и Т. Виртанен |
Данные сигнала
[ редактировать ]Наборы данных, содержащие информацию об электрическом сигнале, требующую какой-либо обработки сигнала для дальнейшего анализа.
Электрический
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных остроумного червя | Набор данных, подробно описывающий распространение червя Witty и зараженных компьютеров. | Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую как заголовки IP и UDP. | 55 909 IP-адресов | Текст | Классификация | 2004 | [150] [151] | Центр прикладного анализа интернет-данных |
Набор данных для оценки артериального давления без манжеты | Очищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. | Жизненно важные функции на частоте 125 Гц были очищены. | 12,000 | Текст | Классификация, регрессия | 2015 | [152] [153] | М. Качуи и др. |
Набор данных о дрейфе матрицы газовых датчиков | Измерения от 16 химических датчиков, используемых в моделировании для компенсации дрейфа. | Представлено большое количество функций. | 13,910 | Текст | Классификация | 2012 | [154] [155] | А. Вергара |
Набор данных сервопривода | Данные, охватывающие нелинейные зависимости, наблюдаемые в схеме сервоусилителя. | Приведены уровни различных компонентов в зависимости от других компонентов. | 167 | Текст | Регрессия | 1993 | [156] [157] | К. Ульрих |
Набор данных UJIIndoorLoc-Mag | База данных внутренней локализации для тестирования систем внутреннего позиционирования. Данные основаны на магнитном поле. | Даны разделения на обучение и тестирование. | 40,000 | Текст | Классификация, регрессия, кластеризация | 2015 | [158] [159] | Д. Рамбла и др. |
Набор данных диагностики бездатчикового привода | Электрические сигналы от двигателей с неисправными компонентами. | Извлечены статистические характеристики. | 58,508 | Текст | Классификация | 2015 | [160] [161] | М. Батор |
Отслеживание движения
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Носимые компьютеры: Классификация поз и движений тела (PUC-Рио) | Люди выполняют пять стандартных действий, используя трекеры движения. | Никто. | 165,632 | Текст | Классификация | 2013 | [162] [163] | Папский католический университет Рио-де-Жанейро |
Набор данных сегментации фазы жестов | Фрагменты, извлеченные из видео людей, делающих различные жесты. | Извлеченные особенности направлены на изучение сегментации фаз жестов. | 9900 | Текст | Классификация, кластеризация | 2014 | [164] [165] | Р. Мадео и |
Набор данных о физическом воздействии Vicon | 10 нормальных и 10 агрессивных физических действий, измеряющих активность человека, отслеживаемых 3D-трекером. | Многие параметры фиксируются 3D трекером. | 3000 | Текст | Классификация | 2011 | [166] [167] | Т. Теодоридис |
Набор данных о ежедневных и спортивных мероприятиях | Данные датчика моторики для 19 ежедневных и спортивных занятий. | Имеется множество датчиков, предварительная обработка сигналов не производится. | 9120 | Текст | Классификация | 2013 | [168] [169] | Б. Баршан и др. |
Распознавание человеческой деятельности с использованием набора данных смартфонов | Данные гироскопа и акселерометра людей, носящих смартфоны и выполняющих обычные действия. | Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет шума. | 10,299 | Текст | Классификация | 2012 | [170] [171] | Дж. Рейес-Ортис и др. |
Знаки австралийского языка жестов | Знаки австралийского языка жестов, снятые с помощью перчаток, отслеживающих движение. | Никто. | 2565 | Текст | Классификация | 2002 | [172] [173] | М. Кадус |
Упражнения по поднятию тяжестей контролируются с помощью инерционных измерительных приборов | Пять вариантов упражнения на сгибание рук на бицепс, контролируемые с помощью IMU. | Некоторые статистические данные рассчитаны на основе необработанных данных. | 39,242 | Текст | Классификация | 2013 | [174] [175] | В. Угулино и др. |
sEMG для базовых движений рук. Набор данных | Две базы данных поверхностных электромиографических сигналов 6 движений руки. | Никто. | 3000 | Текст | Классификация | 2014 | [176] [177] | К. Сапсанис и др. |
Набор данных распознавания действий REALDISP | Оценить методы борьбы с эффектами смещения датчиков при распознавании активности носимых устройств. | Никто. | 1419 | Текст | Классификация | 2014 | [177] [178] | О. Банос и др. |
Набор данных для распознавания гетерогенной деятельности | Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. | Никто. | 43,930,257 | Текст | Классификация, кластеризация | 2015 | [179] [180] | А. Стисен и др. |
Прогноз движения пользователей внутри помещений на основе данных RSS | Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. | Никто. | 13,197 | Текст | Классификация | 2016 | [181] [182] | Д. Баччу |
Набор данных мониторинга физической активности PAMAP2 | 18 различных видов физической активности, выполняемых 9 субъектами, носящими 3 ИДУ. | Никто. | 3,850,505 | Текст | Классификация | 2012 | [183] | А. Рейсс |
Набор данных для распознавания активности ВОЗМОЖНОСТИ | Распознавание человеческой деятельности с помощью носимых датчиков, датчиков предметов и окружающей среды — это набор данных, разработанный для сравнения алгоритмов распознавания человеческой деятельности. | Никто. | 2551 | Текст | Классификация | 2012 | [184] [185] | Д. Рогген и др. |
Набор данных для распознавания действий в реальном мире | Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков. | Никто. | 3 150 000 (на датчик) | Текст | Классификация | 2016 | [186] | Т. Штайлер и др. |
Набор данных позы после инсульта в Реабилитационном центре Торонто | 3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с использованием робота для реабилитации после инсульта. | Никто. | 10 здоровых и 9 перенесших инсульт (3500–6000 кадров на человека) | CSV-файл | Классификация | 2017 | [187] [188] [189] | Э. Долатабади и др. |
Корпус социальных контактов (CoST) | 7805 снимков 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежном, нормальном и грубом, на сетке датчика давления, обернутой вокруг руки манекена. | Выполняемые сенсорные жесты сегментируются и помечаются. | 7805 захватов жестов | CSV-файл | Классификация | 2016 | [190] [191] | М. Юнг и др. |
Другие сигналы
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных вина | Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. | Приведены 13 свойств каждого вина. | 178 | Текст | Классификация, регрессия | 1991 | [192] [193] | М. Форина и др. |
Набор данных электростанции комбинированного цикла | Данные от различных датчиков на электростанции, работающей в течение 6 лет. | Никто | 9568 | Текст | Регрессия | 2014 | [194] [195] | П. Туфекчи и др. |
Физические данные
[ редактировать ]Наборы данных из физических систем.
Физика высоких энергий
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных ХИГГС | Моделирование столкновений ускорителей частиц методом Монте-Карло. | Приведены 28 особенностей каждого столкновения. | 11М | Текст | Классификация | 2014 | [196] [197] [198] | Д. Уайтсон |
Набор данных HEPMASS | Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель — отделить сигнал от шума. | Приведены 28 особенностей каждого столкновения. | 10,500,000 | Текст | Классификация | 2016 | [197] [198] [199] | Д. Уайтсон |
Системы
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных по гидродинамике яхты | Производительность яхты в зависимости от размеров. | Для каждой яхты дано шесть характеристик. | 308 | Текст | Регрессия | 2013 | [200] [201] | Р. Лопес |
Набор данных о сбоях выполнения робота | 5 наборов данных, которые сосредоточены на неспособности роботов выполнять стандартные задачи. | Целочисленные функции, такие как крутящий момент и другие измерения датчика. | 463 | Текст | Классификация | 1999 | [202] | Л. Сибра и др. |
Набор данных Питтсбургских мостов | Описание конструкции дано с точки зрения нескольких свойств различных мостов. | Приведены различные характеристики моста. | 108 | Текст | Классификация | 1990 | [203] [204] | Ю. Райх и др. |
Набор автомобильных данных | Данные об автомобилях, их страховом риске и нормированных убытках. | Извлечены характеристики автомобиля. | 205 | Текст | Регрессия | 1987 | [205] [206] | Дж. Шиммер и др. |
Набор данных Auto MPG | Данные MPG для автомобилей. | Приведены восемь особенностей каждого автомобиля. | 398 | Текст | Регрессия | 1993 | [207] | Университет Карнеги-Меллон |
Набор данных по энергоэффективности | Требования к отоплению и охлаждению указаны в зависимости от параметров здания. | Указаны параметры здания. | 768 | Текст | Классификация, регрессия | 2012 | [208] [209] | А. Ксифара и др. |
Набор данных собственного шума профиля | Серия аэродинамических и акустических испытаний двух и трехмерных секций лопастей аэродинамического профиля. | Приводятся данные о частоте, угле атаки и т.д. | 1503 | Текст | Регрессия | 2014 | [210] | Р. Лопес |
Набор данных об уплотнительных кольцах космического корабля Challenger USA | Попытайтесь спрогнозировать проблемы с уплотнительными кольцами, учитывая прошлые данные Challenger. | Приведены некоторые характеристики каждого полета, например, температура запуска. | 23 | Текст | Регрессия | 1993 | [211] [212] | Д. Дрейпер и др. |
Набор данных журнала статистики (Шаттл) | Наборы данных космического корабля НАСА. | Даны девять функций. | 58,000 | Текст | Классификация | 2002 | [213] | НАСА |
Астрономия
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы на Венере - набор данных эксперимента JARtool | Изображения Венеры, полученные космическим кораблем Магеллан. | Изображения маркируются людьми. | не дано | Изображения | Классификация | 1991 | [214] [215] | М. Берл |
Набор данных гамма-телескопа MAGIC | Монте-Карло генерировал события с гамма-частицами высоких энергий. | Многочисленные функции, извлеченные из моделирования. | 19,020 | Текст | Классификация | 2007 | [215] [216] | Р. Бок |
Набор данных о солнечных вспышках | Измерения количества определенных типов солнечных вспышек, происходящих за 24 часа. | Приведены многие особенности солнечных вспышек. | 1389 | Текст | Регрессия, классификация | 1989 | [217] | Дж. Брэдшоу |
Многополевой набор данных CAMELS | 2D-карты и 3D-сетки на основе тысяч N-тел и современного гидродинамического моделирования, охватывающего широкий диапазон значений космологических и астрофизических параметров. | С каждой картой и сеткой связано 6 космологических и астрофизических параметров. | 405 000 2D-карт и 405 000 3D-сеток | 2D-карты и 3D-сетки | Регрессия | 2021 | [218] | Франсиско Вильяескуза-Наварро и др. |
Науки о Земле
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы мира | Данные об извержениях вулканов для всех известных вулканических событий на Земле. | Приводятся такие подробности, как регион, субрегион, тектоническая обстановка, доминирующий тип горных пород. | 1535 | Текст | Регрессия, классификация | 2013 | [219] | Э. Венцке и др. |
Набор данных сейсмических ударов | Сейсмическая активность на угольной шахте. | Сейсмическая активность классифицировалась как опасная или нет. | 2584 | Текст | Классификация | 2013 | [220] [221] | М. Сикора и др. |
ВЕРБЛЮДЫ - США | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 671 | CSV, текст, шейп-файл | Регрессия | 2017 | [222] [223] | Н. Аддор и др. / А. Ньюман и др. |
ВЕРБЛЮДЫ-Чили | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 516 | CSV, текст, шейп-файл | Регрессия | 2018 | [224] | К. Альварес-Гарретон и др. |
ВЕРБЛЮДЫ-Бразилия | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 897 | CSV, текст, шейп-файл | Регрессия | 2020 | [225] | V. Chagas et al. |
ВЕРБЛЮДЫ-ГБ | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 671 | CSV, текст, шейп-файл | Регрессия | 2020 | [226] | Г. Коксон и др. |
ВЕРблюды-Австралия | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 222 | CSV, текст, шейп-файл | Регрессия | 2021 | [227] | К. Фаулер и др. |
OldH -CE | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 859 | CSV, текст, шейп-файл | Регрессия | 2021 | [228] | К. Клинглер и др. |
Другие физические
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных по прочности на сжатие бетона | Набор данных о свойствах бетона и прочности на сжатие. | Для каждого образца дано девять признаков. | 1030 | Текст | Регрессия | 2007 | [229] [230] | Я. Да |
Набор данных для испытаний на осадку бетона | Текучесть осадка бетона, заданная с точки зрения свойств. | Приведены характеристики бетона, такие как летучая зола, вода и т. д. | 103 | Текст | Регрессия | 2009 | [231] [232] | Я. Да |
Набор данных Маска | Предскажите, будет ли молекула, учитывая ее характеристики, мускусной или немускусной. | Для каждой молекулы дано 168 признаков. | 6598 | Текст | Классификация | 1994 | [233] | Аррис Фармасьютикал Корп. |
Набор данных о повреждениях стальных пластин | Стальные пластины 7 разных видов. | Для каждого образца дано 27 признаков. | 1941 | Текст | Классификация | 2010 | [234] | Семенионовский научный центр |
Наборы данных по монометаллическим наночастицам благородных металлов | Особенности переработки и строения монометаллических наночастиц, метки – энергия образования. | Для каждого образца дано 85-182 признака. | от 425 до 4000 | CSV-файл | Регрессия | 2017–2023 гг. | [235] [236] [237] [238] [239] [240] | А. Барнард и Г. Оплетал |
Наборы данных по биметаллическим наночастицам благородных металлов | Особенности переработки и строения биметаллических наночастиц, метки – энергия образования. | Для каждого образца дано 922 признака. | с 138147 по 162770 | CSV-файл | Регрессия | 2023 | [241] [242] [243] [244] [245] [246] [247] [248] [249] [250] [251] [252] | Дж. Тинг и др. |
Набор данных по триметаллическим наночастицам AuPdPt | Технологические и структурные особенности наночастиц AuPdPt, меткой является энергия образования. | Для каждого образца дано 1958 характеристик. | 48136 | CSV-файл | Регрессия | 2023 | [253] | К. Лу и др. |
Биологические данные
[ редактировать ]Наборы данных из биологических систем.
Человек
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о возрасте | Структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей. Общественное достояние. | Пятиэтапный метод определения года рождения и смерти, пола и рода занятий на основе данных, предоставленных сообществом во всех языковых версиях проекта Википедии. | 1,223,009 | Текст | Регрессия, Классификация | 2022 | Бумага [254] Набор данных [255] | Амораднежад и др. |
Синтетический набор данных глазного дна [256] | Фотореалистичные изображения сетчатки и сегментация сосудов. Общественное достояние. | 2500 изображений размером 1500*1152 пикселей, полезных для сегментации и классификации вен и артерий на одном фоне. | 2500 | Изображения | Классификация, Сегментация | 2020 | [257] | К. Валенти и др. |
База данных ЭЭГ | Исследование по изучению ЭЭГ-коррелятов генетической предрасположенности к алкоголизму. | Измерения с 64 электродов, помещенных на кожу головы, производились при частоте 256 Гц (период 3,9 мс) в течение 1 секунды. | 122 | Текст | Классификация | 1999 | [258] | Х. Компаньон |
Набор данных интерфейса P300 | Данные девяти субъектов собраны с использованием интерфейса «мозг-компьютер» на базе P300 для людей с ограниченными возможностями. | Разделить на четыре занятия по каждому предмету. MATLAB Дан код . | 1,224 | Текст | Классификация | 2008 | [259] [260] | У. Хоффман и др. |
Набор данных о сердечных заболеваниях | Приписывается больным с сердечно-сосудистыми заболеваниями и без них. | Для каждого пациента задано 75 атрибутов с некоторыми пропущенными значениями. | 303 | Текст | Классификация | 1988 | [261] [262] | А. Янози и др. |
Набор данных рака молочной железы, Висконсин (диагностика) | Набор данных особенностей образований молочной железы. Диагнозы ставит врач. | Приведено по 10 признаков для каждого образца. | 569 | Текст | Классификация | 1995 | [263] [264] | В. Вольберг и др. |
Национальное исследование по употреблению наркотиков и здоровью | Крупномасштабное исследование здоровья и употребления наркотиков в США. | Никто. | 55,268 | Текст | Классификация, регрессия | 2012 | [265] | Министерство здравоохранения и социальных служб США |
Набор данных рака легких | Набор данных о раке легких без определений атрибутов | Для каждого случая дано 56 функций | 32 | Текст | Классификация | 1992 | [266] [267] | З. Хонг и др. |
Набор данных об аритмии | Данные для группы пациентов, из которых у части пациентов имеется сердечная аритмия. | 276 функций для каждого экземпляра. | 452 | Текст | Классификация | 1998 | [268] [269] | Х. Алтай и др. |
Диабет 130 больниц США за 1999–2008 гг. Набор данных | Данные о повторной госпитализации пациентов с диабетом за 9 лет в 130 больницах США. | Приведены многие особенности каждой реадмиссии. | 100,000 | Текст | Классификация, кластеризация | 2014 | [270] [271] | Дж. Клор и др. |
Набор данных о диабетической ретинопатии в Дебрецене | Особенности, извлеченные из изображений глаз с диабетической ретинопатией и без нее. | Извлечены особенности и диагностированы состояния. | 1151 | Текст | Классификация | 2014 | [272] [273] | Б. Антал и др. |
Набор данных Мессидора о диабетической ретинопатии | Методы оценки методов сегментации и индексации в области офтальмологии сетчатки (MESSIDOR) | Особенности степени ретинопатии и риска макулярного отека | 1200 | Изображения, Текст | Классификация, Сегментация | 2008 | [274] [275] | Проект Мессидор |
Набор данных о заболеваниях печени | Данные для людей с заболеваниями печени. | Семь биологических особенностей приведены для каждого пациента. | 345 | Текст | Классификация | 1990 | [276] [277] | Бупа Медицинские Исследования Лтд. |
Набор данных о заболеваниях щитовидной железы | 10 баз данных данных пациентов с заболеваниями щитовидной железы. | Никто. | 7200 | Текст | Классификация | 1987 | [278] [279] | Р. Куинлан |
Набор данных мезотелиомы | Данные пациентов с мезотелиомой. | Приведено большое количество особенностей, в том числе воздействие асбеста. | 324 | Текст | Классификация | 2016 | [280] [281] | А. Танрикулу и др. |
Набор данных для оценки позы Паркинсона на основе зрения | 2D-оценка человеческой позы пациентов с болезнью Паркинсона, выполняющих различные задачи. | На траекториях убрано дрожание камеры. | 134 | Текст | Классификация, регрессия | 2017 | [282] [283] [284] | М. Ли и др. |
Набор данных сети метаболических реакций KEGG (ненаправленный) | Сеть метаболических путей. реакционная сеть и сеть отношений Даны . | Приведены подробные характеристики каждого сетевого узла и пути. | 65,554 | Текст | Классификация, кластеризация, регрессия | 2011 | [285] | М. Наим и др. |
Модифицированный набор данных анализа морфологии спермы человека (MHSMA) | Изображения спермы человека от 235 пациентов с мужским фактором бесплодия, с маркировкой нормальных или аномальных акросом, головки, вакуоли и хвоста сперматозоида. | Обрезано вокруг одиночной головки сперматозоида. Увеличение нормализовалось. Созданы разделения наборов обучения, проверки и тестирования. | 1,540 | .npy-файлы | Классификация | 2019 | [286] [287] | С. Джавади и С. А. Миррошандель |
Животное
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных морского ушка | Физические измерения морского ушка. Также указаны погодные условия и местоположение. | Никто. | 4177 | Текст | Регрессия | 1995 | [288] | Лаборатории морских исследований - Таруна |
Набор данных зоопарка | Набор искусственных данных, охватывающий 7 классов животных. | Животные разделены на 7 категорий и для каждой указаны особенности. | 101 | Текст | Классификация | 1990 | [289] | Р. Форсайт |
Набор данных демоспонгий | Данные о морских губках. | 503 губки класса Demosponge характеризуются различными признаками. | 503 | Текст | Классификация | 2010 | [290] | Э. Арменгол и др. |
Данные о сельскохозяйственных животных | Инвентаризация данных PLF (коровы, свиньи; местоположение, ускорение и т. д.). | Маркированные наборы данных. | Список постоянно обновляется | Текст | Классификация | 2020 | [291] | В. Блох |
Набор данных последовательностей генов сплайс-соединения | Последовательности генов сплайсинга (ДНК) приматов и связанная с ними теория несовершенных доменов. | Никто. | 3190 | Текст | Классификация | 1992 | [267] | Г. Тоуэлл и др. |
Набор данных по экспрессии белков мышей | Уровни экспрессии 77 белков измерены в коре головного мозга мышей. | Никто. | 1080 | Текст | Классификация, кластеризация | 2015 | [292] [293] | К. Хигера и др. |
Грибы
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных грибов UCI | Признаки и классификация грибов. | Приведены многие свойства каждого гриба. | 8124 | Текст | Классификация | 1987 | [294] | Дж. Хуже |
Вторичный набор данных о грибах | Атрибуты и классификация грибов | Смоделированные данные из более крупных и реалистичных первичных записей о грибах. Полностью воспроизводимый. | 61069 | Текст | Классификация | 2020 | [295] [296] | Д. Вагнер и др. |
Растение
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о лесных пожарах | Лесные пожары и их свойства. | Выделено 13 особенностей каждого пожара. | 517 | Текст | Регрессия | 2008 | [297] [298] | П. Кортес и др. |
Набор данных Ирис | Три типа ирисов описываются четырьмя разными признаками. | Никто. | 150 | Текст | Классификация | 1936 | [299] [300] | Р. Фишер |
Набор данных о листьях видов растений | Шестнадцать образцов листьев каждого из ста видов растений. | Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстуры. | 1600 | Текст | Классификация | 2012 | [301] [302] | Дж. Коуп и др. |
Набор данных по сое | База данных больных растений сои. | Даны 35 признаков для каждого растения. Растения разделены на 19 категорий. | 307 | Текст | Классификация | 1988 | [303] | Р. Михальски и др. |
Набор данных семян | Измерения геометрических свойств зерен трех разных сортов пшеницы. | Никто. | 210 | Текст | Классификация, кластеризация | 2012 | [304] [305] | Чаританович и др. |
Набор данных типа обложки | Данные для прогнозирования типа лесного покрова строго на основе картографических переменных. | Даны многие географические объекты. | 581,012 | Текст | Классификация | 1998 | [306] [307] | Дж. Блэкард и др. |
Набор данных сети передачи сигналов абсцизовой кислоты | Данные для сети сигнализации предприятия. Цель состоит в том, чтобы определить набор правил, которые управляют сетью. | Никто. | 300 | Текст | Причинно-следственное открытие | 2008 | [308] | Дж. Дженкенс и др. |
Набор данных фолио | По 20 фотографий листьев каждого из 32 видов. | Никто. | 637 | Изображения, текст | Классификация, кластеризация | 2015 | [309] [310] | Т. Мунисами и др. |
Оксфордский набор цветочных данных | Набор данных из 17 категорий цветов. | Разделение поездов/тестов, маркированные изображения, | 1360 | Изображения, текст | Классификация | 2006 | [311] [312] | М. Е. Нильсбек и др. |
Набор данных о саженцах растений | Набор данных из 12 категорий саженцев растений. | Маркированные изображения, сегментированные изображения, | 5544 | Изображения | Классификация, обнаружение | 2017 | [313] | Гизельссон и др. |
Фрукты-360 | База данных с изображениями 131 фрукта и овоща. | 100x100 пикселей, белый фон. | 90483 | Изображения (jpg) | Классификация | 2017–2024 | [314] | Михай Олтян |
Микроб
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Эколи | Сайты локализации белков. | Приведены различные особенности мест локализации белков. | 336 | Текст | Классификация | 1996 | [315] [316] | К. Накаи и др. |
Набор данных MicroMass | Идентификация микроорганизмов по данным масс-спектрометрии. | Различные функции масс-спектрометра. | 931 | Текст | Классификация | 2013 | [317] [318] | П. Маэ и др. |
Набор данных о дрожжах | Прогнозы мест клеточной локализации белков. | Восемь функций даны для каждого экземпляра. | 1484 | Текст | Классификация | 1996 | [319] [320] | К. Накаи и др. |
Открытие лекарств
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Tox21 | Прогнозирование результатов биологических анализов. | Даны химические дескрипторы молекул. | 12707 | Текст | Классификация | 2016 | [321] | А. Майр и др. |
Данные об аномалиях
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Тест нумента-аномалий (NAB) | Данные представляют собой упорядоченные однозначные метрики с отметкой времени. Все файлы данных содержат аномалии, если не указано иное. | Никто | 50+ файлов | CSV-файл | Обнаружение аномалий | 2016 (постоянно обновляется) | [322] | Имя |
Сколтехский тест аномалий (SKAB) | Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. | Существует две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменений (коллективные аномалии). | 30+ файлов (v0.9) | CSV-файл | Обнаружение аномалий | 2020 (постоянно обновляется) | Кацер Юрий Дмитриевич и Козицын Вячеслав Олегович | |
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование | Большинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые взяты из литературы. | обрабатывается на предмет пропущенных значений, только числовые атрибуты, различный процент аномалий, метки | 1000+ файлов | АРФФ | Обнаружение аномалий | 2016 г. (возможно, дополнено новыми наборами данных и/или результатами) | Кампос и др. |
Данные для ответов на вопросы
[ редактировать ]В этот раздел включены наборы данных, посвященные структурированным данным.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных нейронных ответов на вопросы DBpedia (DBNQA) | Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронной сети открытого домена в базе знаний DBpedia. | Этот набор данных содержит большую коллекцию шаблонов Open Neural SPARQL и экземпляров для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотирования, а также тремя экспертами SPARQL. | 894,499 | Пары вопрос-запрос | Вопрос Ответ | 2018 | [326] [327] | Хартманн, Сору и Маркс и др. |
Набор данных для ответов на вьетнамские вопросы (UIT-ViQuAD) | Большая коллекция вопросов на вьетнамском языке для оценки моделей MRC. | Этот набор данных включает более 23 000 пар вопросов и ответов, созданных человеком, на основе 5 109 отрывков из 174 вьетнамских статей из Википедии. | 23,074 | Пары вопрос-ответ | Вопрос Ответ | 2020 | [328] | Нгуен и др. |
Вьетнамский корпус машинного чтения с множественным выбором (ViMMRC) | Сборник вопросов с несколькими вариантами ответов на вьетнамском языке для оценки моделей MRC. | Этот корпус включает 2783 вопроса на вьетнамском языке с несколькими вариантами ответов. | 2,783 | Пары вопрос-ответ | Ответы на вопросы/понимание машинного чтения | 2020 | [329] | Нгуен и др. |
Ответы на открытые вопросы становятся диалоговыми благодаря переписыванию вопросов | Сквозной ответ на открытый вопрос. | Этот набор данных включает 14 000 разговоров с 81 000 парами вопросов и ответов. | Контекст, Вопрос, Переписать, Ответ, URL_ответа, Номер_разговора, Номер_поворота, Источник_разговора Более подробная информация представлена в репозитории проекта на GitHub и в соответствующей карточке набора данных Hugging Face . | Вопрос Ответ | 2021 | [330] | Ананта и Вакуленко и др. | |
Унифицированный контроль качества | Данные вопросов-ответов | Обработанный набор данных | Вопрос Ответ | 2020 | [331] | Хашаби и др. |
Данные диалога или инструкции
[ редактировать ]В этом разделе представлены наборы данных, которые...
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Надсмотрщик | «Корпус Taskmaster состоит из ТРЕХ наборов данных: Taskmaster-1 (TM-1), Taskmaster-2 (TM-2) и Taskmaster-3 (TM-3), включающих более 55 000 устных и письменных диалогов, ориентированных на задачи, в более чем дюжину доменов». [332] | Надсмотрщик-1: целенаправленный разговорный набор данных. Он включает в себя 13 215 диалогов на основе задач, состоящих из шести доменов. Taskmaster-2: 17 289 диалогов в семи доменах (рестораны, заказ еды, кино, отели, авиабилеты, музыка и спорт). Надсмотрщик-3: 23 757 диалогов с билетами в кино. | Надсмотрщик-1 и Надсмотрщик-2: идентификатор разговора, высказывания, идентификатор инструкции. Надсмотрщик-3: идентификатор разговора, высказывания, вертикаль, сценарий, инструкции. Для получения более подробной информации проверьте репозиторий проекта на GitHub или карточки набора данных Hugging Face ( Taskmaster-1 , Taskmaster-2 , Taskmaster-3 ). | Диалоговое окно/инструкция | 2019 | [333] | Бирн и Кришнамурти и др. | |
DrRepair | Размеченный набор данных для программного восстановления. | Предварительно обработанные данные | Подробные сведения о формате см. на листе проекта . | Диалоговое окно/инструкция | 2020 | [334] | Мичихиро и др. | |
Естественные инструкции v2 | Большой набор данных, охватывающий более широкий спектр способностей к рассуждению. | Каждая задача состоит из ввода/вывода и определения задачи. Кроме того, каждый запрос содержит определение задачи. Дополнительная информация представлена в GitHub репозитории проекта на и на карточке данных Hugging Face . | Ввод/вывод и определение задачи | 2022 | [335] | Ван и др. | ||
ЛАМБАДА | «ЛАМБАДА — это совокупность повествовательных отрывков, обладающая тем свойством, что испытуемые-люди способны угадать свое последнее слово, если они прочитают весь отрывок, а не если они увидят только последнее предложение, предшествующее целевому слову». [336] | Информация о формате этого набора данных доступна в карточке набора данных HuggingFace и на сайте проекта . Набор данных можно скачать здесь , а отклоненные данные — здесь . | 2016 | [337] | Паперно и др. | |||
ФЛАН | Повторно обработанная версия набора данных FLAN с обновлениями с момента выпуска исходного набора данных FLAN доступна в Hugging Face : Скрипты для обработки данных доступны в репозитории GitHub, упомянутом в документе: https://github.com/google-research/FLAN/tree/main/flan . еще один репозиторий FLAN на GitHub Также был создан . Это та карта, которая связана с карточкой набора данных в Hugging Face. | 2021 | [338] | Вэй и др. |
Кибербезопасность
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
МИТРА АТАКА | ATT&CK — это глобально доступная база знаний о тактике и методах противника. | Данные можно загрузить из этих двух репозиториев GitHub: версии 2.1 и версии 2.0. | [339] | МИТРА АТАКА | ||||
ЦАТЭК | Перечень и классификация распространенных шаблонов атак | Данные можно скачать с сайта CAPEC : | [340] | ЦАТЭК | ||||
CVE | CVE — это список публично раскрытых уязвимостей кибербезопасности, который можно бесплатно искать, использовать и включать в продукты и услуги. | Данные можно скачать с: Allitems | [341] | CVE | ||||
КВЕ | Данные перечисления общих слабостей. | Данные можно скачать с: Разработка программного обеспечения Проектирование оборудования [ постоянная мертвая ссылка ] Концепции исследования | [342] | КВЕ | ||||
MalwareTextDB | Аннотированная база данных текстов вредоносного ПО. | Репозиторий проекта на GitHub содержит данные для загрузки. | [343] | Киат и др. | ||||
Материалы симпозиума USENIX по безопасности | Сборник материалов по безопасности симпозиума USENIX по безопасности - технических сессий с 1995 по 2022 год. | Эти данные не подвергаются предварительной обработке. | 1995 , 1996 , 1997 , 1998 , 1999 , 2000 , 2001 , 2002 , 2003 , 2004 , 2005 , 2006 , 2007 , 2008 , 2009 , 2010 2011 , 2012 , 2013 , 2014 , 2015 , 2016 , 2017 , 2018 , 2019 , 2020 , 2021 , 2022 . | [344] | Симпозиум USENIX по безопасности | |||
APTПримечания | Сборник публичных документов, технических документов и статей о кампаниях APT. Все документы являются общедоступными данными. | Эти данные не подвергаются предварительной обработке. | В GitHub репозитории проекта на есть файл со ссылками на данные, хранящиеся в box. Файлы данных также можно скачать здесь . | [345] | Примечания к APT | |||
Документы по криптографии и безопасности arXiv | Сборник статей о кибербезопасности | Эти данные не подвергаются предварительной обработке. | Все статьи доступны здесь . | [346] | arXiv | |||
Электронные книги по безопасности бесплатно | Небольшая коллекция электронных книг по безопасности и общедоступных презентаций по безопасности. | Эти данные не подвергаются предварительной обработке. | [347] [348] [349] [350] [351] [352] [353] [354] [355] [356] [357] [358] | |||||
Репозиторий национальной стратегии кибербезопасности | Репозиторий всемирных стратегических документов по кибербезопасности. | Эти данные не подвергаются предварительной обработке. | [359] | |||||
Кибербезопасность Обработка естественного языка | Данные о стратегиях кибербезопасности из более чем 75 стран. | Токенизация, удаление бессмысленно-частых слов. | [360] | Яньлинь Чен, Юньцзянь Вэй, Ифань Юй, Вэнь Сюэ, Сянья Цинь | ||||
Коллекция отчетов APT | Образцы отчетов APT, вредоносного ПО, технологий и сбора разведывательной информации | Доступны необработанные и токенизированные данные. | Все данные доступны в этом репозитории GitHub . | [ нужна ссылка ] | черная птица | |||
Набор данных для идентификации оскорбительного языка (OLID) | Данные доступны на сайте проекта . Данные также доступны здесь . | [361] | Зампьери и др. | |||||
Киберотчеты Национального центра кибербезопасности | Эти данные не подвергаются предварительной обработке. | Отчеты об угрозах , отчеты и рекомендации , новости , сообщения в блогах , выступления . | [362] | |||||
APT-отчеты Касперского | Эти данные не подвергаются предварительной обработке. | [363] | ||||||
Киберпровод | Эти данные не подвергаются предварительной обработке. | Информационные бюллетени , подкасты и истории . | [364] | |||||
Новости об утечках данных | Эти данные не подвергаются предварительной обработке. | Новости , список новостей с августа 2022 по февраль 2023 года. | [365] | |||||
Киберньюс | Эти данные не подвергаются предварительной обработке. | Новости , кураторский список новостей | [366] | |||||
Мигающийкомпьютер | Эти данные не подвергаются предварительной обработке. | Новости | [367] | |||||
запись | Эти данные не подвергаются предварительной обработке. | Новости киберпреступности | [368] | |||||
Взломать | Эти данные не подвергаются предварительной обработке. | Новости взлома | [369] | |||||
Список безопасности | Эти данные не подвергаются предварительной обработке. | Отчеты APT , архив , отчеты о DDOS , инциденты , бюллетень безопасности Касперского , промышленные угрозы , отчеты о вредоносных программах , мнения , публикации , исследования и SAS . | [370] | |||||
Лепной проект | Проект Stucco собирает данные, которые обычно не интегрируются в системы безопасности. | Эти данные не подвергаются предварительной обработке | Веб-сайт проекта с информацией о данных. Проверенный источник со ссылками на источники данных. | [371] | ||||
Фарсайтбезопасность | Веб-сайт с технической информацией, отчетами и многим другим по темам безопасности. | Эти данные не подвергаются предварительной обработке | Техническая информация , исследования , отчеты . | [372] | ||||
Шнайер | Веб-сайт с научными статьями по темам безопасности. | Эти данные не подвергаются предварительной обработке | Статьи по категориям , архив статей по дате . | [373] | ||||
Трендмикро | Веб-сайт с исследованиями, новостями и перспективами по вопросам безопасности. | Эти данные не подвергаются предварительной обработке | Обзорный список исследований, новостей и перспектив Trendmicro . | [374] | ||||
Хакерские новости | Новости на тему кибербезопасности. | Эти данные не подвергаются предварительной обработке | утечки данных , кибератаки , уязвимости , новости о вредоносном ПО . | [375] | ||||
Кребсонбезопасность | Новости безопасности и расследования | Эти данные не подвергаются предварительной обработке | тщательно подобранный список новостей | [376] | ||||
Митра Защитить | Матрица защитных артефактов | JSON-файлы | [377] | |||||
Митра Атлас | Mitre Atlas — это база знаний о тактиках, методах противодействия и тематических исследованиях для систем машинного обучения (ML), основанная на реальных наблюдениях. | Эти данные не подвергаются предварительной обработке | [378] | |||||
Митра Энгейдж | MITRE Engage — это платформа для планирования и обсуждения операций по взаимодействию с противниками, которая позволяет вам взаимодействовать с противниками и достигать своих целей в области кибербезопасности. | Эти данные не подвергаются предварительной обработке | [379] | |||||
Учебники по взлому | Эти данные не подвергаются предварительной обработке | [380] |
Климат и устойчивость
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Отчеты TCFD | База данных отчетов компаний, включающих раскрытие информации, связанной с TCFD. | Эти данные не подвергаются предварительной обработке | Прямая ссылка на отчеты Кураторский список отчетов | [381] | Центр знаний TCFD | |||
Отчеты о корпоративной социальной ответственности | Список отчетов об ответственности в Интернете. | Эти данные не подвергаются предварительной обработке | Кураторский список отчетов | [382] | ОтветственностьОтчеты | |||
Межправительственная группа экспертов по изменению климата (МГЭИК) | Сборник комплексных отчетов об оценке знаний об изменении климата, его причинах, потенциальных последствиях и вариантах реагирования. | Эти данные не подвергаются предварительной обработке | Отчеты Кураторский список отчетов | [383] | МГЭИК | |||
Альянс исследований корпоративной устойчивости | Эти данные не подвергаются предварительной обработке | Кураторский список сообщений в блоге | [384] | АРКС | ||||
Корпус ESG: Центр знаний по учету устойчивого развития | Эти данные не подвергаются предварительной обработке | Руководства , тематические исследования , блоги , отчеты и опросы . | [385] | Мехра и др. | ||||
КЛИМАТ-ЛИХОРАДКА | Набор данных, основанный на методологии FEVER, состоящий из 1535 реальных утверждений об изменении климата, собранных в Интернете. | Каждое утверждение сопровождается пятью аннотированными вручную предложениями-доказательствами, полученными из английской Википедии, которые подтверждают, опровергают или не дают достаточно информации для подтверждения утверждения, в общей сложности состоящего из 7675 пар утверждение-доказательство. [386] | Карта набора данных HF проекта на , и репозиторий GitHub . | [387] | Диггельманн и др. | |||
Набор данных «Климатические новости» | Набор данных для исследователей НЛП и СМИ, посвященных изменению климата. | Набор данных состоит из ряда артефактов данных (текстовые файлы JSON, JSONL и CSV и база данных SQLite). | База данных климатических новостей проекта на GitHub , репозиторий | [388] | ADGEэффективность | |||
Климаттекст | Climatext — это набор данных для определения тем, связанных с изменением климата, на основе предложений. | набор ВЧ-данных | [389] | Университет Цюриха | ||||
ГринБиз | Сборник статей и новостей о климате и устойчивом развитии | Эти данные не подвергаются предварительной обработке | Кураторский список статей о климате Кураторский список статей об устойчивом развитии | [390] | ||||
Лучшие препринты исследований в области климата и устойчивого развития | Список препринтов исследователей в горячем списке Reuters | Эти данные не подвергаются предварительной обработке | Кураторский список препринтов | [391] | Морис Тамман | |||
АРКС | Эти данные не подвергаются предварительной обработке | Кураторский список блогов о корпоративном устойчивом развитии | [392] | |||||
ГринБиз | Веб-сайт со статьями о климате и устойчивом развитии | Эти данные не подвергаются предварительной обработке | [393] | ГринБиз | ||||
CSRWIRE | Эти данные не подвергаются предварительной обработке | Кураторский список статей | [394] | CSRWIRE | ||||
CDP | Статьи о климате , воде и лесах | Эти данные не подвергаются предварительной обработке | [395] | CDP |
Данные кода
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Стек | Набор данных объемом 3,1 ТБ, состоящий из лицензированного исходного кода на 30 языках программирования. | Фильтруется посредством обнаружения лицензий и дедупликации. | 6 ТБ, 51,76 Б файлов (до дедупликации); 3 ТБ, файлы 5,28Б (после). 358 языков программирования. | Паркет | Языковое моделирование, автодополнение, синтез программ. | 2022 | [396] [397] | Д. Кочетков, Р. Ли, Л. Бен Аллаль, Л. фон Верра, Х. де Врис |
Репозитории GitHub | Эти данные не подвергаются предварительной обработке | Кураторский список репозиториев с GitHub : 61 62 , 63 64 , 68 , 69 , 70 , 71 , , 72 , , 65 66, 67 , , 73 , 74 , 75, 76 , 77 101. | ||||||
Публичные репозитории IBM на GitHub | Эти данные не подвергаются предварительной обработке | Кураторский список репозиториев с GitHub. | ||||||
Публичные репозитории RedHat на GitHub | Эти данные не подвергаются предварительной обработке | Кураторский список репозиториев с GitHub. | ||||||
Файлы Public Archive.org StackExchange | Эти данные не подвергаются предварительной обработке | Кураторский список файлов с Archive.org. | ||||||
Публичные репозитории Gitlab | Эти данные не подвергаются предварительной обработке | Кураторский список репозиториев Gitlab : 1 2 | ||||||
Публичные репозитории Ansible Collections | Эти данные не подвергаются предварительной обработке | Кураторский список репозиториев с GitHub . | ||||||
Набор данных кода CodeParrot GitHub | Эти данные не подвергаются предварительной обработке | Кураторский список репозиториев Hugging Face : 1 2 3 4 5 6 7 8 9 10 | ||||||
ОКД | Распространение Kubernetes от сообщества, лежащее в основе Red Hat OpenShift | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | |||||
Опеншифт | Дистрибутив Kubernetes, удобный для разработчиков и эксплуатации. | Список репозиториев проекта на GitHub | ||||||
Кубернетес | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Разработчик Red Hat | GitHub — главная страница программы Red Hat Developer. | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | |||||
Красная шляпа Мастер-классы | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Kubernetes SIG | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Конвейер | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Торговая площадка RedHat | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Блог Redhat | Эти данные не подвергаются предварительной обработке | [398] | ||||||
Кубернетес ио | Эти данные не подвергаются предварительной обработке | [399] | ||||||
Документы | Эти данные не подвергаются предварительной обработке | [400] | ||||||
cncf я | Эти данные не подвергаются предварительной обработке | [401] | ||||||
Презентации Кубернетеса | Список общедоступных презентаций Kubernetes | Эти данные не подвергаются предварительной обработке | канал передачи данных | |||||
Лаборатории открытых инноваций Red Hat | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Демонстрации Red Hat | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Red Hat OpenShift онлайн | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Коллекции программного обеспечения | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Красная шляпа | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Правительство Красной Шляпы | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Ред Хэт Консалтинг | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Сообщества практиков Red Hat | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Партнер Red Hat Tech | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Документация Red Hat | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
ИБМ | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
IBM Облако | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Команда создания лаборатории | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Терраформировать IBM-модули | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Облачные схемы | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Демонстрации мощности OCP | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Модернизация приложений IBM | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Kubernetes OperationHub | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Фонд облачных вычислений (CNCF) | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Структура оператора | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | [402] | |||||
Репозитории GitHub, на которые есть ссылки в Artehub.io. | Эти данные не подвергаются предварительной обработке | Список репозиториев GitHub в Artehub.io | ||||||
Сообщества практиков Red Hat | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Партнер Red Hat | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Репозитории IBM | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Команда создания лаборатории | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Структура оператора | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Репозитории GitHub | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Красная шляпа | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Шаблоны Кубернетеса | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Шаблоны развертывания и безопасности Kubernetes | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Kubernetes для Full-Stack разработчиков | Эти данные не подвергаются предварительной обработке | Список репозиториев проекта на GitHub | ||||||
Метрики балансировщика нагрузки Cloudwatch | Эти данные не подвергаются предварительной обработке | GitHub репозиторий проекта | ||||||
Дайнатрейс | Эти данные не подвергаются предварительной обработке | [5] | ||||||
Данные AIOps Challenge 2020 | Эти данные не подвергаются предварительной обработке | GitHub репозиторий проекта | ||||||
Логхаб | Эти данные не подвергаются предварительной обработке | Список репозиториев | ||||||
HTML-страницы | Эти данные не подвергаются предварительной обработке | Список HTML-страниц | ||||||
Электронные книги Opensift | Эти данные не подвергаются предварительной обработке | [403] | ||||||
Электронные книги по Кубернетесу | Эти данные не подвергаются предварительной обработке | Шаблоны Kubernetes , Развертывание Kubernetes , Kubernetes для разработчиков полного стека | ||||||
Kubernetes для Full-Stack разработчиков | Эти данные не подвергаются предварительной обработке | Kubernetes для Full-Stack разработчиков | ||||||
Список публичных и лицензированных репозиториев Github | Эти данные не подвергаются предварительной обработке | Список репозиториев |
Многомерные данные
[ редактировать ]Финансовый
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Индекс Доу-Джонса | Еженедельные данные по акциям за первый и второй кварталы 2011 года. | В расчет включены такие значения, как процентное изменение и лаги. | 750 | Значения, разделенные запятыми | Классификация, регрессия, временные ряды | 2014 | [404] [405] | М. Браун и др. |
Statlog (австралийское одобрение кредита) | Заявки на получение кредитной карты принимаются или отклоняются, а также сведения о заявке. | Имена атрибутов удаляются, а также идентифицирующая информация. Факторы были переименованы. | 690 | Значения, разделенные запятыми | Классификация | 1987 | [406] [407] | Р. Куинлан |
данные аукциона eBay | Данные об аукционах различных объектов eBay.com на аукционах разной продолжительности. | Содержит все ставки, идентификатор участника торгов, время ставок и цены открытия. | ~ 550 | Текст | Регрессия, классификация | 2012 | [408] [409] | Г. Шмуэли и др. |
Статлог (кредитные данные Германии) | Классификация двоичных кредитов на «хорошие» и «плохие» со многими особенностями. | Приведены различные финансовые особенности каждого человека. | 690 | Текст | Классификация | 1994 | [410] | Х. Хофманн |
Набор данных банковского маркетинга | Данные крупной маркетинговой кампании, проведенной крупным банком. | Приводятся многие характеристики клиентов, с которыми связались. Также указывается, если клиент подписался на банк. | 45,211 | Текст | Классификация | 2012 | [411] [412] | С. Моро и др. |
Набор данных Стамбульской фондовой биржи | Несколько фондовых индексов отслеживались в течение почти двух лет. | Никто. | 536 | Текст | Классификация, регрессия | 2013 | [413] [414] | О. Акбилгич |
Дефолт клиентов по кредитным картам | Данные о кредитном дефолте для тайваньских кредиторов. | Приводятся различные особенности каждой учетной записи. | 30,000 | Текст | Классификация | 2016 | [415] [416] | Я. Да |
Стокнет | Прогноз движения акций на основе твитов и исторических цен на акции | Никто | Текст | НЛП | 2018 | [417] | Юмо Сюй и Шей Б. Коэн |
Погода
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Облачный набор данных | Данные о 1024 различных облаках. | Извлечены особенности изображения. | 1024 | Текст | Классификация, кластеризация | 1989 | [418] | П. Коллард |
Набор данных Эль-Ниньо | Океанографические и приземные метеорологические данные, полученные с ряда буев, расположенных по всей экваториальной части Тихого океана. | На каждом буе измеряются 12 погодных атрибутов. | 178080 | Текст | Регрессия | 1999 | [419] | Тихоокеанская лаборатория морской окружающей среды |
Набор данных сети наблюдений за парниковыми газами | Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. | Никто. | 2921 | Текст | Регрессия | 2015 | [420] | Д. Лукас |
Атмосферный CO 2 из непрерывных проб воздуха в обсерватории Мауна-Лоа | Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. | Никто. | 44 года | Текст | Регрессия | 2001 | [421] | Обсерватория горы Лоа |
Набор данных ионосферы | Радиолокационные данные из ионосферы. Задача состоит в том, чтобы классифицировать радиолокационные сигналы на хорошие и плохие. | Приведены многие функции радара. | 351 | Текст | Классификация | 1989 | [279] [422] | Университет Джонса Хопкинса |
Набор данных для определения уровня озона | Два набора данных об уровне приземного озона. | Приведено множество характеристик, включая погодные условия во время измерения. | 2536 | Текст | Классификация | 2008 | [423] [424] | К. Чжан и др. |
Перепись
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для взрослых | Данные переписи населения 1994 года, содержащие демографические характеристики взрослого населения и их доходы. | Очищено и анонимизировано. | 48,842 | Значения, разделенные запятыми | Классификация | 1996 | [425] | Бюро переписи населения США |
Переписной доход (KDD) | Взвешенные данные переписи населения, полученные в ходе текущих обследований населения 1994 и 1995 годов . | Разделить на обучающие и тестовые наборы. | 299,285 | Значения, разделенные запятыми | Классификация | 2000 | [426] [427] | Бюро переписи населения США |
База данных переписи населения IPUMS | Данные переписи населения в районах Лос-Анджелеса и Лонг-Бич. | Никто | 256,932 | Текст | Классификация, регрессия | 1999 | [428] | ИПУМС |
Данные переписи населения США 1990 г. | Частичные данные переписи населения США 1990 года. | Результаты рандомизированы и выбраны полезные атрибуты. | 2,458,285 | Текст | Классификация, регрессия | 1990 | [429] | Бюро переписи населения США |
Транзит
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для совместного использования велосипедов | Почасовой и дневной подсчет проката велосипедов в большом городе. | Приводятся многие характеристики, включая погоду, продолжительность поездки и т. д. | 17,389 | Текст | Регрессия | 2013 | [430] [431] | Х. Фанаи-Т |
Данные о поездках на такси в Нью-Йорке | Данные о поездках желтых и зеленых такси в Нью-Йорке. | Содержит информацию о местах посадки и высадки, тарифах и других деталях поездок. | 6 лет | Текст | Классификация, кластеризация | 2015 | [432] | Комиссия по такси и лимузинам Нью-Йорка |
Траектория службы такси ECML PKDD | Траектории всех такси в большом городе. | Приведено множество функций, включая точки начала и остановки. | 1,710,671 | Текст | Кластеризация, причинно-следственное обнаружение | 2015 | [433] [434] | М. Феррейра и др. |
МЕТР-ТО | Скорость по показаниям детекторов петель на шоссе округа Лос-Анджелес. | Средняя скорость за 5 минут. | 7 094 304 от 207 датчиков и 34 272 временных шагов | Значения, разделенные запятыми | Регрессия, Прогнозирование | 2014 | [435] | Джагадиш и др. |
ПеМС | Скорость, поток, занятость и другие показатели, полученные от детекторов контуров и других датчиков на автостраде штата Калифорния, США. | Метрика обычно агрегируется с помощью среднего значения с интервалом в 5 минут. | 39 000 отдельных детекторов, каждый из которых содержит временные ряды за годы. | Значения, разделенные запятыми | Регрессия, прогнозирование, прогноз текущей погоды, интерполяция | (обновляется в реальном времени) | [436] | Департамент транспорта Калифорнии |
Интернет
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Веб-страницы из Common Crawl 2012 | Большая коллекция веб-страниц и способы их соединения гиперссылками. | Никто. | 3,5Б | Текст | кластеризация, классификация | 2013 | [437] | В. Гранвиль |
Набор данных интернет-рекламы | Набор данных для прогнозирования, является ли данное изображение рекламой или нет. | Функции кодируют геометрию объявлений и фраз, встречающихся в URL-адресе. | 3279 | Текст | Классификация | 1998 | [438] [439] | Н. Кушмерик |
Набор данных об использовании Интернета | Общая демография интернет-пользователей. | Никто. | 10,104 | Текст | Классификация, кластеризация | 1999 | [440] | Д. Кук |
Набор данных URL | Данные URL-адресов большой конференции за 120 дней. | Приведены многие функции каждого URL-адреса. | 2,396,130 | Текст | Классификация | 2009 | [441] [442] | Дж.Ма |
Набор данных фишинговых веб-сайтов | Набор данных фишинговых сайтов. | Приведены многие особенности каждого сайта. | 2456 | Текст | Классификация | 2015 | [443] | Р. Мустафа и др. |
Набор данных онлайн-торговли | Онлайн-транзакции для британского интернет-магазина. | Подробная информация о каждой транзакции предоставлена. | 541,909 | Текст | Классификация, кластеризация | 2015 | [444] | Д. Чен |
Простой дамп темы Freebase | Freebase — это онлайн-попытка структурировать все человеческие знания. | Были извлечены темы из Freebase. | большой | Текст | Классификация, кластеризация | 2011 | [445] [446] | Бесплатная база |
Набор данных фермерской рекламы | Текст фермерских объявлений с сайтов. Выдается двоичное одобрение или неодобрение со стороны владельцев контента. | Рассчитаны SVMlight разреженные векторы текстовых слов в рекламных объявлениях. | 4143 | Текст | Классификация | 2011 | [447] [448] | К. Мастерхарм и др. |
Куча | Сборка нескольких больших наборов данных разнообразных и неструктурированных текстов. | Разное (удаление HTML и Javascript с веб-сайтов, удаление повторяющихся предложений) | 825 ГиБ английского текста | JSON-линии [449] [450] | Обработка естественного языка, прогнозирование текста | 2021 | [451] [449] | Гао и др. |
ОСКАР | Большая коллекция одноязычных корпусов, извлеченных из веб-данных (дампы Common Crawl), охватывающая более 150 языков. | Различные (фильтрация, языковая классификация, обнаружение контента для взрослых и другая маркировка) | 3,4 ТБ текста на английском языке, 1,4 ТБ текста на китайском языке, 1,1 ТБ текста на русском языке, 595 МБ текста на немецком языке, 431 МБ текста на французском языке и данных для более чем 150 языков (цифры для версии 23.01) | JSON-линии [452] | Обработка естественного языка, прогнозирование текста | 2021 | [453] [454] | Ортис Суарес, Абаджи, Сагот и др. |
OpenWebText | Воссоздание корпуса WebText с открытым исходным кодом. Текст представляет собой веб-контент, извлеченный из URL-адресов, опубликованных на Reddit и получивших как минимум три голоса «за». | Извлеченный контент, отличный от HTML, дедуплицированный и токенизированный. | 8 013 769 документов, 38 ГБ | Текст | Обработка естественного языка, прогнозирование текста | 2019 | [455] [456] | А. Гокаслан, В. Коэн |
КОРНИ | Хорошо документированный и репрезентативный многоязычный набор данных с явной целью принести пользу людям, чьи данные были собраны. | Извлечён контент, отличный от HTML, очищен пользовательский интерфейс и реклама, дедуплицированы, удалены личные данные и токенизированы. | 1,6 ТБ, 59 языков. | Паркет | Обработка естественного языка, прогнозирование текста | 2022 | [457] [458] | Х. Лоуренсон, Л. Солнье, Т. Ван, Ж. Акики, А. Вилланова дель Мораль, Т. Ле Скао |
Игры
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных покерных рук | 5-карточные комбинации из стандартной колоды из 52 карт. | Приводятся атрибуты каждой руки, включая покерные руки, состоящие из содержащихся в ней карт. | 1,025,010 | Текст | Регрессия, классификация | 2007 | [459] | Р. Каттрал |
Набор данных Connect-4 | Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один игрок еще не выиграл и в которых следующий ход не является обязательным. | Никто. | 67,557 | Текст | Классификация | 1995 | [460] | Дж. Тромп |
Шахматы (король-ладья против короля) Набор данных | База данных эндшпиля для белого короля и ладьи против черного короля. | Никто. | 28,056 | Текст | Классификация | 1994 | [461] [462] | М. Бейн и др. |
Шахматы (король-ладья против короля-пешки) Набор данных | Король+ладья против короля+пешка на а7. | Никто. | 3196 | Текст | Классификация | 1989 | [463] | Р. Холте |
Набор данных эндшпиля «Крестики-нолики» | Бинарная классификация условий победы в игре «крестики-нолики». | Никто. | 958 | Текст | Классификация | 1991 | [464] | Д. Ааа |
Прочие многомерные
[ редактировать ]Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о жилье | Средняя стоимость дома в Бостоне с соответствующими характеристиками дома и района. | Никто. | 506 | Текст | Регрессия | 1993 | [465] | Д. Харрисон и др. |
Словари Гетти | структурированная терминология искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы. | Никто. | большой | Текст | Классификация | 2015 | [466] | Центр Гетти |
Yahoo! Главная страница Модуль «Сегодня» Журнал кликов пользователя | Журнал кликов пользователей для новостных статей, отображаемых на вкладке «Рекомендуемые» модуля «Сегодня» на Yahoo! Первая страница. | Совместный анализ с билинейной моделью. | 45 811 883 посещения пользователей | Текст | Регрессия, кластеризация | 2009 | [467] [468] | Чу и др. |
Британский центр океанографических данных | Биологические, химические, физические и геофизические данные океанов. Отслеживается 22 тыс. переменных. | Различный. | 22 тыс. переменных, множество экземпляров | Текст | Регрессия, кластеризация | 2015 | [469] | Британский центр океанографических данных |
Набор данных протоколов голосования в Конгрессе | Данные голосования всех представителей США по 16 вопросам. | Помимо необработанных данных голосования, предоставляются различные другие функции. | 435 | Текст | Классификация | 1987 | [470] | Дж. Хуже |
Набор данных рекомендаций Entree Chicago | Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. | Подробная информация об использовании приложения каждым пользователем записывается. | 50,672 | Текст | Регрессия, рекомендация | 2000 | [471] | Р. Берк |
Оценка страховой компании (COIL 2000) | Информация о клиентах страховой компании. | Множество особенностей каждого клиента и услуг, которыми он пользуется. | 9,000 | Текст | Регрессия, классификация | 2000 | [472] [473] | П. ван дер Путтен |
Набор данных питомника | Данные поступающих в детские сады. | Включены данные о семье заявителя и различные другие факторы. | 12,960 | Текст | Классификация | 1997 | [474] [475] | В. Райкович и др. |
Набор данных университета | Данные, описывающие атрибуты большого количества университетов. | Никто. | 285 | Текст | Кластеризация, классификация | 1988 | [476] | С. Саундерс и др. |
Набор данных Центра переливания крови | Данные Центра переливания крови. Предоставляет данные о проценте возврата доноров, частоте и т. д. | Никто. | 748 | Текст | Классификация | 2008 | [477] [478] | Я. Да |
Набор данных шаблонов сравнения связей записи | Большой набор данных записей. Задача состоит в том, чтобы связать соответствующие записи вместе. | Процедура блокировки применяется для выбора только определенных пар записей. | 5,749,132 | Текст | Классификация | 2011 | [479] [480] | Университет Майнца |
Набор данных Номао | Nomao собирает данные о местах из разных источников. Задача — обнаружить предметы, описывающие одно и то же место. | Дубликаты помечены. | 34,465 | Текст | Классификация | 2012 | [481] [482] | Номао Лаборатории |
Набор данных фильма | Данные по 10 000 фильмов. | Приведено несколько функций для каждого фильма. | 10,000 | Текст | Кластеризация, классификация | 1999 | [483] | Г. Видерхольд |
Набор данных аналитики обучения открытого университета | Информация об учениках и их взаимодействии с виртуальной средой обучения. | Никто. | ~ 30,000 | Текст | Классификация, кластеризация, регрессия | 2015 | [484] [485] | Дж. Кузилек и др. |
Записи мобильных телефонов | Телекоммуникационная деятельность и взаимодействие | Агрегация по ячейкам географической сетки и каждые 15 минут. | большой | Текст | Классификация, кластеризация, регрессия | 2015 | [486] | Дж. Барлакки и др. |
Кураторские репозитории наборов данных
[ редактировать ]Поскольку наборы данных имеют множество форматов и иногда их может быть сложно использовать, была проделана значительная работа по созданию и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.
- ОпенМЛ: [487] Веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
- ПМЛБ: [488] Большой тщательно подобранный репозиторий эталонных наборов данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, доступном через API Python.
- Metatext NLP: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий около 1000 наборов контрольных данных, и их количество продолжает расти. Предоставляет множество задач, от классификации до контроля качества, и поддерживает различные языки: от английского, португальского до арабского.
- Appen : готовые наборы данных и наборы данных с открытым исходным кодом, размещаемые и поддерживаемые компанией. Эти биологические, графические, физические ресурсы, ресурсы для ответов на вопросы, сигналы, звуки, текст и видео насчитывают более 250 и могут применяться более чем в 25 различных случаях использования. [489] [490]
См. также
[ редактировать ]- Сравнение программного обеспечения глубокого обучения
- Список инструментов ручного аннотирования изображений
- Список биологических баз данных
Ссылки
[ редактировать ]- ^ Висснер-Гросс, А. «Наборы данных вместо алгоритмов» . Edge.com . Проверено 8 января 2016 г.
- ^ Вайс, генеральный директор; Провост, Ф. (1 сентября 2003 г.). «Обучение, когда обучающие данные являются дорогостоящими: влияние распределения классов на индукцию дерева» . Журнал исследований искусственного интеллекта . 19 . Фонд доступа к искусственному интеллекту: 315–354. дои : 10.1613/jair.1199 . ISSN 1076-9757 . S2CID 2344521 .
- ^ Терни, Питер (2000). «Типы затрат в индуктивном концептуальном обучении». arXiv : cs/0212034 .
- ^ Эбни, Стивен (17 сентября 2007 г.). Полуконтролируемое обучение компьютерной лингвистике . ЦРК Пресс. ISBN 978-1-4200-1080-0 .
- ^ Жлиобайте, Индре; Бифет, Альберт; Пфарингер, Бернхард; Холмс, Джефф (2011). «Активное обучение с развивающимися потоковыми данными». Машинное обучение и обнаружение знаний в базах данных . Конспекты лекций по информатике. Том. 6913. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 597–612. дои : 10.1007/978-3-642-23808-6_39 . ISBN 978-3-642-23807-9 . ISSN 0302-9743 .
- ^ Маколи, Джулиан; Таргетт, Кристофер; Ши, Циньфэн; Антон ван ден Хенгель (2015). «Рекомендации по стилям и заменителям на основе изображений». arXiv : 1506.04757 [ cs.CV ].
- ^ «Данные обзора Amazon» . nijianmo.github.io . Проверено 8 октября 2021 г.
- ^ Ганесан, Кавита; Чжай, Чэнсян (2012). «Рейтинг организаций на основе мнений». Информационный поиск . 15 (2): 116–150. дои : 10.1007/s10791-011-9174-8 . hdl : 2142/15252 . S2CID 16258727 .
- ^ Льв, Юаньхуа, Димитриос Лимберопулос и Цян Ву. « Исследование эвристики ранжирования в мобильном локальном поиске ». Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска» . АКМ, 2012.
- ^ Харпер, Ф. Максвелл; Констан, Джозеф А. (2015). «Наборы данных MovieLens: история и контекст». Транзакции ACM в интерактивных интеллектуальных системах . 5 (4): 19. дои : 10.1145/2827872 . S2CID 16619709 .
- ^ Кенигштейн, Ноам, Гидеон Дрор и Иегуда Корен. « Музыкальные рекомендации Yahoo!: моделирование музыкальных рейтингов с учетом временной динамики и таксономии предметов ». Материалы пятой конференции ACM по рекомендательным системам . АКМ, 2011.
- ^ Макфи, Брайан и др. « Вызов набора данных на миллион песен ». Материалы 21-й международной конференции-спутника по Всемирной паутине . АКМ, 2012.
- ^ Боанец, Марко и Владислав Райкович. « Получение знаний и объяснение принятия многоатрибутных решений ». 8-й международный семинар по экспертным системам и их приложениям . 1988.
- ^ Тан, Питер Дж. и Дэвид Л. Доу. « Вывод MML графов решений с многосторонними соединениями ». Австралийская совместная конференция по искусственному интеллекту . 2002.
- ^ «Количественная оценка комедии на YouTube: почему количество букв «о» в вашем LOL имеет значение» . Метатекстовая база данных НЛП . Проверено 26 октября 2020 г.
- ^ Ким, Бён Джу (2012). «Классификатор больших данных» . Конвергенция и гибридные информационные технологии . Коммуникации в компьютерной и информатике. Том. 310. С. 505–512. дои : 10.1007/978-3-642-32692-9_63 . ISBN 978-3-642-32691-2 .
- ^ Пересгонсалес, Хосе Д.; Гилби, Эндрю (2011). «Прогнозирование рейтингов аэропортов Skytrax на основе отзывов клиентов» . Журнал управления аэропортами . 5 (4): 335–339.
- ^ Ло, Вэй-Инь и Ю-Шань Ши. « Методы расщепленного выбора для деревьев классификации ». Statistica sinica (1997): 815–840.
- ^ Лим, Тьен-Сиен; Ло, Вэй-Инь; Ши, Ю-Шань (2000). «Сравнение точности прогнозирования, сложности и времени обучения тридцати трех старых и новых алгоритмов классификации». Машинное обучение . 40 (3): 203–228. дои : 10.1023/а:1007608224229 . S2CID 17030953 .
- ^ Киет Ван Нгуен, Ву Дук Нгуен, Фу XV Нгуен, Тхам Т.Х. Труонг, Нган Луу-Туи Нгуен. " UIT-VSFC: Корпус отзывов вьетнамских студентов для анализа настроений
- ^ Хо, Вонг Ань; Нгуен, Дуонг Хуинь-Конг; Нгуен, Дань Хоанг; Фам, Линь Тхи-Ван; Нгуен, Дюк-Ву; Нгуен, Киет Ван; Нгуен, Нган Луу-Туи (2020). «Распознавание эмоций в текстах вьетнамских социальных сетей» . Компьютерная лингвистика . Коммуникации в компьютерной и информатике. Том. 1215. стр. 319–333. arXiv : 1911.09339 . дои : 10.1007/978-981-15-6168-9_27 . ISBN 978-981-15-6167-2 . S2CID 208202333 .
- ^ Нхунг Тхи-Хонг Нгуен, Фуонг Ха-Диеу Фан, Луан Тхань Нгуен, Киет Ван Нгуен, Нган Луу-Туй Нгуен (24 апреля 2021 г.). «Вьетнамское обнаружение жалоб на открытые домены на веб-сайтах электронной коммерции». arXiv : 2104.11969 [ cs.CL ].
{{cite arXiv}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Фу Зиа Хоанг, Кань Дык Луу, Кхань Куок Тран, Киет Ван Нгуен, Нган Луу-Туй Нгуен (26 января 2023 г.). «ViHOS: вьетнамцы выявляют разжигание ненависти». arXiv : 2301.10186 [ cs.CL ].
{{cite arXiv}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Дермуш, Мохамед; Вельсин, Жюльен; Хоас, Лейла; Лаудчер, Сабина (2014). «Совместная модель эволюции тем и настроений с течением времени». Международная конференция IEEE 2014 по интеллектуальному анализу данных . IEEE. стр. 773–778. дои : 10.1109/icdm.2014.82 . ISBN 978-1-4799-4302-9 .
- ^ Роуз, Тони; Стивенсон, Марк; Уайтхед, Майлз (2002). «Корпус Reuters, том 1 - от вчерашних новостей до языковых ресурсов завтрашнего дня» (PDF) . ЛРЭК . 2 . S2CID 9239414 . Архивировано из оригинала (PDF) 6 августа 2019 года.
- ^ Амини, Масих Р.; Усунье, Николя; Гутте, Кирилл (2009). «Обучение на основе нескольких частично наблюдаемых представлений – приложение к категоризации многоязычного текста» . Достижения в области нейронных систем обработки информации . 22 : 28–36.
- ^ Лю, Мин; и др. (2015). «VRCA: алгоритм кластеризации огромного количества текстов» . Материалы 24-й Международной конференции по искусственному интеллекту . АААИ Пресс. Архивировано из оригинала 5 ноября 2021 года . Проверено 6 августа 2019 г.
- ^ Аль-Харби, С; Альмухареб, А; Аль-Тубайти, А; Хоршид, М.С.; Аль-Радже, А. (2008). «Автоматическая классификация арабского текста». Материалы 9-й Международной конференции по статистическому анализу текстовых данных, Лион, Франция .
- ^ «Набор данных для оценки извлечения связей и сущностей: Dstl/re3d» . Гитхаб . 17 декабря 2018 г.
- ^ «The Examiner – Каталог SpamClickBait» .
- ^ «Миллион заголовков новостей» .
- ^ «Одна неделя глобальных новостных лент» .
- ^ Кулкарни, Рохит (2018), Архив Reuters News-Wire , Harvard Dataverse, doi : 10.7910/DVN/XDB74W
- ^ «IrishTimes – восклицательные новости» .
- ^ «Набор данных заголовков новостей для обнаружения сарказма» . kaggle.com . Проверено 27 апреля 2019 г.
- ^ Климт, Брайан и Имин Ян. « Представляем корпус Enron ». СЕАС . 2004.
- ^ Косинец, Георгий; Кляйнберг, Джон; Уоттс, Дункан (2008). «Структура информационных путей в сети социальных коммуникаций». arXiv : 0806.3201 [ physical.soc-ph ].
- ^ Андрутсопулос, Ион; Куциас, Джон; Чандринос, Константинос В.; Палиурас, Джордж; Спиропулос, Константин Д. (2000). «Оценка наивной байесовской фильтрации спама». В Потамиасе, Г.; Мустакис, В.; ван Сомерен, М. (ред.). Материалы семинара по машинному обучению в эпоху новой информации . 11-я Европейская конференция по машинному обучению, Барселона, Испания. Том. 11. С. 9–17. arXiv : cs/0006013 . Бибкод : 2000cs........6013A .
- ^ Братко, Андрей; и др. (2006). «Фильтрация спама с использованием статистических моделей сжатия данных» (PDF) . Журнал исследований машинного обучения . 7 : 2673–2698.
- ^ Алмейда, Тьяго А., Хосе Мария Г. Идальго и Акебо Ямаками. « Вклад в исследование фильтрации SMS-спама: новый сборник и результаты ». Материалы 11-го симпозиума ACM по документальной инженерии . АКМ, 2011.
- ^ Делани; Джейн, Сара; Бакли, Марк; Грин, Дерек (2012). «Фильтрация SMS-спама: методы и данные» . Экспертные системы с приложениями . 39 (10): 9899–9908. дои : 10.1016/j.eswa.2012.02.053 . S2CID 15546924 .
- ^ Иоахимс, Торстен. Вероятностный анализ алгоритма Роккио с TFIDF для категоризации текста . № КМУ-КС-96-118. Университет Карнеги-Меллона, Питтсбург, Пенсильвания, факультет компьютерных наук, 1996 год.
- ^ Димитракакис, Христос и Сами Бенджио. Адаптация онлайн-политики для ансамблевых алгоритмов . № EPFL-ОТЧЕТ-82788. ИДИАП, 2002.
- ^ Думс, С. и др. «Movietweetings: набор данных о рейтингах фильмов, собранный из Твиттера, 2013 г. Доступно по адресу https://github.com/sidooms/MovieTweetings ».
- ^ Рой Чоудхури, Аруни; Линь, Цунг-Ю; Маджи, Субхрансу; Узнал-Миллер, Эрик (2017). «Twitter100k: реальный набор данных для кросс-медийного поиска со слабым контролем». arXiv : 1703.06618 [ cs.CV ].
- ^ "huyt16/Twitter100k" . Гитхаб . Проверено 26 марта 2018 г.
- ^ Иди, Алек; Бхаяни, Рича; Хуан, Лэй (2009). «Классификация настроений в Твиттере с использованием дистанционного наблюдения». Отчет о проекте CS224N, Стэнфорд . 1 : 12.
- ^ Чикерсал, Прерна, Суджанья Пориа и Эрик Камбрия. « SeNTU: анализ настроений твитов путем сочетания классификатора на основе правил с контролируемым обучением ». Материалы международного семинара по семантической оценке SemEval . 2015.
- ^ Зафарани, Реза и Хуан Лю . «Хранилище данных социальных вычислений в АГУ». Школа вычислительной техники, информатики и систем принятия решений, Университет штата Аризона (2009 г.).
- ^ Курс по науке о данных от DataTrained Education « Сертифицированный IBM курс по науке о данных ». Сертифицированный IBM онлайн-курс по науке о данных
- ^ Маколи, Джулиан Дж.; Лесковец, Юре. «Учимся обнаруживать социальные круги в сетях эго». НИПС . 2012 : 2012.
- ^ Шубель, Ловро; Фиала, Далибор; Баец, Марко (2014). «Сетевое статистическое сравнение топологии цитирования библиографических баз данных» . Научные отчеты . 4 (6496): 6496. arXiv : 1502.05061 . Бибкод : 2014NatSR...4E6496S . дои : 10.1038/srep06496 . ПМЦ 4178292 . ПМИД 25263231 .
- ^ Абдулла Н. и др. «Анализ настроений на арабском языке: на основе корпуса и лексикона». Материалы конференции IEEE по прикладной электротехнике и вычислительным технологиям (AEECT) . 2013.
- ^ Абурейг, Раддад и др. « Об автоматической категоризации арабских статей по их политической направленности ». Третья международная конференция по информатике и информатике (ICIEIS2014) . 2014.
- ^ Кавала, Франсуа и др. « Прогнозы активности в социальных сетях онлайн ». 4-я конференция по сетевым моделям и анализу: Математические и вычислительные подходы . 2013.
- ^ Сабхарвал, Ашиш; Самуловиц, Хорст; Тезауро, Джеральд (2015). «Выбор почти оптимальных учащихся посредством постепенного распределения данных». arXiv : 1601.00024 [ cs.LG ].
- ^ Сюй и др. « SemEval-2015 Задача 1: Перефраз и семантическое сходство в Twitter (PIT) » Материалы 9-го Международного семинара по семантической оценке . 2015.
- ^ Сюй и др. « Извлечение лексически расходящихся парафраз из Твиттера » Транзакции Ассоциации вычислительных технологий (TACL) . 2014.
- ^ Миддлтон, Стюарт Э; Миддлтон, Ли; Модаффери, Стефано (2014). «Картирование кризисов стихийных бедствий в реальном времени с использованием социальных сетей» (PDF) . Интеллектуальные системы IEEE . 29 (2): 9–17. дои : 10.1109/MIS.2013.126 . S2CID 15139204 .
- ^ «геопарсепия» . 2016. Библиотека Python PyPI.
- ^ Шмуэли, Боаз; Ку, Лунь-Вэй; Рэй, Сумья (2020). «Реактивный надзор: новый метод сбора данных о сарказме» . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP) . Ассоциация компьютерной лингвистики. стр. 2553–2559. doi : 10.18653/v1/2020.emnlp-main.201 . S2CID 221970454 .
- ^ Шмули, Боаз. «Набор данных сарказма SPIRS» . Гитхаб .
- ^ Гупта, Аакаш (2020). «Голландская коллекция социальных сетей» . Центр данных о COVID-19. дои : 10.5072/FK2/MTPTL7 . Проверено 11 ноября 2023 г.
- ^ «Стримлит» . Huggingface.co . Проверено 18 декабря 2020 г.
- ^ «Коллекция голландских социальных сетей» . kaggle.com . Проверено 18 декабря 2020 г.
- ^ Шмуэли, Боаз; Рэй, Сумья; Лунь-Вэй (2021). «Счастливый танец, медленные хлопки: использование GIF-реакций для прогнозирования вызванного аффекта в Твиттере». Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 2: Короткие статьи) . Том. Ассоциация компьютерной лингвистики. Как. стр. 395–401. doi : 10.18653/v1/2021.acl-short.50 . S2CID 235125510 .
- ^ Шмуэли, Вооз (5 мая 2023 г.), ReactionGIF , получено 6 октября 2023 г.
- ^ Форсайт Э., Лин Дж. и Мартелл К. (25 июня 2008 г.). Корпус чата NPS. Получено с http://faculty.nps.edu/cmartell/NPSChat.htm.
- ^ Сордони, Алессандро; Галлей, Мишель; Аули, Майкл; Брокетт, Крис; Цзи, Янфэн; Митчелл, Маргарет; Не, Цзянь-Юнь; Гао, Цзяньфэн; Долан, Билл (2015). «Нейросетевой подход к контекстно-зависимой генерации диалоговых ответов». arXiv : 1506.06714 [ cs.CL ].
- ^ Шауль, К. и Вестбери К. (2013) Корпус USENET с уменьшенной избыточностью (2005–2011) Эдмонтон, AB: Университет Альберты (загружено с http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus) .download.html )
- ^ КАН, М. (2011, январь). Корпус службы коротких сообщений (SMS) NUS. Получено с http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/. Архивировано 29 июня 2018 г. на Wayback Machine.
- ^ Застрял_В_Матрице. (2015, 3 июля). У меня есть все общедоступные комментарии Reddit для изучения. ~ 1,7 миллиарда комментариев при сжатии 250 ГБ. Есть ли в этом интерес? [Исходное сообщение]. Сообщение опубликовано на https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/.
- ^ Лоу, Райан; Пау, Ниссан; Сербан, Юлиан; Пино, Джоэль (2015). «Корпус диалогов Ubuntu: большой набор данных для исследования неструктурированных многоповоротных диалоговых систем». arXiv : 1506.08909 [ cs.CL ].
- ^ Джейсон Уильямс Антуан Ро Мэтью Хендерсон, « [1] », Диалог и дискурс | Апрель 2016 года.
- ^ Хоппе, Трэвис (16 декабря 2021 г.), The-Pile-FreeLaw , получено 11 января 2023 г.
- ^ Чжэн, Люсия; Гуха, Нил; Андерсон, Брэндон Р.; Хендерсон, Питер; Хо, Дэниел Э. (21 июня 2021 г.). «Когда предварительная подготовка помогает?» . Материалы восемнадцатой международной конференции по искусственному интеллекту и праву . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 159–168. дои : 10.1145/3462757.3466088 . ISBN 9781450385268 . S2CID 233296302 .
- ^ «куча закона/куча закона · Наборы данных в Hugging Face» . Huggingface.co . 4 июля 2022 г. Проверено 11 января 2023 г.
- ^ «О проекте | Проект доступа к прецедентному праву» . прецедентное право . Проверено 11 января 2023 г.
- ^ К. Ковсари, Д. Э. Браун, М. Хейдарисафа, К. Джафари Мейманди, М. С. Гербер и Л. Е. Барнс, «HDLTex: иерархическое глубокое обучение для классификации текста», 16-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA), 2017 г., стр. 364–371. doi:10.1109/ICMLA.2017.0-134
- ^ К. Ковсари, Д. Е. Браун, М. Хейдарисафа, К. Джафари Мейманди, М. С. Гербер и Л. Е. Барнс, «Набор научных данных Web of Science», дои : 10.17632/9rw3vkcfy4.6
- ^ Гальгани, Филиппо, Пол Комптон и Ахим Хоффманн. « Сочетание различных методов реферирования юридического текста ». Материалы семинара по инновационным гибридным подходам к обработке текстовых данных . Ассоциация компьютерной лингвистики, 2012.
- ^ Нагвани, Северная Каролина (2015). «Обобщение большой коллекции текста с использованием тематического моделирования и кластеризации на основе платформы MapReduce» . Журнал больших данных . 2 (1): 1–18. дои : 10.1186/s40537-015-0020-5 .
- ^ Шлер, Джонатан; и др. (2006). «Влияние возраста и пола на ведение блога» (PDF) . Весенний симпозиум AAAI: Вычислительные подходы к анализу блогов . 6 . Архивировано из оригинала (PDF) 14 ноября 2020 года . Проверено 6 августа 2019 г.
- ^ Ананд, Пранав и др. «Поверьте мне, мы можем это сделать! Аннотации убедительных действий в тексте блога». Вычислительные модели естественного аргумента . 2011.
- ^ Трауд, Аманда Л., Питер Дж. Муха и Мейсон А. Портер. «Социальная структура сетей Facebook». Физика А: Статистическая механика и ее приложения 391.16 (2012): 4165–4180.
- ^ Ричард, Эмиль; Саваль, Пьер-Андре; Ваятис, Николас (2012). «Оценка одновременно разреженных и низкоранговых матриц». arXiv : 1206.6474 [ cs.DS ].
- ^ Ричардсон, Мэтью; Берджес, Кристофер Дж.К.; Реншоу, Эрин (2013). «MCTest: набор данных для машинного понимания текста в открытой области» . ЕМНЛП . 1 .
- ^ Уэстон, Джейсон; Борд, Антуан; Чопра, Сумит; Раш, Александр М.; Барт ван Мерриенбур; Жулен, Арман; Миколов, Томас (2015). «На пути к полному ответу на вопросы с помощью искусственного интеллекта: набор обязательных игрушечных задач». arXiv : 1502.05698 [ cs.AI ].
- ^ Маркус, Митчелл П.; Энн Марцинкевич, Мэри; Санторини, Беатрис (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» . Компьютерная лингвистика . 19 (2): 313–330.
- ^ Коллинз, Майкл (2003). «Головные статистические модели для анализа естественного языка» . Компьютерная лингвистика . 29 (4): 589–637. дои : 10.1162/089120103322753356 .
- ^ Гийон, Изабель и др., ред. Извлечение функций: основы и приложения . Том. 207. Спрингер, 2008.
- ^ Лин, Юрий и др. « Синтаксические аннотации для корпуса ngram книг Google ». Материалы демонстраций системы ACL 2012 . Ассоциация компьютерной лингвистики, 2012.
- ^ Кришнамурти, Ниведа; и др. (2013). «Создание описаний видео на естественном языке с использованием текстовых знаний» . АААИ . 1 . Архивировано из оригинала 6 августа 2019 года . Проверено 6 августа 2019 г.
- ^ Люйкс, Ким и Уолтер Далеманс. « Персоны: корпус предсказаний автора и личности на основе текста» [ мертвая ссылка ] ЛРЭЦ . 2008.
- ^ Солорио, Тамар, Рагиб Хасан и Майнул Мизан. « Пример обнаружения кукольных кукол в Википедии ». Семинар по языковому анализу в социальных сетях (LASM) в NAACL HLT . 2013.
- ^ «Файлы сдвига» . файлы.pushshift.io . Архивировано из оригинала 12 января 2023 года . Проверено 12 января 2023 г.
- ^ Баумгартнер, Джейсон; Занетту, Саввас; Киган, Брайан; Сквайр, Меган; Блэкберн, Джереми (23 января 2020 г.). «Набор данных Pushshift Reddit». arXiv : 2001.08435 [ cs.SI ].
- ^ Сиарелли, Патрик Маркес и Элиас Оливейра. « Агломерация и устранение условий понижения размерности ». Проектирование и применение интеллектуальных систем, 2009. ISDA'09. Девятая международная конференция по . ИИЭР, 2009.
- ^ Чжоу, Минъюань, Оскар Эрнан Мадрид Падилья и Джеймс Г. Скотт. «Априорные данные для матриц случайного счета, полученных из семейства отрицательных биномиальных процессов». журнал Американской статистической ассоциации (2015 г.): 00–00. Только что принятый
- ^ Коциас, Димитриос и др. « От группы к индивидуальным меткам с использованием глубоких функций ». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. АКМ, 2015.
- ^ Нин, Юэ; Мутия, Сатхаппан; Рангвала, Хузефа; Рамакришнан, Нарен (2016). «Моделирование предшественников для прогнозирования событий посредством вложенного многоэкземплярного обучения». arXiv : 1602.08033 [ cs.SI ].
- ^ Буза, Кристиан. « Прогнозирование обратной связи для блогов ». Анализ данных, машинное обучение и обнаружение знаний . Springer International Publishing, 2014. 145–152.
- ^ Сойсал, Омер М (2015). «Анализ правил ассоциации с преимущественно связанными последовательными шаблонами». Экспертные системы с приложениями . 42 (5): 2582–2592. дои : 10.1016/j.eswa.2014.10.049 .
- ^ Чжу, Юкун и др. «Совмещение книг и фильмов: к визуальным объяснениям, похожим на истории, путем просмотра фильмов и чтения книг». Материалы международной конференции IEEE по компьютерному зрению . 2015.
- ^ Боуман, Сэмюэл Р.; Анджели, Габор; Поттс, Кристофер; Мэннинг, Кристофер Д. (2015). «Большой аннотированный корпус для изучения вывода на естественном языке». arXiv : 1508.05326 [ cs.CL ].
- ^ «Коллекция корпуса DSL» . ttg.uni-saarland.de . Проверено 22 сентября 2017 г.
- ^ «Городской словарь слов и определений» .
- ^ Х. Эльсахар, П. Вугиуклис, А. Ремачи, К. Гравье, Дж. Хэйр, Ф. Лафорест, Э. Симперл, « T-REx: крупномасштабное согласование естественного языка с тройками базы знаний », Труды Одиннадцатая Международная конференция по языковым ресурсам и оценке (LREC-2018).
- ^ Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омер; Боуман, Сэмюэл Р. (2018). «GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка». arXiv : 1804.07461 [ cs.CL ].
- ^ «Компьютеры учатся читать, но они все еще не такие умные» . Проводной . Проверено 29 декабря 2019 г.
- ^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Проверено 25 февраля 2019 г.
- ^ Цюань, Хоанг Лам; Куанг, Дуй Ле; Ван Киет, Нгуен; Нган, Луу-Туй Нгуен. «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке» .
- ^ Куок Хай; Нгуен, Ван Киет; Нгуен, Луу Туй Нган; Нгуен, Гиа Туан Ань (2020). «Прогнозирование пола на основе вьетнамских имен с использованием методов машинного обучения». Материалы 4-й Международной конференции по обработке естественного языка и поиску информации . стр. 55–60. arXiv : 2010.10852 . дои : 10.1145/3443279.3443309 . ISBN 9781450377607 . S2CID 224814110 .
- ^ Нгуен, Луан Тхань; Ван Нгуен, Киет; Нгуен, Нган Луу-Туи (18 марта 2021 г.). «Обнаружение конструктивной и токсичной речи для комментариев в социальных сетях в открытом доступе на вьетнамском языке». Достижения и тенденции в области искусственного интеллекта. Практика искусственного интеллекта . Конспекты лекций по информатике. Том. 12798. стр. 572–583. arXiv : 2103.10069 . дои : 10.1007/978-3-030-79457-6_49 . ISBN 978-3-030-79456-9 . S2CID 232269671 .
- ^ Сакстон, Дэвид и др. «Анализ способностей нейронных моделей к математическому мышлению». Международная конференция по обучению представлений . 2018.
- ^ М. Верстег, Р. Тиольер, Т. Шац, X.-N. Цао, К. Ангера, А. Янсен и Э. Дюпу (2015). «The Zero Resource Speech Challenge 2015», в рамках INTERSPEECH-2015.
- ^ М. Верстиг, X. Ангера, А. Янсен и Э. Дюпу (2016). « Вызов речи с нулевыми ресурсами 2015: предлагаемые подходы и результаты », в SLTU-2016.
- ^ Сакар, Бетул Эрдогду; и др. (2013). «Сбор и анализ набора речевых данных Паркинсона с несколькими типами звукозаписей». Журнал IEEE по биомедицинской и медицинской информатике . 17 (4): 828–834. дои : 10.1109/jbhi.2013.2245674 . ПМИД 25055311 . S2CID 15491516 .
- ^ Чжао, Шунан и др. « Автоматическое обнаружение выраженных эмоций при болезни Паркинсона ». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
- ^ Используется в: Хаммами, Насереддине и Моулди Бедде. «Улучшенная древовидная модель распознавания арабской речи». Компьютерные науки и информационные технологии (ICCSIT), 2010 г. 3-я Международная конференция IEEE по . Том. 5. ИИЭР, 2010.
- ^ Маатен, Лоуренс. « Изучение дискриминационных ядер Фишера ». Материалы 28-й Международной конференции по машинному обучению (ICML-11) . 2011.
- ^ Коул, Рональд и Марк Фэнти. « Распознавание устной буквы ». Учеб. Третий семинар DARPA по речи и естественному языку . 1990.
- ^ Шапель, Оливье; Синдхвани, Викас; Кирти, Сатья С. (2008). «Методы оптимизации для полуконтролируемых машин опорных векторов» (PDF) . Журнал исследований машинного обучения . 9 : 203–233.
- ^ Кудо, Минеичи; Тояма, Джун; Симбо, Масару (1999). «Классификация многомерных кривых с использованием областей прохождения». Буквы для распознавания образов . 20 (11): 1103–1111. Бибкод : 1999PaReL..20.1103K . CiteSeerX 10.1.1.46.2515 . дои : 10.1016/s0167-8655(99)00077-x .
- ^ Джагер, Герберт; и др. (2007). «Оптимизация и применение сетей эхо-состояний с нейронами вытекающего интегратора». Нейронные сети . 20 (3): 335–352. дои : 10.1016/j.neunet.2007.04.016 . ПМИД 17517495 .
- ^ Цанас, Афанасий; и др. (2010). «Точный телемониторинг прогрессирования болезни Паркинсона с помощью неинвазивных речевых тестов» . Транзакции IEEE по биомедицинской инженерии (представленная рукопись). 57 (4): 884–893. дои : 10.1109/tbme.2009.2036000 . ПМИД 19932995 . S2CID 7382779 .
- ^ Клиффорд, Гари Д.; Клифтон, Дэвид (2012). «Беспроводные технологии в лечении заболеваний и медицине». Ежегодный обзор медицины . 63 : 479–492. doi : 10.1146/annurev-med-051210-114650 . ПМИД 22053737 .
- ^ Зуэ, Виктор; Сенефф, Стефани; Гласс, Джеймс (1990). «Разработка речевых баз данных в Массачусетском технологическом институте: TIMIT и за его пределами». Речевое общение . 9 (4): 351–356. дои : 10.1016/0167-6393(90)90010-7 .
- ^ Кападиа, Садик, Валчо Валчев и С. Дж. Янг. «Тренинг MMI для непрерывного распознавания фонем в базе данных TIMIT». Акустика, речь и обработка сигналов, 1993. ICASSP-93., 1993 Международная конференция IEEE по . Том. 2. ИИЭР, 1993.
- ^ Халаби, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (кандидатская диссертация). Университет Саутгемптона , Школа электроники и информатики.
- ^ Ардила, Розана; Брэнсон, Меган; Дэвис, Келли; Хенретти, Майкл; Колер, Майкл; Мейер, Джош; Мораис, Рубен; Сондерс, Линдси; Тайерс, Фрэнсис М.; Вебер, Грегор (13 декабря 2019 г.). «Общий голос: массово-многоязычный речевой корпус». arXiv : 1912.06670v2 [ cs.CL ].
- ^ «Набор речевых данных ЖЖ» . keithito.com . Проверено 13 апреля 2022 г.
- ^ Гандура, Абдулкадер; Хьябо, Фарук; Аль-Даккак, Умайма (июнь 2021 г.). «Создание и сравнение набора данных арабских речевых команд для обнаружения небольших ключевых слов» . Инженерные применения искусственного интеллекта . 102 : 104267. doi : 10.1016/j.engappai.2021.104267 . ISSN 0952-1976 . S2CID 235637809 .
- ^ Чжоу, Фанг, К. Клэр и Росс Д. Кинг. « Предсказание географического происхождения музыки ». Data Mining (ICDM), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
- ^ Сакченти, Эдоардо; Камачо, Хосе (2015). «Об использовании k-кратной операции наблюдения в перекрестной проверке PCA». Журнал хемометрики . 29 (8): 467–478. дои : 10.1002/cem.2726 . hdl : 10481/55302 . S2CID 62248957 .
- ^ Бертен-Маье, Тьерри и др. «Набор данных о миллионе песен». ISMIR 2011: Материалы 12-й конференции Международного общества по поиску музыкальной информации, 24–28 октября 2011 г., Майами, Флорида . Университет Майами, 2011.
- ^ Хенафф, Микаэль; и др. (2011). «Неконтролируемое изучение редких функций для масштабируемой классификации аудио» (PDF) . ИСМИР . 11 .
- ^ Рафии, Зафар (2017). "Музыка". MUSDB18 — корпус музыкального разделения . дои : 10.5281/zenodo.1117372 .
- ^ Дефферрард, Микаэль; Бензи, Кирелл; Вандергейнст, Пьер; Брессон, Ксавье (6 декабря 2016 г.). «FMA: набор данных для музыкального анализа». arXiv : 1612.01840 [ cs.SD ].
- ^ Эспозито, Роберто; Радичони, Даниэле П. (2009). «Carpediem: Оптимизация алгоритма Витерби и приложений для контролируемого последовательного обучения» (PDF) . Журнал исследований машинного обучения . 10 : 1851–1880.
- ^ Сурати, Джамшид; и др. (2016). «Классификация активного обучения на основе взаимной информации» . Энтропия . 18 (2): 51. Бибкод : 2016Entrp..18...51S . дои : 10.3390/e18020051 .
- ^ Саламон, Джастин; Джейкоби, Кристофер; Белло, Хуан Пабло. « Набор данных и таксономия для исследования городского звука ». Материалы Международной конференции ACM по мультимедиа . АКМ, 2014.
- ^ Лагранж, Матье; Лафай, Грегуар; Россиньоль, Матиас; Бенетос, Эммануил; Робель, Аксель (2015). «Среда оценки для обнаружения событий с использованием морфологической модели акустических сцен». arXiv : 1502.00141 [ стат.ML ].
- ^ Геммеке, Йорт Ф. и др. «Набор аудио: онтология и набор данных, помеченных человеком, для аудиособытий». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2017.
- ^ «Берегитесь, птицеловы: искусственный интеллект научился распознавать птиц по их песням» . Наука | АААС . 18 июля 2018 года . Проверено 22 июля 2018 г.
- ^ «Задание по обнаружению птиц по звуку» . Лаборатория машинного прослушивания в Университете Королевы Марии . 3 мая 2016 года . Проверено 22 июля 2018 г.
- ^ Вичерн, Гордон; Антоньини, Джо; Флинн, Майкл; Личэн Ричард Чжу; Маккуинн, Эммет; Ворона, Дуайт; Манилоу, Итан; Джонатан Ле Ру (2019). «БУХ!: Расширение разделения речи на шумную среду». arXiv : 1907.01160 [ cs.SD ].
- ^ Дроссос К., Липпинг С. и Виртанен Т. «Клото: набор данных для аудиотитров» Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2020.
- ^ Дроссос К., Липпинг С. и Виртанен Т. (2019). Набор данных Clotho (Версия 1.0) [Набор данных]. Зенодо . http://doi.org/10.5281/zenodo.3490684
- ^ Набор данных CAIDA UCSD по Witty Worm - 19–24 марта 2004 г., http://www.caida.org/data/passive/witty_worm_dataset.xml
- ^ Чен, Зешэн и Чуаньи Цзи. « Оптимальный метод сканирования червей с использованием дистрибутивов уязвимых хостов ». Международный журнал безопасности и сетей 2.1–2 (2007): 71–80.
- ^ Качуи, Мохамад и др. « Высокоточная оценка артериального давления без манжеты без калибровки с использованием времени прохождения импульса [ постоянная мертвая ссылка ] . Схемы и системы (ISCAS), 2015 г. Международный симпозиум IEEE по . IEEE, 2015 г.
- ^ PhysioBank, PhysioToolkit. «PhysioNet: компоненты нового исследовательского ресурса для сложных физиологических сигналов». Тираж. v101 и23. е215-е220 .
- ^ Вергара, Александр; и др. (2012). «Компенсация дрейфа датчика химического газа с использованием ансамблей классификаторов». Датчики и исполнительные механизмы B: Химические вещества . 166 : 320–329. Бибкод : 2012SeAcB.166..320В . дои : 10.1016/j.snb.2012.01.074 .
- ^ Коротценков Г.; Чо, БК (2014). «Инженерные подходы к улучшению параметров кондуктометрических датчиков газа. Часть 2. Снижение рассеиваемой (потребляемой) мощности и повышение стабильности и надежности». Датчики и исполнительные механизмы B: Химические вещества . 198 : 316–341. Бибкод : 2014SeAcB.198..316K . дои : 10.1016/j.snb.2014.03.069 .
- ^ Куинлан, Джон Р. (1992). «Обучение с помощью непрерывных занятий» (PDF) . 5-я Австралийская совместная конференция по искусственному интеллекту . 92 .
- ^ Мерц, Кристофер Дж.; Паццани, Майкл Дж. (1999). «Подход на основе главных компонентов к объединению оценок регрессии» . Машинное обучение . 36 (1–2): 9–32. дои : 10.1023/а:1007507221352 .
- ^ Торрес-Соспедра, Хоакин и др. «UJIIndoorLoc-Mag: новая база данных для задач локализации по магнитному полю». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. по . ИИЭР, 2015.
- ^ Берквенс, Рафаэль, Маартен Вейн и Герберт Переманс. « Средняя взаимная информация вероятностной локализации Wi-Fi ». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. Банф, Канада: IPIN . 2015.
- ^ Пашке, Фабиан и др. «Бездатчиковый контроль состояния синхронных двигателей». Слушания. 23-й семинар по вычислительному интеллекту, Дортмунд, 5-6. Декабрь 2013 года . КИТ Научное Издательство, 2013.
- ^ Лессмайер, Кристиан и др. « Сбор данных и анализ сигналов на основе измеренных токов двигателя для обнаружения дефектов в электромеханических приводных системах ».
- ^ Угулино, Уоллес и др. « Носимые компьютеры: классификация поз и движений тела по данным акселерометров. Архивировано 25 сентября 2020 года в Wayback Machine ». Достижения в области искусственного интеллекта – SBIA 2012 . Springer Berlin Heidelberg, 2012. 52–61.
- ^ Шнайдер, Ян; и др. (2015). «Усиление чувств: обзор поддержки обучения на основе датчиков» . Датчики . 15 (2): 4097–4133. Бибкод : 2015Senso..15.4097S . дои : 10.3390/s150204097 . ПМК 4367401 . ПМИД 25679313 .
- ^ Мадео, Рената CB, Клодоальдо А.М. Лима и Сараджейн М. Перес. « Сегментация единиц жестов с использованием машин опорных векторов: сегментация жестов из исходных положений ». Материалы 28-го ежегодного симпозиума ACM по прикладным вычислениям . АКМ, 2013.
- ^ Лун, Роанна; Чжао, Вэньбин (2015). «Обзор приложений и распознавания движений человека с помощью Microsoft Kinect» . Международный журнал распознавания образов и искусственного интеллекта . 29 (5): 1555008. doi : 10.1142/s0218001415550083 .
- ^ Теодоридис, Теодорос и Хуошэн Ху. « Классификация действий трехмерных моделей человека с использованием динамических ИНС для наблюдения за мобильными роботами . Архивировано 6 августа 2019 года в Wayback Machine ». Робототехника и биомиметика, 2007. РОБИО 2007. Международная конференция IEEE по . ИИЭР, 2007.
- ^ Этемад, Сейед Али и Али Арья. « 3D-распознавание действий человека и трансформация стиля с использованием устойчивых нейронных сетей обратного распространения ошибки». Интеллектуальные вычисления и интеллектуальные системы, 2009. ICIS 2009. Международная конференция IEEE по . Том. 4. ИИЭР, 2009.
- ^ Алтун, Керем; Баршан, Биллур; Тунчель, Оркун (2010). «Сравнительное исследование классификации деятельности человека с помощью миниатюрных инерционных и магнитных датчиков». Распознавание образов . 43 (10): 3605–3620. Бибкод : 2010PatRe..43.3605A . дои : 10.1016/j.patcog.2010.04.019 . hdl : 11693/11947 .
- ^ Натан, Ран ; и др. (2012). «Использование данных трехосного ускорения для определения поведенческих режимов животных, находящихся на свободном выгуле: общие концепции и инструменты, проиллюстрированные для белоголовых сипов» . Журнал экспериментальной биологии . 215 (6): 986–996. дои : 10.1242/jeb.058602 . ПМЦ 3284320 . ПМИД 22357592 .
- ^ Ангита, Давиде и др. « Распознавание активности человека на смартфонах с использованием многоклассовой аппаратно-совместимой машины опорных векторов ». Окружающая среда, сопровождаемая проживанием и уходом на дому . Springer Berlin Heidelberg, 2012. 216–223.
- ^ Су, Син; Тонг, Ханхан; Цзи, Пин (2014). «Распознавание активности с помощью датчиков смартфона». Цинхуа Наука и Технология . 19 (3): 235–249. дои : 10.1109/tst.2014.6838194 . S2CID 62751498 .
- ^ Кадус, Мохаммед Валид. Временная классификация: распространение парадигмы классификации на многомерные временные ряды . Дисс. Университет Нового Южного Уэльса, 2002 г.
- ^ Грейвс, Алекс и др. « Коннекционистская временная классификация: маркировка несегментированных последовательностей данных с помощью рекуррентных нейронных сетей ». Материалы 23-й международной конференции по машинному обучению . АКМ, 2006.
- ^ Веллосо, Эдуардо и др. « Качественное распознавание активности упражнений по поднятию тяжестей ». Материалы 4-й Международной конференции по дополненному человеку . АКМ, 2013.
- ^ Мортазави, Бобак Джек и др. « Определение единой наилучшей оси для распознавания повторений упражнений и расчет умных часов. Архивировано 4 ноября 2021 года в Wayback Machine ». Сети носимых и имплантируемых датчиков тела (BSN), 2014 11-я Международная конференция по . ИИЭР, 2014.
- ^ Сапсанис, Христос и др. « Улучшение классификации основных движений рук на основе ЭМГ с использованием ЭМД ». Общество инженерии в медицине и биологии (EMBC), 2013 г., 35-я ежегодная международная конференция IEEE . ИИЭР, 2013.
- ^ Перейти обратно: а б Андрианезис, Константинос; Цзес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем . 78 (2): 257–289. дои : 10.1007/s10846-014-0061-6 . S2CID 207174078 .
- ^ Банос, Орешти; и др. (2014). «Работа с эффектами смещения датчика при распознавании активности носимых устройств» . Датчики . 14 (6): 9995–10023. Бибкод : 2014Senso..14.9995B . дои : 10.3390/s140609995 . ПМЦ 4118358 . ПМИД 24915181 .
- ^ Стисен, Аллан и др. « Умные устройства разные: оценка и смягчение неоднородностей мобильных датчиков для распознавания активности ». Материалы 13-й конференции ACM по встраиваемым сетевым сенсорным системам . АКМ, 2015.
- ^ Бхаттачарья, Сурав и Николас Д. Лейн. « От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения ».
- ^ Баччу, Давиде; и др. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях для престарелых». Нейронные вычисления и их приложения . 24 (6): 1451–1464. дои : 10.1007/s00521-013-1364-4 . hdl : 11568/237959 . S2CID 14124013 .
- ^ Палумбо, Филиппо; Барсокки, Паоло; Галличкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Мультисенсорное объединение данных для распознавания активности на основе вычислений резервуара» . Оценка систем AAL посредством сравнительного анализа конкурентов . Коммуникации в компьютерной и информатике. Том. 386. стр. 24–35. дои : 10.1007/978-3-642-41043-7_3 . ISBN 978-3-642-41042-0 .
- ^ Рейсс, Аттила и Дидье Стрикер. « Представляем новый набор эталонных данных для мониторинга активности ». Носимые компьютеры (ISWC), 2012 г. 16-й международный симпозиум по . ИИЭР, 2012.
- ^ Рогген, Дэниел и др. « ВОЗМОЖНОСТИ: К оппортунистической деятельности и системам распознавания контекста ». Мир беспроводных, мобильных и мультимедийных сетей и семинаров, 2009. WoWMoM 2009. Международный симпозиум IEEE по . ИИЭР, 2009.
- ^ Курц, Марк и др. « Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах ». Конференция по автомобильным технологиям (весна VTC), 73-я конференция IEEE 2011 г. ИИЭР, 2011.
- ^ Штайлер, Тимо и Хайнер Штукеншмидт. « Локализация носимых устройств на теле: исследование распознавания активности с учетом положения ». Повсеместные вычисления и коммуникации (PerCom), Международная конференция IEEE 2016 г., посвященная . ИИЭР, 2016.
- ^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х.; Долатабади, Эльхам; Ван, Розали Х.; Таати, Бабак (2018). «Автоматическое обнаружение компенсации во время роботизированной реабилитационной терапии после инсульта» . Журнал IEEE трансляционной инженерии в здравоохранении и медицине . 6 : 2100107. doi : 10.1109/JTEHM.2017.2780836 . ISSN 2168-2372 . ПМК 5788403 . ПМИД 29404226 .
- ^ Долатабади, Эльхам; Чжи, Ин Сюань; Да, Бинг; Коаран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). «Набор данных позы реабилитации после инсульта в Торонто для выявления компенсации во время реабилитационной терапии после инсульта». Материалы 11-й Международной конференции EAI по всеобъемлющим вычислительным технологиям в здравоохранении . АКМ. стр. 375–381. дои : 10.1145/3154862.3154925 . ISBN 9781450363631 . S2CID 24581930 .
- ^ «Набор данных по позы реабилитации после инсульта в Торонто» .
- ^ Юнг, Мерел М.; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К.Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социальных прикосновений». Журнал о мультимодальных пользовательских интерфейсах . 11 (1): 81–96. дои : 10.1007/s12193-016-0232-9 . ISSN 1783-8738 . S2CID 1802116 .
- ^ Юнг, ММ (Мерель) (1 июня 2016 г.). «Корпус социальных контактов (CoST)» . Университет Твенте. doi : 10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Эберхард, С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в условиях большой размерности». Кафедра математики. Статистик, Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Реп 92-02 (1992).
- ^ Басу, Сугато. « Полуконтролируемая кластеризация с ограниченными базовыми знаниями ». АААИ . 2004.
- ^ Тюфекчи, Пинар (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла с базовой нагрузкой с использованием методов машинного обучения». Международный журнал электроэнергетики и энергетических систем . 60 : 126–140. Бибкод : 2014IJEPE..60..126T . дои : 10.1016/j.ijepes.2014.02.027 .
- ^ Кая, Хейсем, Пинар Тюфекчи и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной технике (ICETCEE'2012), Дубай . 2012.
- ^ Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Природные коммуникации . 5 : 2014. arXiv : 1402.4735 . Бибкод : 2014NatCo...5.4308B . дои : 10.1038/ncomms5308 . ПМИД 24986233 . S2CID 195953 .
- ^ Перейти обратно: а б Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2015). «Усовершенствованный поиск бозона Хиггса до τ+ τ− с помощью глубокого обучения». Письма о физических отзывах . 114 (11): 111801. arXiv : 1410.3469 . Бибкод : 2015PhRvL.114k1801B . дои : 10.1103/physrevlett.114.111801 . ПМИД 25839260 . S2CID 2339142 .
- ^ Перейти обратно: а б Адам-Бурдариос, К.; Коуэн, Г.; Жермен-Рено, К.; Гийон, И.; Кегль, Б.; Руссо, Д. (2015). «Задача машинного обучения Хиггса» . Физический журнал: серия конференций . 664 (7): 072015. Бибкод : 2015JPhCS.664g2015A . дои : 10.1088/1742-6596/664/7/072015 .
- ^ Бальди, Пьер; Кранмер, Кайл; Фосетт, Тейлор; Садовский, Питер; Уайтсон, Дэниел (2016). «Параметризованные нейронные сети для физики высоких энергий». Европейский физический журнал C . 76 (5): 235. arXiv : 1601.07913 . Бибкод : 2016EPJC...76..235B . doi : 10.1140/epjc/s10052-016-4099-4 . S2CID 254108545 .
- ^ Ортигоса, И.; Лопес, Р.; Гарсия, Дж. «Подход нейронных сетей к прогнозированию остаточного сопротивления парусных яхт». Материалы Международной конференции по морской технике MARINE . 2007 .
- ^ Герритсма, Дж., Р. Оннинк и А. Верслуис. Геометрия, устойчивость и устойчивость серии корпусов яхт Delft System . Делфтский технологический университет, 1981 г.
- ^ Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных . Springer Science & Business Media, 1998.
- ^ Райх, Йорам. Переход к знаниям идеального дизайна путем обучения . [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.
- ^ Тодоровский, Люпчо; Джероски, Сашо (1999). «Эксперименты по метауровенному обучению с помощью ILP» . Принципы интеллектуального анализа данных и обнаружения знаний . Конспекты лекций по информатике. Том. 1704. стр. 98–106. дои : 10.1007/978-3-540-48247-5_11 . ISBN 978-3-540-66490-1 . S2CID 39382993 .
- ^ Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности . Дисс. Университет Вайкато, 2000 г.
- ^ Киблер, Деннис; Ага, Дэвид В.; Альберт, Марк К. (1989). «Прогнозирование действительных атрибутов на основе экземпляров» . Вычислительный интеллект . 5 (2): 51–57. дои : 10.1111/j.1467-8640.1989.tb00315.x . S2CID 40800413 .
- ^ Палмер, Кристофер Р. и Христос Фалуцос. « Электричество основано на внешнем сходстве категориальных признаков ». Достижения в области обнаружения знаний и интеллектуального анализа данных . Springer Berlin Heidelberg, 2003. 486–500.
- ^ Цанас, Афанасий; Хифара, Анжелики (2012). «Точная количественная оценка энергоэффективности жилых зданий с использованием статистических инструментов машинного обучения». Энергия и здания . 49 : 560–567. Бибкод : 2012EneBu..49..560T . дои : 10.1016/j.enbuild.2012.03.003 .
- ^ Де Уайльд, Питер (2014). «Разрыв между прогнозируемыми и измеренными энергетическими характеристиками зданий: основа для исследования». Автоматизация в строительстве . 41 : 40–49. дои : 10.1016/j.autcon.2014.02.009 .
- ^ Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум профиля и прогнозирование . Том. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научной и технической информации, 1989.
- ^ Дрейпер, Дэвид. « Оценка и распространение неопределенности модели ». Журнал Королевского статистического общества, серия B (методологический) (1995): 45–97.
- ^ Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительных кольцах космического корабля». Журнал Американской статистической ассоциации . 86 (416): 919–921. дои : 10.1080/01621459.1991.10475132 .
- ^ Ван, Цзюнь, Бэй Ю и Лес Гассер. « Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства ». Data Mining, 2002. ICDM 2003. Труды. Международная конференция IEEE 2002 г. по . ИИЭР, 2002.
- ^ Петтенгилл, Гордон Х.; Форд, Питер Г.; Джонсон, Уильям Т.К.; Рэйни, Р. Кейт; Содерблом, Лоуренс А. (1991). «Магеллан: характеристики радаров и продукты для обработки данных» . Наука . 252 (5003): 260–265. Бибкод : 1991Sci...252..260P . дои : 10.1126/science.252.5003.260 . ПМИД 17769272 . S2CID 43398343 .
- ^ Перейти обратно: а б Агаронян Ф.; и др. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма о физических отзывах . 101 (26): 261104. arXiv : 0811.3894 . Бибкод : 2008PhRvL.101z1104A . doi : 10.1103/PhysRevLett.101.261104 . HDL : 2440/51450 . ПМИД 19437632 . S2CID 41850528 .
- ^ Бок, РК; и др. (2004). «Методы многомерной классификации событий: пример использования изображений черенковского гамма-телескопа». Ядерные приборы и методы в физических исследованиях. Раздел А: Ускорители, спектрометры, детекторы и сопутствующее оборудование . 516 (2): 511–528. Бибкод : 2004NIMPA.516..511B . дои : 10.1016/j.nima.2003.08.157 .
- ^ Ли, Цзинььян; и др. (2004). «Deeps: новая система ленивого обнаружения и классификации на основе экземпляров» . Машинное обучение . 54 (2): 99–124. doi : 10.1023/b:mach.0000011804.08528.7d .
- ^ Вильяэскуса-Наварро, Франциско; др. и др. (2022). «Многополевой набор данных CAMELS: изучение фундаментальных параметров Вселенной с помощью искусственного интеллекта» . Серия дополнений к астрофизическому журналу . 259 (2): 61. arXiv : 2109.10915 . Бибкод : 2022ApJS..259...61В . дои : 10.3847/1538-4365/ac5ab0 . S2CID 237604997 .
- ^ Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог голоценовых вулканов и их извержений». (2014).
- ^ Сикора, Марек; Врубель, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собираемых системами мониторинга сейсмической опасности на угольных шахтах» . Архив горных наук . 55 (1): 91–114.
- ^ Сикора, Марек и Беата Сикора. «Грубый мониторинг природных опасностей». Грубые наборы: избранные методы и приложения в менеджменте и технике . Springer London, 2012. 163–179.
- ^ Аддор, Нанс; Ньюман, Эндрю Дж.; Мизуками, Наоки; Кларк, Мартин П. (20 октября 2017 г.). «Набор данных CAMELS: характеристики водосбора и метеорология для исследований на больших выборках» . Гидрология и науки о системе Земли . 21 (10): 5293–5313. Бибкод : 2017HESS...21.5293A . doi : 10.5194/hess-21-5293-2017 . ISSN 1607-7938 .
- ^ Ньюман, Эй Джей; Кларк, член парламента; Сэмпсон, К.; Вуд, А.; Хэй, Ле; Бок, А.; Вигер, Р.Дж.; Блоджетт, Д.; Брекке, Л.; Арнольд-младший; Хопсон, Т. (14 января 2015 г.). «Разработка большого набора гидрометеорологических данных в масштабе водораздела для прилегающих территорий США: характеристики набора данных и оценка региональной изменчивости характеристик гидрологической модели» . Гидрология и науки о системе Земли . 19 (1): 209–223. Бибкод : 2015HESS...19..209N . дои : 10.5194/hess-19-209-2015 . ISSN 1607-7938 .
- ^ Альварес-Гарретон, Камила; Мендоса, Пол А.; Буазье, Джон Пол; Аддор, Нэнси; Гальегильос, Морис; Самбрано-Биджарини, Морис; Лара, Энтони; Пуэльма, Кристофер; Корты, Гонсало; Гарро, Рене; Макфи, Джеймс (13 ноября 2018 г.). «Набор данных CAMELS-CL: атрибуты водосбора и метеорология для крупных выборочных исследований – набор данных Чили» . Гидрология и науки о системе Земли . 22 (11): 5817–5846. Бибкод : 2018HESS...22.5817A . дои : 10.5194/hess-22-5817-2018 . ISSN 1607-7938 . S2CID 133955609 .
- ^ Чагас, Винисиус Б.П.; Чаффе, Педро Л.Б.; Аддор, Нанс; Фан, Фернандо М.; Флейшманн, Аян С.; Пайва, Родриго CD; Сикейра, Винисиус А. (8 сентября 2020 г.). «CAMELS-BR: гидрометеорологические временные ряды и атрибуты ландшафта для 897 водосборных бассейнов Бразилии» . Данные науки о системе Земли . 12 (3): 2075–2096. Бибкод : 2020ESSD...12.2075C . doi : 10.5194/essd-12-2075-2020 . ISSN 1866-3516 . S2CID 234737197 .
- ^ Коксон, Джемма; Аддор, Нанс; Блумфилд, Джон П.; Фрир, Джим; Фрай, Мэтт; Ханнафорд, Джейми; Хауден, Николас Дж. К.; Лейн, Розанна; Льюис, Мелинда; Робинсон, Эмма Л.; Вагенер, Торстен (12 октября 2020 г.). «CAMELS-GB: гидрометеорологические временные ряды и атрибуты ландшафта для 671 водосборного бассейна Великобритании» . Данные науки о системе Земли . 12 (4): 2459–2483. Бибкод : 2020ESSD...12.2459C . doi : 10.5194/essd-12-2459-2020 . ISSN 1866-3516 . S2CID 226192657 .
- ^ Фаулер, Кейрнан Дж.А.; Ачарья, Суваш Чандра; Аддор, Нанс; Чжоу, Чичжун; Пил, Мюррей К. (6 августа 2021 г.). «CAMELS-AUS: гидрометеорологические временные ряды и атрибуты ландшафта для 222 водосборных бассейнов Австралии» . Данные науки о системе Земли . 13 (8): 3847–3867. Бибкод : 2021ESSD...13.3847F . doi : 10.5194/essd-13-3847-2021 . ISSN 1866-3516 . S2CID 238796784 .
- ^ Клинглер, Кристоф; Шульц, Карстен; Хернеггер, Мэтью (16 сентября 2021 г.). «LamaH-CE: БОЛЬШАЯ ВЫБОРКА ДАННЫХ для гидрологии и наук об окружающей среде для Центральной Европы» . Данные науки о системе Земли . 13 (9): 4529–4565. Бибкод : 2021ESSD...13.4529K . дои : 10.5194/essd-13-4529-2021 . ISSN 1866-3516 . S2CID 240533508 .
- ^ Да, I – C (1998). «Моделирование прочности высокопроизводительного бетона с использованием искусственных нейронных сетей». Исследования цемента и бетона . 28 (12): 1797–1808. дои : 10.1016/s0008-8846(98)00165-3 .
- ^ Заранди, М. Х. Фазель; и др. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления . 8 (1): 488–498. Бибкод : 2008ApSoC...8...79S . дои : 10.1016/j.asoc.2007.02.010 .
- ^ Да, И. «Моделирование осадки бетона с помощью летучей золы и суперпластификатора». Компьютеры и бетон 5.6 (2008): 559–572.
- ^ Генсель, Осман; и др. (2011). «Сравнение искусственных нейронных сетей и общих подходов к линейной модели для анализа абразивного износа бетона». Строительство и строительные материалы . 25 (8): 3486–3494. дои : 10.1016/j.conbuildmat.2011.03.040 .
- ^ Дитерих, Томас Г. и др. « Сравнение динамического положения покоя и касательного расстояния для прогнозирования активности наркотиков. Архивировано 7 декабря 2019 года в Wayback Machine ». Достижения в области нейронных систем обработки информации (1994): 216–216.
- ^ Бушема, Массимо, Уильям Дж. Тастл и Стефано Терци. « Метасеть: новое семейство метаклассификаторов ». Приложения интеллектуального анализа данных с использованием искусственных адаптивных систем . Springer New York, 2013. 141–182.
- ^ Барнард, Аманда; Сунь, Байчуань; Мотевалли Сумехсараи, Бен; и Оплетал, Джордж (2019): Набор данных по наночастицам серебра. v3. ЦСИРО. Сбор данных. https://doi.org/10.25919/5d22d20bc543e
- ^ Барнард, Аманда; Сунь, Байчуань; и Оплетал, Джордж (2019): Набор данных по наночастицам платины. v2. ЦСИРО. Сбор данных. https://doi.org/10.25919/5d3958d9bf5f7
- ^ Барнард, Аманда; и Оплетал, Джордж (2019): Набор данных по наночастицам золота. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/5d395ef9a4291
- ^ Барнард, Аманда; и Оплетал, Джордж (2019): Набор данных о наночастицах рутения. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/5e30b8fa67484
- ^ Барнард, Аманда; и Оплетал, Джордж (2019): Набор данных о медных наночастицах. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/5e30ba386311f
- ^ Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах палладия. v2. ЦСИРО. Сбор данных. https://doi.org/10.25919/epxd-8p61
- ^ Тинг, Джонатан; Барнард, Аманда; Оплетал, Джордж (2023): Набор данных о наночастицах AuCo. v2. ЦСИРО. Сбор данных. https://doi.org/10.25919/7h3x-1343
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах PtCo. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/jzh8-rd31
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PtAu. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/tdnv-jp30
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PdPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/qced-2e85
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PdCo. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/az9t-vr97
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах CoPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/0bs4-sn79
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах CoPd. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/em3a-9a89
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам CoAu. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/991j-hg07
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам AuPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/7zh9-3f67
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PtPd. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/9sz9-3a85
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных по наночастицам PdAu. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/6ajg-1275
- ^ Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах AuPd. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/v0r5-sw08
- ^ Лу, Кайхан; Тинг, Джонатан; Барнард, Аманда; и Оплетал, Джордж (2023): Набор данных о наночастицах AuPdPt. в1. ЦСИРО. Сбор данных. https://doi.org/10.25919/psvw-am47
- ^ Аморанежад, Исса; Аморанежад, Рахимберди; и др. (2022). «Набор данных о возрасте: структурированный набор данных общего назначения о жизни, работе и смерти 1,22 миллиона выдающихся людей» . Материалы семинара 16-й Международной конференции AAAI по Интернету и социальным сетям (ICWSM) . 3 . МКВСМ: 1–4. дои : 10.36190/2022.82 . S2CID 249668669 .
- ^ «Набор данных о возрасте» . Гитхаб . 7 июня 2022 г.
- ^ «Синтетический набор данных глазного дна» . Архивировано из оригинала 29 ноября 2021 года . Проверено 22 февраля 2023 г.
- ^ Ло Кастро, Дарио; и др. (2020). «Визуальная основа для создания фотореалистичных сосудов сетчатки для целей диагностики». Журнал биомедицинской информатики . 108 : 103490. дои : 10.1016/j.jbi.2020.103490 . ПМИД 32640292 . S2CID 220429697 .
- ^ Ингбер, Лестер (1997). «Статистическая механика неокортикальных взаимодействий: канонические показатели импульсов электроэнцефалографии». Физический обзор E . 55 (4): 4578–4593. arXiv : физика/0001052 . Бибкод : 1997PhRvE..55.4578I . дои : 10.1103/PhysRevE.55.4578 . S2CID 6390999 .
- ^ Хоффманн, Ульрих; Весен, Жан-Марк; Эбрахими, Турадж; Дисеренс, Карин (2008). «Эффективный интерфейс мозг-компьютер на базе P300 для людей с ограниченными возможностями». Журнал методов нейробиологии . 167 (1): 115–125. CiteSeerX 10.1.1.352.4630 . doi : 10.1016/j.jneumeth.2007.03.005 . ПМИД 17445904 . S2CID 9648828 .
- ^ Дончин, Эмануэль; Спенсер, Кевин М.; Виджесингхе, Ранджит (2000). «Ментальный протез: оценка скорости интерфейса мозг-компьютер на базе P300». Транзакции IEEE по реабилитационной технике . 8 (2): 174–179. дои : 10.1109/86.847808 . ПМИД 10896179 . S2CID 84043 .
- ^ Детрано, Роберт; и др. (1989). «Международное применение нового вероятностного алгоритма диагностики ишемической болезни сердца». Американский журнал кардиологии . 64 (5): 304–310. дои : 10.1016/0002-9149(89)90524-9 . ПМИД 2756873 .
- ^ Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» (PDF) . Распознавание образов . 30 (7): 1145–1159. Бибкод : 1997PatRe..30.1145B . дои : 10.1016/s0031-3203(96)00142-2 . S2CID 13806304 .
- ^ Улица, Западная Северная Каролина; Вольберг, Вашингтон; Мангасарян, OL (1993). «Извлечение ядерных признаков для диагностики опухолей молочной железы» . В Ачарье Радж С.; Гольдгоф, Дмитрий Б. (ред.). Биомедицинская обработка изображений и биомедицинская визуализация . Том. 1905. стр. 861–870. дои : 10.1117/12.148698 . S2CID 14922543 .
- ^ Демир, Чигдем и Бюлент Йенер. « Автоматическая диагностика рака на основе гистопатологических изображений: систематическое исследование ». Политехнический институт Ренсселера, техн. Реп (2005).
- ^ Злоупотребление, вещество. «Управление службами психического здоровья, результаты национального исследования по употреблению наркотиков и здоровью 2010 года: краткое изложение национальных результатов, серия NSDUH H-41, публикация HHS № (SMA) 11-4658». Роквилл, Мэриленд: Управление служб по борьбе со злоупотреблением психоактивными веществами и психическим здоровьем 201 (2011).
- ^ Хун, Цзы-Цюань; Ян, Цзин-Ю (1991). «Оптимальная дискриминантная плоскость для малого числа выборок и метод построения классификатора на плоскости». Распознавание образов . 24 (4): 317–324. Бибкод : 1991PatRe..24..317H . дои : 10.1016/0031-3203(91)90074-ф .
- ^ Перейти обратно: а б Ли, Джиньян и Лимсун Вонг. «Использование правил для анализа биомедицинских данных: сравнение C4.5 и PCL». Достижения в области управления информацией в эпоху Интернета . Springer Berlin Heidelberg, 2003. 254–265.
- ^ Гювенир, Х. Алтай и др. « Алгоритм контролируемого машинного обучения для анализа аритмии ». Компьютеры в кардиологии 1997 . ИИЭР, 1997.
- ^ Лагус, Криста и др. « Независимый групповой анализ переменных при изучении компактных представлений данных ». Труды Международной и междисциплинарной конференции по адаптивному представлению знаний и рассуждению (AKRR'05), Т. Хонкела, В. Конёнен, М. Пёлля и О. Симула, ред., Эспоо, Финляндия . 2005.
- ^ Страк, Беата и др. « Влияние измерения HbA1c на показатели повторной госпитализации: анализ 70 000 записей пациентов из клинической базы данных ». BioMed Research International 2014; 2014 год
- ^ Рубин, Дэниел Дж (2015). «Госпитальная повторная госпитализация больных сахарным диабетом». Текущие отчеты о диабете . 15 (4): 1–9. дои : 10.1007/s11892-015-0584-7 . ПМИД 25712258 . S2CID 3908599 .
- ^ Антал, Балинт; Хайду, Андраш (2014). «Ансамблевая система автоматического скрининга диабетической ретинопатии». Системы, основанные на знаниях . 60 (2014): 20–27. arXiv : 1410.8576 . Бибкод : 2014arXiv1410.8576A . дои : 10.1016/j.knosys.2013.12.023 . S2CID 13984326 .
- ^ Халой, Мринал (2015). «Улучшенное обнаружение микроаневризмы с использованием глубоких нейронных сетей». arXiv : 1505.04424 [ cs.CV ].
- ^ ЭЛИ, Гийом ПАТРИ, Жерве ГОТЬЕ, Бруно ЛЭЙ, Жюльен РОЖЕР, Дэмьен. «Загрузка ADCIS третьей стороны: база данных Messidor» . adcis.net . Проверено 25 февраля 2018 г. .
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Десенсьер, Этьен; Чжан, Сивэй; Казугель, Гай; Лэй, Бруно; Коченер, Беатрис; Трон, Кэролайн; Гейн, Филипп; Ордонес, Ричард; Массин, Паскаль (26 августа 2014 г.). «Отзывы об общедоступной базе данных изображений: база данных Мессидор» . Анализ изображений и стереология . 33 (3): 231–234. дои : 10.5566/ias.1155 . ISSN 1854-5165 .
- ^ Багиров А.М.; и др. (2003). «Неконтролируемая и контролируемая классификация данных посредством негладкой и глобальной оптимизации». Вершина . 11 (1): 1–75. CiteSeerX 10.1.1.1.6429 . дои : 10.1007/bf02578945 . S2CID 14165678 .
- ^ Фунг, Гленн и др. « Быстрый итерационный алгоритм для дискриминанта Фишера с использованием гетерогенных ядер ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
- ^ Куинлан, Джон Росс и др. «Индуктивное приобретение знаний: практический пример». Материалы Второй австралийской конференции по применению экспертных систем . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк., 1987.
- ^ Перейти обратно: а б Чжоу, Чжи-Хуа; Цзян, Юань (2004). «NeC4.5: нейронный ансамбль на основе C4.5». Транзакции IEEE по знаниям и инженерии данных . 16 (6): 770–773. CiteSeerX 10.1.1.1.8430 . дои : 10.1109/tkde.2004.11 . S2CID 1024861 .
- ^ Э-э, Орхан; и др. (2012). «Подход, основанный на вероятностной нейронной сети, для диагностики заболевания мезотелиомой». Компьютеры и электротехника . 38 (1): 75–81. дои : 10.1016/j.compeleceng.2011.09.001 .
- ^ Эр, Орхан, А. Четин Танрикулу и Абдуррахман Абакай. « Использование методов искусственного интеллекта для диагностики злокачественной мезотелиомы плевры ». Диджле Тип Дергиси 42.1 (2015).
- ^ Ли, Майкл Х.; Местре, Тьяго А.; Фокс, Сьюзен Х.; Таати, Бабак (25 июля 2017 г.). «Оценка паркинсонизма и дискинезии, вызванной леводопой, на основе зрения с оценкой позы глубокого обучения» . Журнал нейроинженерии и реабилитации . 15 (1): 97. arXiv : 1707.09416 . Бибкод : 2017arXiv170709416L . дои : 10.1186/s12984-018-0446-z . ПМК 6219082 . ПМИД 30400914 .
- ^ Ли, Майкл Х.; Местре, Тьяго А.; Фокс, Сьюзен Х.; Таати, Бабак (май 2018 г.). «Автоматическая оценка дискинезии, вызванной леводопой: оценка реакции видеофункций». Паркинсонизм и связанные с ним расстройства . 53 : 42–45. дои : 10.1016/j.parkreldis.2018.04.036 . ISSN 1353-8020 . ПМИД 29748112 . S2CID 13666294 .
- ^ «Набор данных для оценки позы Паркинсона на основе зрения | Kaggle» . kaggle.com . Проверено 22 августа 2018 г.
- ^ Шеннон, Пол; и др. (2003). «Cytoscape: программная среда для интегрированных моделей сетей биомолекулярного взаимодействия» . Геномные исследования . 13 (11): 2498–2504. дои : 10.1101/гр.1239303 . ПМК 403769 . ПМИД 14597658 .
- ^ Джавади, Соруш; Миррошандель, Сейед Аболгасем (2019). «Новый метод глубокого обучения для автоматической оценки изображений спермы человека». Компьютеры в биологии и медицине . 109 : 182–194. doi : 10.1016/j.compbiomed.2019.04.030 . ISSN 0010-4825 . ПМИД 31059902 . S2CID 146809768 .
- ^ «soroushj/mhsma-dataset: MHSMA: модифицированный набор данных анализа морфологии спермы человека» . github.com . Проверено 3 мая 2019 г.
- ^ Кларк, Дэвид, Золтан Шретер и Энтони Адамс. «Количественное сравнение дистального и обратного распространения ошибки». Материалы австралийской конференции по нейронным сетям 1996 года . 1996.
- ^ Цзян, Юань и Чжи-Хуа Чжоу. « Редактирование обучающих данных для классификаторов kNN с ансамблем нейронных сетей ». Достижения в области нейронных сетей – ISNN 2004 . Springer Berlin Heidelberg, 2004. 356–361.
- ^ Онтаньон, Сантьяго и Энрик Плаза. «О мерах подобия на основе уточняющей решетки». Исследования и разработки рассуждений на основе прецедентов . Springer Berlin Heidelberg, 2009. 240–255.
- ^ «Инвентаризация данных PLF» . Гитхаб . 5 ноября 2021 г.
- ^ Игера, Клара; Гардинер, Кэтлин Дж.; Чиос, Кшиштоф Дж. (2015). «Самоорганизующиеся карты признаков идентифицируют белки, имеющие решающее значение для обучения в модели синдрома Дауна на мышах» . ПЛОС ОДИН . 10 (6): e0129126. Бибкод : 2015PLoSO..1029126H . дои : 10.1371/journal.pone.0129126 . ПМК 4482027 . ПМИД 26111164 .
- ^ Ахмед, доктор Махиуддин; и др. (2015). «Динамика белка, связанная с неудачным и спасенным обучением в мышиной модели синдрома Дауна Ts65Dn» . ПЛОС ОДИН . 10 (3): e0119491. Бибкод : 2015PLoSO..1019491A . дои : 10.1371/journal.pone.0119491 . ПМЦ 4368539 . ПМИД 25793384 .
- ^ Лэнгли, ПАТ (2014). «Обмен простотой и охватом при поэтапном концептуальном обучении» (PDF) . Труды по машинному обучению . 1988 : 73. Архивировано из оригинала (PDF) 6 августа 2019 года . Проверено 6 августа 2019 г.
- ^ «Набор данных о грибах 2020» . гриб.mathematik.uni -marburg.de . Проверено 6 апреля 2021 г.
- ^ Вагнер, Деннис; Хайдер, Доминик; Хаттаб, Жорж (14 апреля 2021 г.). «Создание, обработка и моделирование грибных данных для поддержки задач классификации» . Научные отчеты . 11 (1): 8134. Бибкод : 2021NatSR..11.8134W . дои : 10.1038/s41598-021-87602-3 . ISSN 2045-2322 . ПМК 8046754 . ПМИД 33854157 .
- ^ Кортес, Пауло и Анибал де Хесус Раймундо Мораис. «Подход к интеллектуальному анализу данных для прогнозирования лесных пожаров с использованием метеорологических данных». (2007).
- ^ Фаркуад, Массачусетс; Рави, В.; Раджу, С. Бапи (2010). «Поддержка методов извлечения гибридных правил на основе векторной регрессии для прогнозирования». Экспертные системы с приложениями . 37 (8): 5577–5589. дои : 10.1016/j.eswa.2010.02.055 .
- ^ Фишер, Рональд А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
- ^ Гахрамани, Зубин и Майкл И. Джордан. « Обучение под контролем на основе неполных данных с помощью ЭМ-подхода. Архивировано 22 апреля 2017 г. в Wayback Machine ». Достижения в области нейронных систем обработки информации 6 . 1994.
- ^ Маллах, Чарльз; Коуп, Джеймс; Оруэлл, Джеймс (2013). «Классификация листьев растений с использованием вероятностной интеграции формы, текстуры и особенностей краев» . Обработка сигналов, распознавание образов и приложения . 5 : 1.
- ^ Яхиауи, Итери, Ольфа Мзуги и Ножа Буджемаа. « Дескриптор формы листа для идентификации видов деревьев. Архивировано 6 августа 2019 года в Wayback Machine ». Мультимедиа и выставка (ICME), Международная конференция IEEE 2012 г., посвященная . ИИЭР, 2012.
- ^ Тан, Минг и Ларри Эшельман. « Использование взвешенных сетей для представления классификационных знаний в зашумленных областях ». Материалы Пятой Международной конференции по машинному обучению . 2014.
- ^ Чаританович, Малгожата и др. « Полный алгоритм кластеризации градиентов для анализа особенностей рентгеновских изображений ». Информационные технологии в биомедицине . Springer Berlin Heidelberg, 2010. 15–24.
- ^ Санчес, Маурисио А.; и др. (2014). «Алгоритм нечеткой гранулярной гравитационной кластеризации для многомерных данных». Информационные науки . 279 : 498–511. дои : 10.1016/j.ins.2014.04.005 .
- ^ Блэкард, Джок А.; Дин, Денис Дж. (1999). «Сравнительная точность искусственных нейронных сетей и дискриминантного анализа при прогнозировании типов лесного покрова на основе картографических переменных». Компьютеры и электроника в сельском хозяйстве . 24 (3): 131–151. Бибкод : 1999CEAgr..24..131B . CiteSeerX 10.1.1.128.2475 . дои : 10.1016/s0168-1699(99)00046-0 . S2CID 13985407 .
- ^ Фюрнкранц, Йоханнес. « Изучение правил кругового турнира ». Материалы 18-й Международной конференции по машинному обучению (ICML-01): 146–153 . 2001.
- ^ Ли, Сун; Ассманн, Сара М.; Альберт, Река (2006). «Прогнозирование основных компонентов сетей передачи сигналов: динамическая модель передачи сигналов абсцизовой кислоты замыкающих клеток» . ПЛОС Биол . 4 (10): е312. arXiv : q-bio/0610012 . Бибкод : 2006q.bio....10012L . doi : 10.1371/journal.pbio.0040312 . ПМК 1564158 . ПМИД 16968132 .
- ^ Мунисами, Тришен; и др. (2015). «Распознавание листьев растений с использованием особенностей формы и цветовой гистограммы с помощью классификаторов K-ближайших соседей» . Procedia Информатика . 58 : 740–747. дои : 10.1016/j.procs.2015.08.095 .
- ^ Ли, Бай (2016). «Сопоставление атомных потенциалов: эволюционный подход к распознаванию целей, основанный на краевых характеристиках». Оптик . 127 (5): 3162–3168. Бибкод : 2016Оптик.127.3162Л . дои : 10.1016/j.ijleo.2015.11.186 .
- ^ Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.
- ^ Нильсбак, Мария-Елена и Эндрю Зиссерман. « Визуальный словарь классификации цветов ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.
- ^ Гизельссон, Томас М.; и др. (2017). «Общедоступная база данных изображений для эталонных алгоритмов классификации саженцев растений». arXiv : 1711.05458 [ cs.CV ].
- ^ Олтян, Михай (2017). «Набор данных Fruits-360» . Гитхаб .
- ^ Накаи, Кента; Канехиса, Минору (1991). «Экспертная система прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика . 11 (2): 95–110. дои : 10.1002/прот.340110203 . ПМИД 1946347 . S2CID 27606447 .
- ^ Линг, Чарльз X. и др. « Деревья решений с минимальными затратами ». Материалы двадцать первой международной конференции по машинному обучению . АКМ, 2004.
- ^ Маэ, Пьер и др. « Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF ». Биоинформатика (2014): btu022.
- ^ Барбано, Дуэйн; и др. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием времяпролетной масс-спектрометрии с матричной лазерной десорбцией и ионизацией (MALDI-TOF MS)» . ПЛОС ОДИН . 10 (8): e0135337. Бибкод : 2015PLoSO..1035337B . дои : 10.1371/journal.pone.0135337 . ПМЦ 4536233 . ПМИД 26271045 .
- ^ Хортон, Пол; Накаи, Кента (1996). «Вероятностная система классификации для прогнозирования мест клеточной локализации белков» (PDF) . Протокол ISMB-96 . 4 : 109–15. ПМИД 8877510 . Архивировано из оригинала (PDF) 4 ноября 2021 года . Проверено 6 августа 2019 г.
- ^ Оллвейн, Эрин Л.; Шапире, Роберт Э.; Певец Йорам (2001). «Превращение мультикласса в двоичный: объединяющий подход для классификаторов полей» (PDF) . Журнал исследований машинного обучения . 1 : 113–141.
- ^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: прогнозирование токсичности с помощью глубокого обучения» . Границы в науке об окружающей среде . 3 : 80. дои : 10.3389/fenvs.2015.00080 .
- ^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). «Оценка алгоритмов обнаружения аномалий в реальном времени — эталонный тест Numenta Anomaly». 2015 г., 14-я Международная конференция IEEE по машинному обучению и приложениям (ICMLA) . стр. 38–44. arXiv : 1510.03336 . дои : 10.1109/ICMLA.2015.141 . ISBN 978-1-5090-0287-0 . S2CID 6842305 .
- ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович. «Репозиторий SKAB GitHub» . Гитхаб . Проверено 12 января 2021 г.
- ^ Кацер Юрий Дмитриевич; Козицын Вячеслав Олегович (2020). «Бенчмарк аномалий Сколтеха (СКАБ)» . Кэггл. doi : 10.34740/KAGGLE/DSV/1693952 (неактивен 17 марта 2024 г.) . Проверено 12 января 2021 г.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) CS1 maint: DOI неактивен с марта 2024 г. ( ссылка ) - ^ Кампос, Гильерме О.; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Г.Б.; Миценкова, Барбора; Шуберт, Эрих; Согласен, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. doi : 10.1007/s10618-015-0444-8 . ISSN 1384-5810 . S2CID 1952214 .
- ^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для нейронных ответов на вопросы в базе знаний DBpedia . 2018.
- ^ Томмазо Сору, Эдгард Маркс. Диего Мусаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык . 2018.
- ^ Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения . КОЛИНГ 2020.
- ^ Киет Ван Нгуен, Кхием Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туй Нгуен. Расширение лексического подхода с помощью внешних знаний для понимания машинного чтения на вьетнамском языке с множественным выбором . Доступ IEEE. 2020.
- ^ Ананта, Равитея; Вакуленко Светлана; Ту, Чжучэн; Лонгпре, Шейн; Пулман, Стивен; Чаппиди, Шринивас (2020). «Ответы на вопросы в открытой области становятся диалоговыми благодаря переписыванию вопросов». arXiv : 2010.04898 [ cs.IR ].
- ^ Хашаби, Дэниел; Мин, Севон; Хот, Тушар; Сабхарвал, Ашиш; Тафьорд, Ойвинд; Кларк, Питер; Хаджиширзи, Ханнане (ноябрь 2020 г.). «UNIFIEDQA: пересекая границы форматов с помощью единой системы контроля качества» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2020 . Онлайн: Ассоциация компьютерной лингвистики: 1896–1907. arXiv : 2005.00700 . doi : 10.18653/v1/2020.findings-emnlp.171 . S2CID 218487109 .
- ^ Taskmaster , Наборы данных исследований Google, 17 декабря 2022 г. , получено 7 января 2023 г.
- ^ Бирн, Билл; Кришнамурти, Картик; Санкар, Чиннадхурай; Нилакантан, Арвинд; Дакворт, Дэниел; Явуз, Семих; Гудрич, Бен; Дубей, Амит; Цедильник, Энди; Ким, Кю Ён (1 сентября 2019 г.). «Наставник задач-1: к реалистичному и разнообразному набору данных диалога». arXiv : 1909.05358 [ cs.CL ].
- ^ Ясунага, Мичихиро; Лян, Перси (21 ноября 2020 г.). «Восстановление программ с самоконтролем на основе графиков на основе диагностической обратной связи» . Международная конференция по машинному обучению . ПМЛР: 10799–10808. arXiv : 2005.10636 .
- ^ Ван, Ичжун; Мишра, Сваруп; Алипурмолабаши, Пега; Корди, Йегане; Мирзаи, Амирреза; Арункумар, Анджана; Ашок, Арджун; Дханасекаран, Арут Сельван; Наик, Атхарва; Стапп, Дэвид; Патхак, Эшаан; Караманолакис, Яннис; Лай, Хайжи Гэри; Пурохит, Ишан; Мондал, Ишани (24 октября 2022 г.). «Сверхестественные инструкции: обобщение с помощью декларативных инструкций для более чем 1600 задач НЛП». arXiv : 2204.07705 [ cs.CL ].
- ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Куан Нгок; Бернарди, Рафаэлла; Пеццелле, Сандро Барони, Марко; Боледа, Джемма; Фернандес, Ракель (7 августа 2016 г.), Набор данных LAMBADA , номер doi : 10.5281/zenodo.2630551 , получено 7 января 2023 г.
- ^ Паперно, Денис; Крушевский, Герман; Лазариду, Анжелики; Фам, Нгок Куан; Бернарди, Рафаэлла; Пеццелле, Сандро; Барони, Марко; Боледа, Джемма; Фернандес, Ракель (август 2016 г.). «Набор данных LAMBADA: предсказание слов, требующее широкого контекста дискурса» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 1525–1534 гг. дои : 10.18653/v1/P16-1144 . hdl : 10230/32702 . S2CID 2381275 .
- ^ Вэй, Джейсон; Босма, Мартен; Чжао, Винсент; Гуу, Кельвин; Ю, Адамс Вэй; Лестер, Брайан; Ду, Нэн; Дай, Эндрю М.; Ле, Куок В. (10 февраля 2022 г.). «Точно настроенные языковые модели — это ученики с нулевым шансом» . arXiv : 2109.01652 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ «Работа с ATT&CK | MITRE ATT&CK®» . Attack.mitre.org . Проверено 14 января 2023 г.
- ^ «CAPEC — Перечисление и классификация общих шаблонов атак (CAPEC™)» . capec.mitre.org . Проверено 14 января 2023 г.
- ^ «CVE — Главная» . cve.mitre.org . Проверено 14 января 2023 г.
- ^ «CWE — Перечень общих слабостей» . cwe.mitre.org . Проверено 14 января 2023 г.
- ^ Лим, Суи Киат; Муис, Алдриан Обаха; Лу, Вэй; Онг, Чэнь Хуэй (июль 2017 г.). «MalwareTextDB: база данных для аннотированных статей о вредоносном ПО» . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Ванкувер, Канада: Ассоциация компьютерной лингвистики: 1557–1567. дои : 10.18653/v1/P17-1143 . S2CID 7816596 .
- ^ «ЮСЕНИКС» . УСЕНИКС . Проверено 19 января 2023 г.
- ^ «APTnotes | Прочтите документацию» . readthedocs.org . Проверено 19 января 2023 г.
- ^ «Недавние публикации авторов/названий в области криптографии и безопасности» . arxiv.org . Проверено 19 января 2023 г.
- ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 0» . f0.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
- ^ «Целостная информационная безопасность для веб-разработчиков — выпуск 1» . f1.holisticinfosecforwebdevelopers.com . Проверено 20 января 2023 г.
- ^ Винсент, Адам. «Взлом и усиление защиты веб-сервисов» (PDF) . owasp.org .
- ^ МакКрей, Джо. «Расширенное внедрение SQL» (PDF) . defcon.org .
- ^ Шах, Шрирадж. «Техника обнаружения и использования слепых SQL-инъекций» (PDF) . blueinfy.com .
- ^ Палцер, КЦ «Этический хакерство» (PDF) . текстовые файлы .
- ^ «Раскрытые секреты взлома — информационно-методическое руководство» (PDF) .
- ^ Парк, Алексис. «Взломать любой сайт» (PDF) .
- ^ Серрудо, Сезар; Мартинес Файо, Эстебан. «Взлом баз данных для владения вашими данными» (PDF) . черная шляпа .
- ^ О'Коннор, Тиджей. «Violent Python — кулинарная книга для хакеров, судебных аналитиков, тестеров на проникновение и инженеров по безопасности» (PDF) . Гитхаб .
- ^ Гранд, Джо. «Реверс-инжиниринг оборудования: доступ, анализ и поражение» (PDF) . черная шляпа .
- ^ Чанг, Джейсон В. «Компьютерный взлом: обоснование требований к национальной отчетности» (PDF) . cyber.harvard.edu .
- ^ «Репозиторий национальных стратегий кибербезопасности» . МСЭ . Проверено 20 января 2023 г.
- ^ Чен, Яньлинь (31 августа 2022 г.), Cyber Security Natural Language Processing , получено 20 января 2023 г.
- ^ Зампиери, Маркос; Мальмаси, Шервин; Наков, Преслав; Розенталь, Сара; Фарра, Нура; Кумар, Ритеш (16 апреля 2019 г.). «Прогнозирование типа и цели оскорбительных публикаций в социальных сетях». arXiv : 1902.09666 [ cs.CL ].
- ^ «Сообщения об угрозах» . www.ncsc.gov.uk. Проверено 20 января 2023 г.
- ^ «Категория: Отчеты APT | Securelist» . Securelist.com . Проверено 23 января 2023 г.
- ^ «Ваша связь с новостями о кибербезопасности - Киберновости | CyberWire» . КиберВайр . Проверено 23 января 2023 г.
- ^ «Новости» . 21 августа 2016 года . Проверено 23 января 2023 г.
- ^ «Киберньюс» . Киберньюс .
- ^ «Блипингкомпьютер» . Мигающий компьютер . Проверено 23 января 2023 г.
- ^ «Домашняя страница» . Запись из Recorded Future News . Проверено 23 января 2023 г.
- ^ «HackRead | Последние киберпреступления — InfoSec-Tech — Новости хакерства» . 8 января 2022 г. Проверено 23 января 2023 г.
- ^ «Securelist | Исследования и отчеты Касперского об угрозах» . Securelist.com . Проверено 31 января 2023 г.
- ^ Харшоу, Кристофер Р.; Бриджес, Роберт А.; Яннаконе, Майкл Д.; Рид, Джоэл В.; Гудолл, Джон Р. (5 апреля 2016 г.). «Графпринтс» . Материалы 11-й ежегодной конференции по исследованию кибербезопасности и информационной безопасности . ЦИРЦ '16. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–4. дои : 10.1145/2897795.2897806 . ISBN 978-1-4503-3752-6 .
- ^ «Farsight Security, решения для кибербезопасности» . Безопасность Фарсайта . Проверено 13 февраля 2023 г.
- ^ «Шнайер о безопасности» . www.schneier.com . Проверено 13 февраля 2023 г.
- ^ «№1 в области облачной безопасности и кибербезопасности конечных точек» . Тренд Микро . Проверено 13 февраля 2023 г.
- ^ «Новости хакеров | Надежный сайт новостей кибербезопасности №1» . Хакерские новости . Проверено 13 февраля 2023 г.
- ^ «Кребс о безопасности – подробные новости и расследования в области безопасности» . Проверено 25 февраля 2023 г.
- ^ «График знаний MITRE D3FEND» . d3fend.mitre.org . Проверено 31 марта 2023 г.
- ^ «МИТР | АТЛАС™» . atlas.mitre.org . Проверено 31 марта 2023 г.
- ^ «MITRE Engage™ | Система взаимодействия с противниками от MITRE» . Проверено 1 апреля 2023 г.
- ^ «Уроки взлома — лучшие пошаговые руководства по хакерству» . Учебники по взлому . Проверено 1 апреля 2023 г.
- ^ «Центр знаний TCFD» . Центр знаний TCFD . Проверено 3 февраля 2023 г.
- ^ «ResponsibilityReports.com» . www.responsibilityreports.com . Проверено 3 февраля 2023 г.
- ^ «О — МГЭИК» . Проверено 20 февраля 2023 г.
- ^ «Альянс исследований корпоративной устойчивости | ARCS служит средством продвижения тщательных академических исследований по вопросам корпоративной устойчивости» . Corporate-sustainability.org . Проверено 2 марта 2023 г.
- ^ Мехра, Шришти; Лука, Роберт; Чжан, Исюнь (26 марта 2022 г.). «ESGBERT: языковая модель для помощи в задачах классификации, связанных с экологической, социальной и управленческой практикой компаний». Встроенные системы и приложения : 183–190. arXiv : 2203.16788 . дои : 10.5121/csit.2022.120616 . ISBN 9781925953657 . S2CID 247825524 .
- ^ В эту статью включен текст , доступный по лицензии CC BY 4.0 .
- ^ Диггельманн, Томас; Бойд-Грабер, Иордания; Булиан, Яннис; Чиарамита, Массимилиано; Лейппольд, Маркус (2 января 2021 г.). «КЛИМАТ-ЛИХОРАДКА: Набор данных для проверки реальных климатических заявлений». arXiv : 2012.00614 [ cs.CL ].
- ^ "климат-новости-дб" . www.climate-news-db.com . Проверено 3 февраля 2023 г.
- ^ «Климатекст» . www.sustainablefinance.uzh.ch . Проверено 19 февраля 2023 г.
- ^ «Гринбиз» . www.greenbiz.com . Проверено 2 марта 2023 г.
- ^ «Изучите горячий список @Reuters из 1000 ведущих ученых-климатологов» . Рейтер . Проверено 22 марта 2023 г.
- ^ «Блоги | Альянс исследований корпоративной устойчивости» . Corporate-sustainability.org . Проверено 27 марта 2023 г.
- ^ «Гринбиз» . www.greenbiz.com . Проверено 29 марта 2023 г.
- ^ «Новости КСО» . www.csrwire.com . Проверено 29 марта 2023 г.
- ^ «Домашняя страница CDP» . www.cdp.net . Проверено 29 марта 2023 г.
- ^ де Врис, Вред (2022). «Стек: 3 ТБ исходного кода с разрешительной лицензией». arXiv : 2211.15533 [ cs.CL ].
- ^ «Дедуляция стека» . Обнимающее лицо . Проверено 29 августа 2023 г.
- ^ «Блог о гибридном облаке» . content.cloud.redhat.com . Проверено 9 апреля 2023 г.
- ^ «Оркестровка контейнеров производственного уровня» . Кубернетес . Проверено 9 апреля 2023 г.
- ^ «Главная страница | Официальная документация Red Hat OpenShift» . docs.openshift.com . Проверено 9 апреля 2023 г.
- ^ «Фонд облачных вычислений» . Фонд облачных вычислений . Проверено 9 апреля 2023 г.
- ^ Презентации сообщества CNCF , Cloud Native Computing Foundation (CNCF), 11 апреля 2023 г. , получено 11 апреля 2023 г.
- ^ «Red Hat – Мы создаем технологии с открытым исходным кодом для предприятий» . www.redhat.com . Проверено 1 мая 2023 г.
- ^ Браун, Майкл Скотт, Майкл Дж. Пелоси и Генри Дирска. Генетический алгоритм с динамическим радиусом, сохраняющий виды, для финансового прогнозирования акций индекса Доу-Джонса. [ мертвая ссылка ] .. Машинное обучение и интеллектуальный анализ данных в распознавании образов . Springer Berlin Heidelberg, 2013. 27–41.
- ^ Шен, Као-И; Цзенг, Гво-Сюн (2015). «Модель VC-DRSA с нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем . 17 (3): 375–389. дои : 10.1007/s40815-015-0058-8 . S2CID 68241024 .
- ^ Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований . 27 (3): 221–234. CiteSeerX 10.1.1.18.4267 . дои : 10.1016/s0020-7373(87)80053-6 .
- ^ Хамерс, Барт; Суйкенс, Йохан АК; Де Мур, Барт (2003). «Связанное трансдуктивное ансамблевое обучение моделей ядра» (PDF) . Журнал исследований машинного обучения . 1 :1–48.
- ^ Шмуэли, Галит , Ральф П. Руссо и Вольфганг Янк. « БАРИСТА: модель поступления ставок на интернет-аукционах ». Анналы прикладной статистики (2007): 412–441.
- ^ Пэн, Цзе и Ханс-Георг Мюллер. « Дистанционная кластеризация редко наблюдаемых случайных процессов с применением к онлайн-аукционам ». Анналы прикладной статистики (2008): 1056–1077.
- ^ Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. « Генетическое программирование для классификации данных: разделение пространства поиска ». Материалы симпозиума ACM 2004 года по прикладным вычислениям . АКМ, 2004.
- ^ Моро, Сержио; Кортес, Пауло; Рита, Пауло (2014). «Подход, основанный на данных, для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений . 62 : 22–31. дои : 10.1016/j.dss.2014.03.001 . hdl : 10071/9499 . S2CID 14181100 .
- ^ Пейн, Ричард Д.; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv : 1411.5653 [ stat.ME ].
- ^ Акбилгыч, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель гибридных нейронных сетей RBF в качестве прогнозиста». Статистика и вычисления . 24 (3): 365–375. дои : 10.1007/s11222-013-9375-7 . S2CID 17764829 .
- ^ Джабин, Сурайя. « Прогнозирование фондового рынка с использованием искусственной нейронной сети прямого распространения ». Межд. Дж. Компьютер. Прил. (IJCA) 99,9 (2014 г.).
- ^ Да, И-Чэн; Че-хуэй, Лянь (2009). «Сравнение методов интеллектуального анализа данных для точности прогнозирования вероятности дефолта клиентов по кредитным картам». Экспертные системы с приложениями . 36 (2): 2473–2480. дои : 10.1016/j.eswa.2007.12.020 . S2CID 15696161 .
- ^ Линь, Шу Лин (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями . 36 (4): 8333–8341. дои : 10.1016/j.eswa.2008.10.015 .
- ^ Юмо Сюй и Шей Б. Коэн. 2018. Прогноз движения акций на основе твитов и исторических цен. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) , страницы 1970–1979, Мельбурн, Австралия. Ассоциация компьютерной лингвистики.
- ^ Пелкманс, Кристиан; и др. (2005). «Дифференциограмма: непараметрическая оценка дисперсии шума и ее использование для выбора модели». Нейрокомпьютинг . 69 (1): 100–122. doi : 10.1016/j.neucom.2005.02.015 .
- ^ Бэй, Стивен Д.; и др. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень об исследованиях ACM SIGKDD . 2 (2): 81–85. CiteSeerX 10.1.1.15.9776 . дои : 10.1145/380995.381030 . S2CID 534881 .
- ^ Лукас, Д.Д.; и др. (2015). «Разработка оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости» . Геонаучные приборы, методы и системы данных . 4 (1): 121. Бибкод : 2015GI......4..121L . дои : 10.5194/gi-4-121-2015 .
- ^ Пэйлс, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований . 70 (24): 6053–6076. Бибкод : 1965JGR....70.6053P . дои : 10.1029/jz070i024p06053 .
- ^ Сиджиллито, Винсент Г. и др. «Классификация радиолокационных сигналов из ионосферы с использованием нейронных сетей». Технический дайджест Johns Hopkins APL 10.3 (1989): 262–266.
- ^ Чжан, Кун и Вэй Фань. « Прогнозирование искаженных стохастических озоновых дней: анализ, решения и не только ». Знания и информационные системы 14.3 (2008): 299–326.
- ^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. « Байесовская пространственная квантильная регрессия ». Журнал Американской статистической ассоциации (2012).
- ^ Кохави, Рон (1996). «Повышение точности классификаторов Найва-Байеса: гибрид дерева решений». КДД . 96 .
- ^ Оза, Никундж К. и Стюарт Рассел. «Экспериментальное сравнение онлайн- и пакетной версий упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2001.
- ^ Бэй, Стивен Д. (2001). «Многомерная дискретизация для интеллектуального анализа множеств». Знания и информационные системы . 3 (4): 491–512. CiteSeerX 10.1.1.217.921 . дои : 10.1007/pl00011680 . S2CID 10945544 .
- ^ Рагглс, Стивен (1995). «Схемы выборки и ошибки выборки». Исторические методы . 28 (1): 40–46. дои : 10.1080/01615440.1995.9955312 .
- ^ Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. « Метод кривой обучения применительно к кластеризации ». АЙСТАТС . 2001.
- ^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая ансамблевые детекторы и базовые знания» . Прогресс в области искусственного интеллекта . 2 (2–3): 113–127. дои : 10.1007/s13748-013-0040-3 . S2CID 3345087 .
- ^ Жио, Ромен и Рафаэль Шерье. « Прогнозирование использования системы велопроката на день вперед ». Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г., Россия . ИИЭР, 2014.
- ^ Чжан, Сяньюань; и др. (2013). «Оценка времени в пути по городскому маршруту с использованием крупномасштабных данных такси с частичной информацией». Транспортные исследования, часть C: Новые технологии . 33 : 37–49. Бибкод : 2013TRPC...33...37Z . дои : 10.1016/j.trc.2013.04.001 .
- ^ Морейра-Матиас, Луис; и др. (2013). «Прогнозирование спроса пассажиров на такси с использованием потоковых данных» . Транзакции IEEE в интеллектуальных транспортных системах . 14 (3): 1393–1402. дои : 10.1109/tits.2013.2262376 . S2CID 14764358 .
- ^ Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки . 314 : 28–40. дои : 10.1016/j.ins.2015.03.068 .
- ^ Х.В. Джагадиш, Йоханнес Герке, Александрос Лабринидис, Яннис Папаконстантину, Джинеш М. Патель,Рагху Рамакришнан и Сайрус Шахаби. Большие данные и их технические проблемы. Коммун. акм,57(7):86–94, июль 2014 г.
- ^ Кальтранс ПеМС
- ^ Мейзель, Роберт и др. « Структура графов в сети — анализ на разных уровнях агрегации ». Журнал веб-науки 1.1 (2015).
- ^ Кушмерик, Николас. « Учимся удалять интернет-рекламу ». Материалы третьей ежегодной конференции по автономным агентам . АКМ, 1999.
- ^ Фрадкин, Дмитрий и Дэвид Мэдиган. « Эксперименты со случайными прогнозами для машинного обучения ». Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2003.
- ^ Эти данные использовались в разделах статистической графики и вычислений Американской статистической ассоциации за 1999 год.
- ^ Ма, Джастин и др. « Выявление подозрительных URL-адресов: применение масштабного онлайн-обучения ». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ, 2009.
- ^ Левченко, Кирилл и др. « Траектории кликов: сквозной анализ цепочки создания стоимости спама ». Безопасность и конфиденциальность (SP), симпозиум IEEE 2011 г., посвященный . ИИЭР, 2011.
- ^ Мохаммад, Рами М., Фади Табта и Ли Маккласки. « Оценка особенностей, связанных с фишинговыми веб-сайтами, с использованием автоматизированного метода ». Интернет-технологии и защищенные транзакции, Международная конференция 2012 г. для . ИИЭР, 2012.
- ^ Сингх, Ашишкумар и др. « Эксперименты по кластеризации больших данных о транзакциях для сегментации рынка ». Материалы Международной конференции по науке о больших данных и вычислительной технике 2014 года . АКМ, 2014.
- ^ Боллакер, Курт и др. « Freebase: совместно созданная графовая база данных для структурирования человеческих знаний ». Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными . АКМ, 2008.
- ^ Минц, Майк и др. « Дистанционный контроль для извлечения отношений без помеченных данных ». Материалы совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции по обработке естественного языка AFNLP: Том 2-Том 2 . Ассоциация компьютерной лингвистики, 2009.
- ^ Местерхарм, Крис и Майкл Дж. Паццани. « Активное обучение с использованием онлайн-алгоритмов. Архивировано 22 сентября 2017 г. в Wayback Machine ». Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ, 2011.
- ^ Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и аппроксимации Нистрема с помощью адаптивной выборки» (PDF) . Журнал исследований машинного обучения . 14 (1): 2729–2769. arXiv : 1303.4207 . Бибкод : 2013arXiv1303.4207W .
- ^ Перейти обратно: а б «Куча» . Pile.eleuther.ai . Проверено 14 апреля 2022 г.
- ^ «Линии JSON» . jsonlines.org . Проверено 14 апреля 2022 г.
- ^ Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
- ^ «ОСКАР» . oscar-project.org . Проверено 12 августа 2023 г.
- ^ Ортис Суарес, Педро и др. « [2] ». Асинхронный конвейер для обработки огромных корпораций в инфраструктурах со средними и низкими ресурсами . ЦМЛК-7, 2019.
- ^ Абаджи, Жюльен и др. « [3] ». На пути к более чистому многоязычному сканируемому корпусу, ориентированному на документы . ЛРЭЦ, 2022.
- ^ Коэн, Ваня. «ОпенВебТекстКорпус» . OpenWebTextКорпус . Проверено 9 января 2023 г.
- ^ "openwebtext · Наборы данных в обнимающем лице" . Huggingface.co . 16 ноября 2022 г. Проверено 9 января 2023 г.
- ^ Солнье, Люсиль (2023). «Корпус BigScience ROOTS: составной многоязычный набор данных объемом 1,6 ТБ». arXiv : 2303.03915 [ cs.CL ].
- ^ «Данные BigScience · Наборы данных в обнимающем лице» . Huggingface.co . 29 августа 2023 г. Проверено 29 августа 2023 г.
- ^ Каттрал, Роберт; Оппачер, Франц; Деуго, Дуайт (2002). «Эволюционный анализ данных с автоматическим обобщением правил» (PDF) . Последние достижения в области компьютеров, вычислений и коммуникаций : 296–300. S2CID 18625415 . Архивировано из оригинала (PDF) 6 августа 2019 года.
- ^ Бертон, Ариэль Н.; Келли, Пол Х.Дж. (2006). «Прогнозирование производительности рабочих нагрузок подкачки с использованием облегченной трассировки». Компьютерные системы будущего поколения . 22 (7). Эльзевир Б.В.: 784–793. дои : 10.1016/j.future.2006.02.003 . ISSN 0167-739X .
- ^ Бейн, Майкл; Магглтон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект . 13 . Oxford University Press, Inc.: 291–309. дои : 10.1093/oso/9780198538509.003.0012 . ISBN 978-0-19-853850-9 .
- ^ Килан, младший (1983). «Изучение эффективных процедур классификации и их применение к шахматным эндшпилям». Машинное обучение – эффективные процедуры классификации обучения и их применение в шахматных эндшпильах . Том. 1. С. 463–482. дои : 10.1007/978-3-662-12405-5_15 . ISBN 978-3-662-12407-9 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах . Аддисон-Уэсли Лонгман Паблишинг Ко., Инк.
- ^ Матеус, Кристофер Дж.; Ренделл, Ларри А. (1989). «Конструктивная индукция по деревьям решений» (PDF) . ИДЖКАИ . 89 . [ мертвая ссылка ]
- ^ Белсли, Дэвид А., Эдвин Ку и Рой Э. Уэлш. Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности . Том. 571. Джон Уайли и сыновья, 2005.
- ^ Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия, основанная на знаниях» (PDF) . Интеллектуальные системы IEEE . 24 (2): 64–75. дои : 10.1109/MIS.2009.32 . hdl : 1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7 . S2CID 6667472 . Архивировано из оригинала (PDF) 16 августа 2017 года . Проверено 6 декабря 2018 г.
- ^ Ли, Лихун; Чу, Вэй; Лэнгфорд, Джон; Ван, Сюаньхуэй (2011). «Непредвзятая офлайн-оценка алгоритмов рекомендации новостных статей на основе контекстных бандитов». Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных . стр. 297–306. arXiv : 1003.5956 . дои : 10.1145/1935826.1935878 . ISBN 9781450304931 . S2CID 744200 .
- ^ Юнг, Кам Фунг и Яньян Ян. « Проактивная персонализированная система рекомендаций для мобильных новостей ». Разработки в области разработки электронных систем (DESE), 2010 г. ИИЭР, 2010.
- ^ Гасс, Сьюзен Э.; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль над распространением». Бюллетень о загрязнении морской среды . 52 (5): 549–559. Бибкод : 2006МарПБ..52..549Г . дои : 10.1016/j.marpolbul.2005.10.002 . ПМИД 16300800 .
- ^ Гионис, Аристид; Маннила, Хейкки; Цапарас, Панайотис (2007). «Кластерная агрегация». Транзакции ACM по извлечению знаний из данных . 1 (1): 4. CiteSeerX 10.1.1.709.528 . дои : 10.1145/1217299.1217303 . S2CID 433708 .
- ^ Обрадович, Зоран и Слободан Вучетич. Проблемы интеллектуального анализа научных данных: гетерогенные, смещенные и большие выборки . Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.
- ^ Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). «Вызов CoIL 2000: Дело страховой компании». Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук . 9 : 1–43.
- ^ Мао, Казахстан (2002). «Выбор центра нейронной сети RBF на основе меры разделимости класса отношения Фишера». Транзакции IEEE в нейронных сетях . 13 (5): 1211–1217. дои : 10.1109/tnn.2002.1031953 . ПМИД 18244518 .
- ^ Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в государственные школы» (PDF) . Экспертные системы в государственном управлении . 1 : 145–160.
- ^ Лизотт, Дэниел Дж.; Мадани, Омид; Грейнер, Рассел (2012). «Бюджетное обучение классификаторов Найва-Байеса». arXiv : 1212.2472 [ cs.LG ].
- ^ Лебовиц, Майкл (1986). «Концептуальное обучение в богатой входной области: память, основанная на обобщениях» . Машинное обучение: подход искусственного интеллекта . 2 : 193–214. ISBN 9780934613002 .
- ^ Да, И-Чэн; Ян, Кинг-Янг; Тин, Тао-Мин (2009). «Открытие знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями . 36 (3): 5866–5871. дои : 10.1016/j.eswa.2008.07.018 .
- ^ Ли, Вэнь-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система для повышения эффективности донорства крови» . Журнал качества Vol . 18 (2): 173.
- ^ Шмидтманн, Ирен и др. « Оценка реестра раковых заболеваний NRW с упором на связь записей. Архивировано 6 декабря 2018 г. в Wayback Machine ». Итоговый отчет от 11 ноября (2009 г.).
- ^ Сарияр, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с использованием теории экстремальных значений». Журнал биомедицинской информатики . 44 (4): 648–654. дои : 10.1016/j.jbi.2011.02.008 . ПМИД 21352952 .
- ^ Кандильер, Лоран и Винсент Лемэр. « Разработка и анализ задачи Nomao по активному обучению в реальном мире ». Труды ALRA: Активное обучение в реальных приложениях, семинар ECML-PKDD . 2012.
- ^ Маркес, Иван Гарридо. « Метод адаптации предметной области для классификации текста на основе подхода самонастраивающегося обучения ». (2013).
- ^ Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные сетки для кластеризации больших наборов данных». СДМ. 2001.
- ^ Кузилек, Якуб и др. « OU Analyse: анализ студентов из группы риска в Открытом университете ». Обзор аналитики обучения (2015): 1–16.
- ^ Сименс, Джордж и др. Open Learning Analytics: интегрированная и модульная платформа [ постоянная мертвая ссылка ] . Дисс. Издательство Открытого университета, 2011.
- ^ Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читик, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных о городской жизни города Милана и провинции Трентино из нескольких источников» . Научные данные . 2 : 150055. Бибкод : 2015NatSD...250055B . дои : 10.1038/sdata.2015.55 . ISSN 2052-4463 . ПМЦ 4622222 . ПМИД 26528394 .
- ^ Ваншорен Дж., Ван Рейн Дж.Н., Бишл Б., Торго Л. (2013). «OpenML: сетевая наука в машинном обучении». Исследования SIGKDD . 15 (2): 49–60. arXiv : 1407.7722 . дои : 10.1145/2641190.2641198 . S2CID 4977460 .
- ^ Олсон Р.С., Ла Кава В., Ожеховский П., Урбанович Р.Дж., Мур Дж.Х. (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения» . Добыча биоданных . 10 (1): 36. arXiv : 1703.00512 . Бибкод : 2017arXiv170300512O . дои : 10.1186/s13040-017-0154-4 . ПМЦ 5725843 . ПМИД 29238404 .
- ^ «Готовые наборы данных» . appen.com . Приложение . Проверено 30 декабря 2020 г.
- ^ «Наборы данных с открытым исходным кодом» . appen.com . Приложение . Проверено 30 декабря 2020 г.