Автоматизированное машинное обучение

Автоматизированное машинное обучение ( AutoML ) — это процесс автоматизации задач применения машинного обучения к реальным проблемам. Это сочетание автоматизации и машинного обучения. ^[1]

AutoML потенциально включает в себя каждый этап: от создания необработанного набора данных до построения модели машинного обучения, готовой к развертыванию. AutoML был предложен как решение на основе искусственного интеллекта для решения растущей проблемы применения машинного обучения. ^[2]^[3] Высокая степень автоматизации AutoML позволяет неспециалистам использовать модели и методы машинного обучения, не требуя от них становиться экспертами в машинном обучении. Комплексная автоматизация процесса применения машинного обучения дополнительно дает преимущества, заключающиеся в создании более простых решений, более быстрого создания этих решений и моделей, которые часто превосходят модели, разработанные вручную. ^[4]

Общие методы, используемые в AutoML, включают оптимизацию гиперпараметров , метаобучение и поиск нейронной архитектуры .

Сравнение со стандартным подходом

В типичном приложении машинного обучения у специалистов есть набор входных данных, которые можно использовать для обучения. Необработанные данные могут быть не в той форме, к которой можно применить все алгоритмы. Чтобы сделать данные пригодными для машинного обучения, эксперту, возможно, придется применить соответствующие предварительной обработки данных , разработки признаков , извлечения признаков и выбора признаков методы . После этих шагов специалисты-практики должны выполнить выбор алгоритма и оптимизацию гиперпараметров, чтобы максимизировать прогностическую эффективность своей модели. Если используется глубокое обучение, архитектура нейронной сети также должна выбираться вручную экспертом по машинному обучению.

Каждый из этих шагов может быть сложным, что приводит к серьезным препятствиям на пути использования машинного обучения. Цель AutoML — упростить эти шаги для неспециалистов и облегчить им правильное и эффективное использование методов машинного обучения.

AutoML играет важную роль в более широком подходе к автоматизации обработки данных , который также включает в себя сложные задачи, такие как обработка данных, исследование данных, интерпретация и прогнозирование моделей. ^[5]

Цели автоматизации

Автоматизированное машинное обучение может охватывать различные этапы процесса машинного обучения. ^[3] Шаги по автоматизации:

Подготовка и прием данных (из необработанных данных и разных форматов)
- столбца Определение типа ; например, логическое значение, дискретное числовое значение, непрерывное числовое значение или текстовый формат.
- Обнаружение намерений столбцов; например, цель/метка, поле стратификации , числовая функция, категориальная текстовая функция или функция произвольного текста.
- Обнаружение задач; например, бинарная классификация , регрессия , кластеризация или ранжирование
Разработка функций
- Выбор функции
- Извлечение признаков
- Метаобучение и трансферное обучение
- Обнаружение и обработка искаженных данных и/или пропущенных значений
Выбор модели — выбор того, какой алгоритм машинного обучения использовать, часто включая несколько конкурирующих реализаций программного обеспечения.
Ансамблинг — форма консенсуса, при которой использование нескольких моделей часто дает лучшие результаты, чем любая отдельная модель. ^[6]
Гиперпараметрическая оптимизация алгоритма обучения и определение характеристик
- Поиск нейронной архитектуры
Выбор конвейера с учетом ограничений по времени, памяти и сложности
Выбор метрик оценки и процедур валидации
Проблема с проверкой
- утечек Обнаружение
- Обнаружение неправильной конфигурации
Анализ полученных результатов
Создание пользовательских интерфейсов и визуализаций

Проблемы и ограничения

В сфере автоматизированного машинного обучения решается ряд ключевых проблем. Большая проблема, связанная с этой областью, называется «развитие как надомное производство». ^[7] Эта фраза относится к проблеме машинного обучения, когда разработка зависит от ручных решений и предвзятости экспертов. Это контрастирует с целью машинного обучения, которая заключается в создании систем, которые могут учиться и совершенствоваться на основе собственного использования и анализа данных. По сути, это борьба между тем, сколько экспертов должно участвовать в изучении систем, и тем, сколько свободы они должны предоставить машинам. Однако эксперты и разработчики должны помогать создавать и направлять эти машины, чтобы подготовить их к собственному обучению. Для создания этой системы требуется трудоемкая работа со знанием алгоритмов машинного обучения и проектирования систем . ^[8]

Кроме того, некоторые другие проблемы включают проблемы метаобучения. ^[9] и распределение вычислительных ресурсов.

См. также

Ссылки

^ Спирс, Тейлор; Бондо Хансен, Кристиан (18 декабря 2023 г.), «Использование и перспективы машинного обучения на финансовых рынках» , Оксфордский справочник по социологии машинного обучения , Oxford University Press, ISBN 978-0-19-765360-9 , получено 10 июня 2024 г.
^ Торнтон С., Хаттер Ф., Хоос Х.Х., Лейтон-Браун К. (2013). Auto-WEKA: Комбинированный выбор и оптимизация гиперпараметров алгоритмов классификации . KDD '13 Материалы 19-й международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. стр. 847–855.
^ Jump up to: ^а ^б Хаттер Ф., Каруана Р., Бардене Р., Биленко М., Гийон И., Кегль Б. и Ларошель Х. «AutoML 2014 @ ICML» . Семинар AutoML 2014 @ ICML . Проверено 28 марта 2018 г. ^{[ постоянная мертвая ссылка ]}
^ Олсон, Р.С., Урбанович, Р.Дж., Эндрюс, ПК, Лаванда, Н.А., Кидд, Л.К., Мур, Дж.Х. (2016). Автоматизация обработки биомедицинских данных посредством оптимизации конвейеров на основе деревьев. В: Сквиллеро Г., Бурелли П. (ред.) Применения эволюционных вычислений. EvoApplications 2016. Конспекты лекций по информатике (), том 9597. Springer, Cham. дои : 10.1007/978-3-319-31204-0_9
^ Пчела, Лайм; Де Рэдт, Люк; Эрнандес-Оралло, Хосе; Хоос, Хольгер Х.; Смит, Падрайк; Уильямс, Кристофер К.И. (март 2022 г.). «Автоматизация науки о данных» . Коммуникации АКМ . 65 (3): 76–87. дои : 10.1145/3495256 . hdl : 10251/199907 .
^ Эриксон, Ник; Мюллер, Йонас; Ширков, Александр; Чжан, Ханг; Ларрой, Педро; Ли, Му; Смола, Александр (13 марта 2020 г.). «AutoGluon-Tabular: надежный и точный AutoML для структурированных данных». arXiv : 2003.06505 [ stat.ML ].
^ Хаттер, Фрэнк; Коттофф, Ларс; Ваншорен, Хоакин, ред. (2019). Автоматизированное машинное обучение: методы, системы, проблемы . Серия Springer о проблемах машинного обучения. Спрингер Природа. дои : 10.1007/978-3-030-05318-5 . hdl : 20.500.12657/23012 . ISBN 978-3-030-05317-8 .
^ Гловер, Эллен (2018). «Машинное обучение с помощью Python: кластеризация» . Встроенный . дои : 10.4135/9781526466426 .
^ «Проблемы метаобучения» . metalearning.chalearn.org . Проверено 03 декабря 2023 г.

Дальнейшее чтение

«Инструменты AutoML с открытым исходным кодом: AutoGluon, TransmogrifAI, Auto-sklearn и NNI» . Бизети . 16.06.2020.
Феррейра, Луис и др. «Сравнение инструментов AutoML для машинного обучения, глубокого обучения и XGBoost». Международная совместная конференция по нейронным сетям 2021 года (IJCNN). IEEE, 2021. https://repositorium.sdum.uminho.pt/bitstream/1822/74125/1/automl_ijcnn.pdf.
Фойрер М., Кляйн А., Эггенспергер К., Спрингенберг Дж., Блюм М. и Хаттер Ф. (2015). Эффективное и надежное автоматизированное машинное обучение. Достижения в области нейронных систем обработки информации , 28 . https://proceedings.neurips.cc/paper_files/paper/2015/file/11d0e6287202fced83f79975ec59a3a6-Paper.pdf

[1] Спирс, Тейлор; Бондо Хансен, Кристиан (18 декабря 2023 г.), «Использование и перспективы машинного обучения на финансовых рынках» , Оксфордский справочник по социологии машинного обучения , Oxford University Press, ISBN 978-0-19-765360-9 , получено 10 июня 2024 г.

[autoweka1-2] Торнтон С., Хаттер Ф., Хоос Х.Х., Лейтон-Браун К. (2013). Auto-WEKA: Комбинированный выбор и оптимизация гиперпараметров алгоритмов классификации . KDD '13 Материалы 19-й международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. стр. 847–855.

[AutoML2014ICML-3] Jump up to: ^а ^б Хаттер Ф., Каруана Р., Бардене Р., Биленко М., Гийон И., Кегль Б. и Ларошель Х. «AutoML 2014 @ ICML» . Семинар AutoML 2014 @ ICML . Проверено 28 марта 2018 г. ^{[ постоянная мертвая ссылка ]}

[4] Олсон, Р.С., Урбанович, Р.Дж., Эндрюс, ПК, Лаванда, Н.А., Кидд, Л.К., Мур, Дж.Х. (2016). Автоматизация обработки биомедицинских данных посредством оптимизации конвейеров на основе деревьев. В: Сквиллеро Г., Бурелли П. (ред.) Применения эволюционных вычислений. EvoApplications 2016. Конспекты лекций по информатике (), том 9597. Springer, Cham. дои : 10.1007/978-3-319-31204-0_9

[5] Пчела, Лайм; Де Рэдт, Люк; Эрнандес-Оралло, Хосе; Хоос, Хольгер Х.; Смит, Падрайк; Уильямс, Кристофер К.И. (март 2022 г.). «Автоматизация науки о данных» . Коммуникации АКМ . 65 (3): 76–87. дои : 10.1145/3495256 . hdl : 10251/199907 .

[6] Эриксон, Ник; Мюллер, Йонас; Ширков, Александр; Чжан, Ханг; Ларрой, Педро; Ли, Му; Смола, Александр (13 марта 2020 г.). «AutoGluon-Tabular: надежный и точный AutoML для структурированных данных». arXiv : 2003.06505 [ stat.ML ].

[7] Хаттер, Фрэнк; Коттофф, Ларс; Ваншорен, Хоакин, ред. (2019). Автоматизированное машинное обучение: методы, системы, проблемы . Серия Springer о проблемах машинного обучения. Спрингер Природа. дои : 10.1007/978-3-030-05318-5 . hdl : 20.500.12657/23012 . ISBN 978-3-030-05317-8 .

[8] Гловер, Эллен (2018). «Машинное обучение с помощью Python: кластеризация» . Встроенный . дои : 10.4135/9781526466426 .

[9] «Проблемы метаобучения» . metalearning.chalearn.org . Проверено 03 декабря 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]