CatBoost
![]() | |
Оригинальный автор(ы) | Андрей Гулин: [ 1 ] / Yandex |
---|---|
Разработчик(и) | Участники Яндекса и CatBoost [ 2 ] |
Первоначальный выпуск | 18 июля 2017 г [ 3 ] [ 4 ] |
Стабильная версия | 1.2.3 [ 5 ]
/ 23 февраля 2024 г |
Написано в | Питон , Р , С++ , Java |
Операционная система | Linux , MacOS , Windows |
Тип | Машинное обучение |
Лицензия | Лицензия Апач 2.0 |
Веб-сайт | кошачий импульс |
CatBoost [ 6 ] — это с открытым исходным кодом, библиотека программного обеспечения разработанная Яндексом . Он обеспечивает структуру повышения градиента , которая, среди других функций, пытается решить категориальные функции, используя альтернативу, основанную на перестановках, по сравнению с классическим алгоритмом. [ 7 ] Он работает на Linux , Windows , macOS и доступен в Питон , [ 8 ] Р , [ 9 ] а модели, построенные с использованием catboost, можно использовать для прогнозирования на C++ , Java , [ 10 ] C# , Rust , Core ML , ONNX и PMML . Исходный код распространяется по лицензии Apache и доступен на GitHub. [ 6 ]
Журнал InfoWorld наградил библиотеку «Лучшими инструментами машинного обучения» в 2017 году. [ 11 ] вместе с TensorFlow , Pytorch , XGBoost и 8 другими библиотеками.
Kaggle назвал CatBoost одной из наиболее часто используемых платформ машинного обучения (ML) в мире. В опросе 2020 года он вошел в топ-8 наиболее часто используемых сред машинного обучения. [ 12 ] и в топ-7 наиболее часто используемых сред ML в опросе 2021 года. [ 13 ]
По состоянию на апрель 2022 года CatBoost устанавливается примерно 100 000 раз в день из PyPI. репозитория [ 14 ]
Функции
[ редактировать ]CatBoost приобрел популярность по сравнению с другими алгоритмами повышения градиента, прежде всего, благодаря следующим особенностям: [ 15 ]
- Встроенная обработка категориальных функций [ 16 ]
- Быстрое обучение графического процессора [ 17 ]
- Визуализации и инструменты для анализа моделей и функций
- Использование забывчивых деревьев или симметричных деревьев для более быстрого выполнения.
- Упорядочено усиление, чтобы преодолеть переоснащение [ 7 ]
История
[ редактировать ]В 2009 году Андрей Гулин разработал MatrixNet — собственную библиотеку повышения градиента, которая использовалась в Яндексе для ранжирования результатов поиска. С 2009 года MatrixNet используется в различных проектах Яндекса, в том числе в рекомендательных системах и прогнозе погоды.
В 2014–2015 годах Андрей Гулин с командой исследователей запустил новый проект Tensornet, направленный на решение проблемы «как работать с категориальными данными ». В результате появилось несколько собственных библиотек Gradient Boosting с разными подходами к обработке категориальных данных.
В 2016 году команда Machine Learning Infrastructure под руководством Анны Дорогуш начала работу над Gradient Boosting в Яндексе, включая Matrixnet и Tensornet. Они реализовали и открыли исходный код следующей версии библиотеки Gradient Boosting под названием CatBoost, которая поддерживает категориальные и текстовые данные, обучение графического процессора, анализ моделей и инструменты визуализации.
CatBoost был открыт в июле 2017 года и находится в стадии активной разработки в Яндексе и сообществе разработчиков ПО с открытым исходным кодом.
Приложение
[ редактировать ]- JetBrains использует CatBoost для завершения кода [ 18 ]
- Cloudflare использует CatBoost для обнаружения ботов [ 19 ]
- Careem использует CatBoost для прогнозирования будущих пунктов назначения поездок [ 20 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Андрей Гулин - Люди - Исследования в Яндексе» . исследование.yandex.com .
- ^ «Яндекс CatBoost с открытым исходным кодом, библиотека машинного обучения, повышающая градиент» . ТехКранч . 18 июля 2017 года . Проверено 30 августа 2020 г.
- ^ Егулалп, Сердар (18 июля 2017 г.). «Библиотека машинного обучения CatBoost с открытым исходным кодом Яндекса» . Инфомир . Проверено 30 августа 2020 г.
- ^ «Релизы · catboost/catboost» . Гитхаб . Проверено 14 марта 2024 г.
- ^ Jump up to: а б "кошачий буст/кошачий буст" . 30 августа 2020 г. – через GitHub.
- ^ Jump up to: а б Prokhorenkova, Liudmila; Gusev, Gleb; Vorobev, Aleksandr; Dorogush, Anna Veronika; Gulin, Andrey (2019-01-20). "CatBoost: unbiased boosting with categorical features". arXiv : 1706.09516 [ cs.LG ].
- ^ «Индекс пакетов Python PYPI: catboost» . Проверено 20 августа 2020 г.
- ^ «Пакет Conda Force Catboost-R» . Проверено 30 августа 2020 г.
- ^ «Репозиторий Maven: ai.catboost »catboost-prediction» . mvnrepository.com . Проверено 30 августа 2020 г.
- ^ персонал, InfoWorld (27 сентября 2017 г.). «Bossie Awards 2017: Лучшие инструменты машинного обучения» . Инфомир .
- ^ «Состояние науки о данных и машинного обучения 2020» .
- ^ «Состояние науки о данных и машинного обучения в 2021 году» .
- ^ «Catboost статистики PyPI» . Статистика PyPI .
- ^ Джозеф, Ману (29 февраля 2020 г.). «Усилители градиента V: CatBoost» . Глубокий и мелкий . Проверено 30 августа 2020 г.
- ^ Дорогуш, Анна Вероника; Ершов Василий; Гулин, Андрей (24 октября 2018 г.). «CatBoost: повышение градиента с поддержкой категориальных функций». arXiv : 1810.11363 [ cs.LG ].
- ^ «CatBoost обеспечивает быстрое повышение градиента в деревьях решений с использованием графических процессоров» . Блог разработчиков NVIDIA . 13 декабря 2018 г. Проверено 30 августа 2020 г.
- ^ «Завершение кода, Эпизод 4: Обучение модели» . Блог разработчиков JetBrains . 20 августа 2021 г.
- ^ «Остановите ботов: практические уроки машинного обучения» . Блог Cloudflare . 20 февраля 2019 г.
- ^ «Как служба прогнозирования пунктов назначения Careem ускоряет вашу поездку» . Карим . 2019-02-19.
Внешние ссылки
[ редактировать ]- Бесплатное программное обеспечение с открытым исходным кодом
- Искусственный интеллект с открытым исходным кодом
- Программное обеспечение, использующее лицензию Apache
- Научные библиотеки Python (язык программирования)
- Прикладное машинное обучение
- Программное обеспечение для интеллектуального анализа данных и машинного обучения
- Бесплатное программное обеспечение для анализа данных
- Бесплатное программное обеспечение, написанное на C++.
- программное обеспечение 2017 года
- программное обеспечение яндекс