РевоСкалеР
Оригинальный автор(ы) | Майкрософт |
---|---|
Первоначальный выпуск | 2016 |
Написано в | Питон |
Платформа | Винда , Линукс |
Доступно в | Р |
Веб-сайт | документы |
RevoScaleR — это пакет машинного обучения на R, созданный Microsoft . Он доступен как часть Machine Learning Server, Microsoft R Client и Machine Learning Services в Microsoft SQL Server 2016.
Пакет содержит функции для создания линейной модели , логистической регрессии , случайного леса , дерева решений и усиленного дерева решений , а также K-средних , в дополнение к некоторым сводным функциям для проверки и визуализации данных. [ 1 ]
У него есть аналог пакета Python под названием revoscalepy . Другой тесно связанный пакет — MicrosoftML, который содержит алгоритмы машинного обучения, которых нет в RevoScaleR, такие как нейронная сеть и SVM .
В июне 2021 года Microsoft объявила об открытии исходного кода пакетов RevoScaleR и revoscalepy, сделав их бесплатными по лицензии MIT . [ 2 ]
Концепции
[ редактировать ]Многие пакеты R предназначены для анализа данных, которые могут поместиться в памяти машины, и обычно не используют параллельную обработку. RevoScaleR был разработан для устранения этих ограничений. Функции в RevoScaleR ориентированы на три основные концепции абстракции, которые пользователи могут указать для обработки больших объемов данных, которые могут не помещаться в памяти, и использовать параллельные ресурсы для ускорения анализа.
Вычислительные контексты
[ редактировать ]Контекст вычислений относится к месту, где происходят вычисления над данными. Он может быть «локальным» (на клиентском компьютере) или «удаленным» (на платформе данных, такой как SQL- сервер или Spark ). Перенос вычислений на удаленный сервер позволяет людям воспользоваться большими вычислительными ресурсами, которыми может обладать удаленная машина. Если анализируемые данные находятся на одном и том же компьютере, использование контекста удаленных вычислений также устраняет необходимость переносить данные по сети на клиентский компьютер. [ 3 ]
Источник данных
[ редактировать ]Источник данных определяет, откуда берутся данные. В RevoScaleR доступны различные источники данных, такие как текстовые данные, данные Xdf, данные SQL и кадр данных Spark. Люди могут обернуть свои данные в объект источника данных и использовать его для запуска аналитики в другом вычислительном контексте. Различные источники данных доступны в разных вычислительных контекстах. Например, если в качестве контекста вычислений установлен SQL-сервер, единственным источником данных, который можно использовать, будет источник данных в SQL.
Аналитика
[ редактировать ]Аналитические функции в RevoScaleR принимают объект источника данных, контекст вычислений и другие параметры, необходимые для построения конкретной модели, например формулу логистической регрессии или количество деревьев в дереве решений. В дополнение к этим параметрам можно также указать уровень параллелизма, например размер фрагмента данных для каждого процесса или количество процессов для построения модели. Однако параллелизм доступен только в неэкспресс-издании.
Ограничения
[ редактировать ]Пакет в основном предназначен для использования с SQL-сервером или другими удаленными компьютерами. Чтобы в полной мере использовать абстракции, которые он использует для обработки большого набора данных, необходим удаленный сервер и бесплатная версия пакета, отличная от Express. Его невозможно легко установить, например, запустив «install.packages(»RevoScaleR))», как большинство пакетов R с открытым исходным кодом. Он доступен только через Microsoft R Client, дистрибутив R для науки о данных, или Microsoft Machine Learning Server (автономный без подключенного SQL-сервера), или Microsoft Machine Learning Services (службы SQL-сервера). Тем не менее, вы по-прежнему можете использовать функции аналитики в бесплатной версии пакета Express.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Пакет RevoScaleR» . Корпорация Майкрософт . Проверено 12 апреля 2018 г.
- ^ Взгляд в будущее для R в Azure SQL и SQL Server — блог Microsoft SQL Server
- ^ «Вычислительный контекст для выполнения сценариев на сервере машинного обучения» . Корпорация Майкрософт . Проверено 12 апреля 2018 г.