Оранжевый (программное обеспечение)
Разработчик(и) | Университет Любляны |
---|---|
Первоначальный выпуск | 10 октября 1996 г [1] |
Стабильная версия | 3.37.0 [2] / 27 мая 2024 г |
Репозиторий | Оранжевый репозиторий |
Написано в | Питон , Cython , C++ , C |
Операционная система | Кросс-платформенный |
Тип | Машинное обучение , Интеллектуальный анализ данных , Визуализация данных , Анализ данных |
Лицензия | GPLv3 или новее [3] [4] |
Веб-сайт | оранжевыйданныемайнинг |
Orange — это с открытым исходным кодом набор инструментов для визуализации данных , машинного обучения и интеллектуального анализа данных . Он имеет интерфейс визуального программирования для исследовательского качественного анализа данных данных и интерактивной визуализации .
Описание [ править ]
на основе компонентов, Orange — это пакет программного обеспечения для визуального программирования предназначенный для визуализации данных , машинного обучения , интеллектуального анализа и анализа данных .
Оранжевые компоненты называются виджетами. Они варьируются от простой визуализации данных, выбора подмножества и предварительной обработки до эмпирической оценки алгоритмов обучения.и прогнозное моделирование .
Визуальное программирование реализуется через интерфейс, в котором рабочие процессы создаются путем связывания предопределенных или созданных пользователем виджетов , а опытные пользователи могут использовать Orange в качестве библиотеки Python для манипулирования данными и изменения виджетов. [5]
Программное обеспечение [ править ]
Orange — пакет программного обеспечения с открытым исходным кодом, выпущенный под лицензией GPL и размещенный на GitHub . Версии до 3.0 включают основные компоненты на C++ с оболочками на Python . Начиная с версии 3.0, Orange использует общие библиотеки Python с открытым исходным кодом для научных вычислений, такие как numpy , scipy и scikit-learn , а его графический пользовательский интерфейс работает в рамках кроссплатформенной среды Qt .
Установка по умолчанию включает ряд алгоритмов машинного обучения, предварительной обработки и визуализации данных в 6 наборах виджетов (данные, преобразование, визуализация, моделирование, оценка и неконтролируемый). Дополнительные функции доступны в виде надстроек (текстовый анализ, анализ изображений, биоинформатика и т. д.).
Orange поддерживается в macOS , Windows и Linux , а также может быть установлен из репозитория Python Package Index ( pip install Orange3 ).
Особенности [ править ]
Orange состоит из холстового интерфейса , на котором пользователь размещает виджеты и создает рабочий процесс анализа данных. Виджеты предлагают базовые функции, такие как чтение данных, отображение таблицы данных, выбор функций, обучение предикторов, сравнение алгоритмов обучения, визуализация элементов данных и т. д. Пользователь может в интерактивном режиме исследовать визуализации или передавать выбранное подмножество в другие виджеты.
- Canvas : графический интерфейс для анализа данных.
- Виджеты :
- Данные : виджеты для ввода данных, фильтрации данных, выборки, вменения, манипулирования функциями и выбора функций.
- Визуализация : виджеты для общей визуализации (ящичная диаграмма, гистограммы, точечная диаграмма) и многомерной визуализации (мозаичное отображение, ситовая диаграмма).
- Классифицировать : набор контролируемых алгоритмов машинного обучения для классификации.
- Регрессия : набор контролируемых алгоритмов машинного обучения для регрессии.
- Оценка : перекрестная проверка, процедуры на основе выборки, оценка надежности и оценка методов прогнозирования.
- Без учителя : обучения без учителя алгоритмы для кластеризации (k-средние, иерархическая кластеризация) и методы проецирования данных (многомерное масштабирование, анализ главных компонентов, анализ соответствий).
Дополнения [ править ]
Пользователи Orange могут расширить свой основной набор компонентов за счет компонентов в надстройках. Поддерживаемые дополнения включают в себя:
- Associate : компоненты для анализа часто встречающихся наборов элементов и изучения правил ассоциации .
- Биоинформатика : компоненты для анализа экспрессии генов, обогащения и доступа к базам данных экспрессии (например, Gene Expression Omnibus ) и библиотекам путей.
- Объединение данных : компоненты для объединения различных наборов данных , коллективной матричной факторизации и исследования скрытых факторов.
- Образовательные : компоненты для обучения концепциям машинного обучения, таким как кластеризация k-средних , полиномиальная регрессия , стохастический градиентный спуск ,...
- Объяснение : предоставляет расширение с компонентами для объяснения модели, включая значений Шепли . анализ
- Geo : компоненты для работы с геопространственными данными .
- Аналитика изображений : компоненты для работы с изображениями и ImageNet. встраиваниями
- Сеть : компоненты для графового и сетевого анализа .
- Интеллектуальный анализ текста : компоненты для обработки естественного языка и интеллектуального анализа текста .
- Временные ряды : компоненты виджета для временных рядов . анализа и моделирования
- Одноклеточный : поддержка анализа экспрессии генов в отдельных клетках, включая компоненты для загрузки данных об отдельных клетках, фильтрации и пакетного удаления эффектов, обнаружения маркерных генов, оценки клеток и генов, а также прогнозирования типов клеток.
- Спектроскопия : компоненты для анализа и визуализации наборов (гипер)спектральных данных. [6]
- Анализ выживания : дополнение для анализа данных, касающихся данных о выживании. Он включает виджеты для стандартных методов анализа выживаемости, таких как график Каплана-Мейера , регрессионная модель Кокса и несколько производных виджетов.
- World Happiness : поддержка загрузки социально-экономических данных из базы данных, включая ОЭСР и показатели мирового развития . Обеспечивает доступ к тысячам страновых показателей из различных экономических баз данных.
- Справедливость : дополнение для оценки и создания справедливых моделей машинного обучения без дискриминации. Виджеты варьируются от расчета показателей справедливости, таких как статистическая четность, до методов последующей, предварительной и внутренней обработки для построения справедливых моделей. [7]
Цели [ править ]
Программа предоставляет платформу для выбора экспериментов, систем рекомендаций и прогнозного моделирования и используется в биомедицине , биоинформатике , геномных исследованиях и преподавании. В науке он используется как платформа для тестирования новых алгоритмов машинного обучения и внедрения новых методов в генетике и биоинформатике. В образовании его использовали для обучения методам машинного обучения и интеллектуального анализа данных студентов биологии, биомедицины и информатики.
Расширения [ править ]
Различные проекты основаны на Orange либо путем расширения основных компонентов с помощью надстроек, либо с использованием только Orange Canvas для использования реализованных функций визуального программирования и графического пользовательского интерфейса.
- OASYS — ORange Synchrotron Suite [8]
- scOrange — биостатистика отдельных клеток
- Квазар — анализ данных в естественных науках
История [ править ]
В 1996 году Люблянский университет и Институт Йожефа Стефана начали разработку ML*, среды машинного обучения на C++ , а в 1997 году для этой среды были разработаны привязки Python , которые вместе с появляющимися модулями Python образовали совместную структуру под названием Orange. В последующие годы большинство современных основных алгоритмов интеллектуального анализа данных и машинного обучения были реализованы в модулях C++ (ядро Orange) или Python.
- В 2002 году были разработаны первые прототипы для создания гибкого графического пользовательского интерфейса с использованием мегавиджетов Pmw Python .
- В 2003 году графический интерфейс пользователя был переработан и переработан для Qt платформы PyQt с использованием привязок Python. Была определена основа визуального программирования и началась разработка виджетов (графических компонентов конвейера анализа данных).
- расширения для анализа данных в биоинформатике . В 2005 году были созданы
- В 2008 году Mac OS X DMG и Fink . были разработаны установочные пакеты
- В 2009 году было создано и поддерживается более 100 виджетов.
- С 2009 года Orange находится в бета-версии 2.0, и на веб-сайте предлагаются установочные пакеты, основанные на ежедневном цикле компиляции.
- В 2012 году была введена новая иерархия объектов, заменившая старую структуру, основанную на модулях.
- В 2013 году произошла значительная модернизация графического пользовательского интерфейса, включившая новый набор инструментов и отображение рабочих процессов.
- В 2015 году вышел Orange 3.0. Orange хранит данные в массивах NumPy ; Алгоритмы машинного обучения в основном используют scikit-learn .
- В 2015 году было выпущено дополнение для анализа текста для Orange3.
- В 2016 году Orange находится в версии 3.3. В разработке используется ежемесячный цикл стабильных выпусков.
- В 2016 году началась разработка и выпуск надстройки Image Analytics с глубокими нейронными сетями на сервере для встраивания изображений. [9]
- В 2017 году была представлена надстройка «Спектроскопия» для анализа спектральных данных. [10]
- В 2017 году было представлено дополнение Geo для работы с данными геолокации и визуализации географических карт. [11]
- В 2018 году начата разработка и выпуск дополнения для анализа одноклеточных данных. [12]
- В 2019 году графический интерфейс Orange разрабатывается как отдельный проект Orange-Canvas-Core. [13]
- дополнение «Объяснение» с виджетами для объяснения модели классификации или регрессии В 2020 году представлено . В нем объясняется, какие функции вносят наибольший вклад и как они способствуют прогнозированию определенного класса.
- В 2022 году будет представлено дополнение World Happiness к пакету интеллектуального анализа данных Orange3. Он предоставляет виджеты для доступа к социально-экономическим данным из различных баз данных, таких как World Happiness Report , World Development Indicators , OECD.
- В 2022 году надстройка «Объяснение» расширена за счет графика индивидуального условного ожидания и метода важности функций перестановки.
- В 2023 году будет представлено дополнение Fairness. Благодаря виджетам для расчета показателей справедливости, а также виджетам для методов предварительной, последующей и внутренней обработки, он позволяет строить справедливые модели без дискриминации. <ссылка>
Ссылки [ править ]
- ^ «orange3/CHANGELOG.md в master. biolab/orange3. GitHub» . Гитхаб .
- ^ «Релиз 3.37.0» . 27 мая 2024 г. Проверено 2 июня 2024 г.
- ^ «Оранжевый — Лицензия» .
- ^ «orange3/LICENSE в master. biolab/orange3. GitHub» . Гитхаб .
- ^ Янез Демшар; Томаж Цурк; Алеш Эрьявец; линия Горупа; Томаж Хочевар; Митар Милутинович; Мартин Можина; Матия Полайнар; Марко Топлак; Анже Старич; Миха Стайдохар; Лен Умек; Флакс Сойер; Юре Жбонтар; Маринка Житник; Блаж Жупан (2013). «Оранжевый: набор инструментов для интеллектуального анализа данных на Python» (PDF) . Журнал исследований машинного обучения . 14 (1): 2349–2353.
- ^ Топлак, М.; Бирарда, Г.; Рид, С.; Сандт, К.; Розендаль, С.М.; Ваккари, Л.; Демшар Дж.; Борондикс, Ф. (2017). «Инфракрасный оранжевый: соединение гиперспектральных данных с машинным обучением». Новости синхротронного излучения . 30 (4): 40–45. Бибкод : 2017SRNew..30...40T . дои : 10.1080/08940886.2017.1338424 . S2CID 125273654 .
- ^ Йомиды. «Проверка ИИ на дискриминацию через графический интерфейс с помощью дополнения Orange Fairness» . ИОМИДЫ.
- ^ Санчес Дель Рио, Мануэль; Ребуффи, Лука (2017). «OASYS (или Ange SYnchrotron Suite): графическая среда с открытым исходным кодом для виртуальных рентгеновских экспериментов». В Чубарь, Олег; Сони, Кавал (ред.). Достижения в вычислительных методах рентгеновской оптики IV . п. 28. дои : 10.1117/12.2274263 . ISBN 9781510612334 . S2CID 117118973 .
- ^ Примож Годец; Матяж Панчур; Нейц Иленич; Андрей Чопар; Мартин Стражар; Алеш Эрьявец; Гречневый претнар; Янез Демшар; Марко Топлак; Анже Старич; Флакс Сойер; Ян Хартман; Гамильтон Ван; Риккардо Беллацци; Урош Петрович; Сильвия Гаранья; Маурицио Зуккотти; Парк Донгсу; Гад Шаульский; Блаж Жупан (2019). «Демократизированная аналитика изображений посредством визуального программирования за счет интеграции глубоких моделей и мелкомасштабного машинного обучения» . Природные коммуникации . 10 (1): 4551. Бибкод : 2019NatCo..10.4551G . дои : 10.1038/s41467-019-12397-x . ПМК 6779910 . ПМИД 31591416 . S2CID 203782491 .
- ^ Марко Топлак; Стюарт Т. Рид; Кристоф Сандт; Ференц Борондич (2021). «Квазар: простое машинное обучение для биоспектроскопии» . Клетки . 10 (9): 2300. doi : 10.3390/cells10092300 . ПМЦ 8466383 . ПМИД 34571947 .
- ^ «Документация Orange3-Geo — Документация Orange3-Geo» .
- ^ Мартин Стражар; Флакс Сойер; Яка Кокошар; Весна Танко; Алеш Эрьявец; Павлин Г. Поличар; Анже Старич; Янез Демшар; Гад Шаульский; Вилас Менон; Эндрю Лемир; Ануп Парих; Блаж Жупан (2021). «scOrange — инструмент для практического обучения концепциям анализа одноячеечных данных» . Биоинформатика . 35 (14): i4–i12. doi : 10.1093/биоинформатика/btz348 . ПМК 6612816 . ПМИД 31510695 .
- ^ «Оранжевое ядро холста» . Гитхаб .
Дальнейшее чтение [ править ]
- Демшар, Янез и Блаж Жупан, Плодотворный и увлекательный анализ данных – историческая перспектива , Informatica 37, стр. 55–60, (2013).
Внешние ссылки [ править ]
- Приложения искусственного интеллекта
- Кроссплатформенное бесплатное программное обеспечение
- Программное обеспечение для интеллектуального анализа данных и машинного обучения
- Программное обеспечение для визуализации данных
- Бесплатное программное обеспечение для построения графиков
- Бесплатное научное программное обеспечение
- Бесплатное программное обеспечение, написанное на Python.
- Числовое программное обеспечение
- Научное программное обеспечение, использующее Qt
- Программное обеспечение, использующее лицензию GPL
- Программное обеспечение временных рядов