~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ A3791FC59B6908D0A68FB390D07D57D1__1718978700 ✰
Заголовок документа оригинал.:
✰ ELKI - Wikipedia ✰
Заголовок документа перевод.:
✰ ELKI - Wikipedia ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/ELKI ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/a3/d1/a3791fc59b6908d0a68fb390d07d57d1.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/a3/d1/a3791fc59b6908d0a68fb390d07d57d1__translat.html ✰
Дата и время сохранения документа:
✰ 22.06.2024 01:56:04 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 21 June 2024, at 17:05 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

ELKI - Wikipedia Jump to content

ELKI

Из Википедии, бесплатной энциклопедии
Среда для разработки KDD-приложений, поддерживаемых индексными структурами
Разработчики) Технический университет Дортмунда ; первоначально Мюнхенский университет Людвига-Максимилиана
Стабильная версия
0.8.0 / 5 октября 2022 г .; 20 месяцев назад ( 05.10.2022 )
Репозиторий
Написано в Джава
Операционная система Microsoft Windows , Linux , Mac OS
Платформа Java-платформа
Тип Сбор данных
Лицензия AGPL (начиная с версии 0.4.0)
Веб-сайт elki-проект .github .что

ELKI ( Среда для разработки KDD-приложений, поддерживаемых индексными структурами ) — это для интеллектуального анализа данных (KDD, обнаружение знаний в базах данных), программная платформа разработанная для использования в исследованиях и обучении. Первоначально он был создан исследовательским подразделением систем баз данных в Мюнхенском университете Людвига-Максимилиана , Германия, под руководством профессора Ханса-Петера Кригеля . Проект продолжился в Техническом университете Дортмунда , Германия. Его цель - обеспечить возможность разработки и оценки передовых алгоритмов интеллектуального анализа данных и их взаимодействия со структурами индексов баз данных .

Описание [ править ]

Платформа ELKI написана на Java и построена на модульной архитектуре. Большинство включенных в настоящее время алгоритмов выполняют кластеризацию , обнаружение выбросов , [1] и индексы базы данных . Объектно -ориентированная архитектура позволяет комбинировать произвольные алгоритмы, типы данных, функции расстояния , индексы и меры оценки. Java JIT-компилятор оптимизирует все комбинации в одинаковой степени, делая результаты сравнительного тестирования более сопоставимыми, если они используют большие части кода. При разработке новых алгоритмов или индексных структур существующие компоненты можно легко использовать повторно, а типобезопасность Java обнаруживает множество ошибок программирования во время компиляции.

ELKI — это бесплатный инструмент для анализа данных, в основном ориентированный на поиск закономерностей и необычных точек данных без необходимости использования меток. Он написан на Java и призван быть быстрым и способным обрабатывать большие наборы данных с использованием специальных структур. Он создан для того, чтобы исследователи и студенты могли добавлять свои собственные методы и легко сравнивать различные алгоритмы. [2]

ELKI использовался в науке о данных для кластеризации кашалотов . кодов [3] для фонем , кластеризации [4] для обнаружения аномалий при выполнении космических полетов , [5] для перераспределения велопроката , [6] и прогнозирование трафика. [7]

Цели [ править ]

Университетский проект разработан для использования в преподавании и научных исследованиях . Исходный код написан с учетом расширяемости и возможности повторного использования, но также оптимизирован с точки зрения производительности. Экспериментальная оценка алгоритмов зависит от многих факторов окружающей среды, и детали реализации могут иметь большое влияние на время выполнения. [8] ELKI стремится предоставить общую кодовую базу с сопоставимыми реализациями многих алгоритмов.

В качестве исследовательского проекта он в настоящее время не предлагает интеграцию с приложениями бизнес-аналитики или интерфейс с распространенными системами управления базами данных через SQL . Лицензия с авторским левом ( AGPL ) также может быть препятствием для интеграции в коммерческие продукты; тем не менее, его можно использовать для оценки алгоритмов перед разработкой собственной реализации коммерческого продукта. Кроме того, применение алгоритмов требует знаний об их использовании, параметрах и изучения оригинальной литературы. Аудитория – студенты , исследователи , ученые, работающие с данными , и инженеры-программисты .

Архитектура [ править ]

ELKI смоделирован на основе ядра, основанного на базе данных , которое использует вертикальное расположение данных, при котором данные хранятся в группах столбцов (аналогично семействам столбцов в базах данных NoSQL ). Это ядро ​​базы данных обеспечивает поиск ближайшего соседа , поиск по диапазону/радиусу и функцию запроса расстояния с ускорением индекса для широкого спектра мер несходства . Алгоритмы, основанные на таких запросах (например, алгоритм k-ближайшего соседа , коэффициент локального выброса и DBSCAN ), можно легко реализовать и получить выгоду от ускорения индекса. Ядро базы данных также обеспечивает быстрое и эффективное использование памяти для коллекций объектов и ассоциативных структур, таких как списки ближайших соседей.

ELKI широко использует интерфейсы Java, поэтому его можно легко расширить во многих местах. Например, можно добавлять и комбинировать пользовательские типы данных, функции расстояния, структуры индексов, алгоритмы, анализаторы ввода и модули вывода без изменения существующего кода. Это включает в себя возможность определения пользовательской функции расстояния и использования существующих индексов для ускорения.

ELKI использует архитектуру загрузчика служб , позволяющую публиковать расширения в виде отдельных файлов jar .

ELKI использует оптимизированные коллекции для повышения производительности, а не стандартный Java API. [9] Например , циклы for написаны аналогично итераторам C++ :

  для   (  DBIDIter   iter   =   ids  .  iter  ();   iter  .  valid  ();   iter  .  Advance  ())   { 
     отношение  .   получить  (  итер  );       объекта, на который указывает ссылка 
      // Например, получаем idcollection  .   добавить  (  итер  );    // Например, добавляем ссылку в коллекцию DBID 
   } 

В отличие от типичных итераторов Java (которые могут перебирать только объекты), это экономит память, поскольку итератор может внутренне использовать примитивные значения для хранения данных. Уменьшенная сборка мусора улучшает время выполнения. Оптимизированные библиотеки коллекций, такие как GNU Trove3 , Koloboke и fastutil, используют аналогичные оптимизации. ELKI включает структуры данных, такие как коллекции объектов и кучи (например, для поиска ближайшего соседа ), используя такие оптимизации.

Визуализация [ править ]

Модуль визуализации использует SVG для масштабируемого вывода графики и Apache Batik для рендеринга пользовательского интерфейса, а также экспорт без потерь в PostScript и PDF для удобного включения в научные публикации в LaTeX . Экспортированные файлы можно редактировать с помощью редакторов SVG, таких как Inkscape . Поскольку каскадные таблицы стилей используются , графический дизайн можно легко изменить. К сожалению, Batik довольно медленный и требует большого объема памяти, поэтому визуализации не очень масштабируемы для больших наборов данных (для больших наборов данных по умолчанию визуализируется только часть выборки данных).

Награды [ править ]

Версия 0.4, представленная на «Симпозиуме по пространственным и временным базам данных» 2011 г., которая включала различные методы обнаружения пространственных выбросов, [10] получил награду конференции за «лучшую демонстрационную работу».

Включенные алгоритмы [ править ]

Выберите включенные алгоритмы: [11]

История версий [ править ]

Версия 0.1 (июль 2008 г.) содержала несколько алгоритмов кластерного анализа и обнаружения аномалий , а также некоторые индексные структуры , такие как R*-дерево . Основное внимание в первом выпуске уделялось подпространственной кластеризации и корреляционной кластеризации . алгоритмам [12]

В версии 0.2 (июль 2009 г.) добавлены функции анализа временных рядов , в частности функции расстояния для временных рядов. [13]

Версия 0.3 (март 2010 г.) расширила выбор алгоритмов обнаружения аномалий и модулей визуализации. [14]

В версии 0.4 (сентябрь 2011 г.) добавлены алгоритмы интеллектуального анализа геоданных и поддержка многореляционных баз данных и структур индексов. [10]

Версия 0.5 (апрель 2012 г.) ориентирована на оценку результатов кластерного анализа , добавлена ​​новая визуализация и некоторые новые алгоритмы. [15]

Версия 0.6 (июнь 2013 г.) представляет новую трехмерную адаптацию параллельных координат для визуализации данных, помимо обычных дополнений алгоритмов и индексных структур. [16]

Версия 0.7 (август 2015 г.) добавляет поддержку неопределенных типов данных и алгоритмы анализа неопределенных данных. [17]

Версия 0.7.5 (февраль 2019 г.) добавляет дополнительные алгоритмы кластеризации, алгоритмы обнаружения аномалий, меры оценки и структуры индексации. [18]

Версия 0.8 (октябрь 2022 г.) добавляет автоматическое создание индексов, сборку мусора и инкрементный поиск по приоритету, а также множество других алгоритмов, таких как BIRCH . [19]

Похожие приложения [ править ]

  • scikit-learn : библиотека машинного обучения на Python
  • Weka : аналогичный проект Университета Вайкато с упором на классификации . алгоритмы
  • RapidMiner : приложение, доступное на коммерческой основе (ограниченная версия доступна с открытым исходным кодом).
  • KNIME : платформа с открытым исходным кодом, которая объединяет различные компоненты для машинного обучения и интеллектуального анализа данных.

См. также [ править ]

Ссылки [ править ]

  1. ^ Ханс-Петер Кригель , Пер Крёгер, Артур Зимек (2009). «Методы обнаружения выбросов (учебное пособие)» (PDF) . 13-я Тихоокеанско-Азиатская конференция по обнаружению знаний и интеллектуальному анализу данных (PAKDD 2009) . Бангкок, Тайланд . Проверено 26 марта 2010 г. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ «Структура интеллектуального анализа данных ELKI» . elki-project.github.io . Проверено 30 мая 2024 г.
  3. ^ Геро, Шейн; Уайтхед, Хэл; Ренделл, Люк (2016). «Идентификационные сигналы на уровне индивида, отряда и вокального клана в кодах кашалота» . Королевское общество открытой науки . 3 (1): 150372. Бибкод : 2016RSOS....350372G . дои : 10.1098/rsos.150372 . ISSN   2054-5703 . ПМК   4736920 . ПМИД   26909165 .
  4. ^ Штальберг, Феликс; Шлиппе, Тим; Фогель, Стефан; Шульц, Таня (2013). «Извлечение произношения из последовательностей фонем посредством межъязыкового сопоставления слов и фонем». Статистический язык и обработка речи . Конспекты лекций по информатике. Том. 7978. стр. 260–272. дои : 10.1007/978-3-642-39593-2_23 . ISBN  978-3-642-39592-5 . ISSN   0302-9743 .
  5. ^ Верзола, Ивано; Донати, Алессандро; Мартинес, Хосе; Шуберт, Матиас; Сомоди, Ласло (2016). «Проект Сивилла: новая система обнаружения для пилотируемых космических полетов». «Космические операции Конференция 2016» . дои : 10.2514/6.2016-2405 . ISBN  978-1-62410-426-8 .
  6. ^ Адхам, Манал Т.; Бентли, Питер Дж. (2016). «Оценка методов кластеризации в рамках алгоритма искусственной экосистемы и их применение для перераспределения велосипедов в Лондоне». Биосистемы . 146 : 43–59. doi : 10.1016/j.biosystems.2016.04.008 . ISSN   0303-2647 . ПМИД   27178785 .
  7. ^ Мудро, Майкл; Херсон, Али; Сарвестани, Сахра Седиг (2015). «Расширяемая среда моделирования для оценки алгоритмов централизованного прогнозирования трафика». Международная конференция и выставка подключенных транспортных средств 2015 (ICCVE) . стр. 391–396. дои : 10.1109/ICCVE.2015.86 . ISBN  978-1-5090-0264-1 . S2CID   1297145 .
  8. ^ Кригель, Ханс-Петер ; Шуберт, Эрих; Зимек, Артур (2016). «(Черное) искусство оценки времени выполнения: сравниваем ли мы алгоритмы или реализации?». Знания и информационные системы . 52 (2): 341–378. дои : 10.1007/s10115-016-1004-2 . ISSN   0219-1377 . S2CID   40772241 .
  9. ^ «ДБИДы» . Домашняя страница ЭЛКИ . Проверено 13 декабря 2016 г.
  10. ^ Перейти обратно: а б Эльке Ахтерт, Ахмед Хеттаб, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2011). Обнаружение пространственных выбросов: данные, алгоритмы, визуализации . 12-й Международный симпозиум по пространственным и временным базам данных (SSTD 2011). Миннеаполис, Миннесота: Спрингер. дои : 10.1007/978-3-642-22922-0_41 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  11. ^ отрывок из «Алгоритмы интеллектуального анализа данных в ELKI» . Проверено 17 октября 2019 г.
  12. ^ Эльке Ахтерт, Ханс-Петер Кригель , Артур Зимек (2008). ELKI: Система программного обеспечения для оценки алгоритмов подпространственной кластеризации (PDF) . Материалы 20-й международной конференции по управлению научными и статистическими базами данных (SSDBM 08). Гонконг, Китай: Спрингер. дои : 10.1007/978-3-540-69497-7_41 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  13. ^ Эльке Ахтерт, Томас Бернекер, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2009). ELKI во времени: ELKI 0.2 для оценки эффективности измерений расстояния для временных рядов (PDF) . Материалы 11-го Международного симпозиума по достижениям в области пространственных и временных баз данных (SSTD, 2010). Ольборг, Дания: Springer. дои : 10.1007/978-3-642-02982-0_35 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Эльке Ахтерт, Ханс-Петер Кригель , Лиза Райхерт, Эрих Шуберт, Ремигиус Войдановский, Артур Зимек (2010). Визуальная оценка моделей обнаружения выбросов . 15-я Международная конференция по системам баз данных для передовых приложений (DASFAA 2010). Цукуба, Япония: Springer. дои : 10.1007/978-3-642-12098-5_34 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  15. ^ Эльке Ахтерт, Саша Гольдхофер, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2012). Оценка метрик кластеризации и визуальная поддержка . 28-я Международная конференция по инженерии данных (ICDE). Вашингтон, округ Колумбия. дои : 10.1109/ICDE.2012.128 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  16. ^ Эльке Ахтерт, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2013). Интерактивный интеллектуальный анализ данных с помощью 3D-деревьев параллельных координат . Материалы Международной конференции ACM по управлению данными ( SIGMOD ). Нью-Йорк, штат Нью-Йорк. дои : 10.1145/2463676.2463696 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  17. ^ Эрих Шуберт; Александр Коос; Тобиас Эмрих; Андреас Цюфле; Клаус Артур Шмид; Артур Зимек (2015). «Схема кластеризации неопределенных данных» (PDF) . Труды Фонда VLDB . 8 (12): 1976–1987. дои : 10.14778/2824032.2824115 .
  18. ^ Шуберт, Эрих; Зимек, Артур (10 февраля 2019 г.). «ELKI: Большая библиотека с открытым исходным кодом для анализа данных — ELKI Release 0.7.5 «Heidelberg» ». arXiv : 1902.03616 [ cs.LG ].
  19. ^ Шуберт, Эрих (2022). Автоматическое индексирование для поиска по сходству в ELKI . Поиск по сходству и его применение. стр. 205–213. дои : 10.1007/978-3-031-17849-8_16 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: A3791FC59B6908D0A68FB390D07D57D1__1718978700
URL1:https://en.wikipedia.org/wiki/ELKI
Заголовок, (Title) документа по адресу, URL1:
ELKI - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)