Выбор экземпляра
Эту статью может потребовать очистки Википедии , чтобы она соответствовала стандартам качества . Конкретная проблема заключается в следующем: статьи должны быть связаны с другими статьями в WP. ( Март 2017 г. ) |
Выбор экземпляра (или сокращение набора данных, или сжатие набора данных) — это важный этап предварительной обработки данных , который можно применять во многих задачах машинного обучения (или интеллектуального анализа данных ). [1] Подходы, например, отбора экземпляров, могут применяться для сокращения исходного набора данных до управляемого объема, что приводит к сокращению вычислительных ресурсов, необходимых для выполнения процесса обучения. Алгоритмы выбора экземпляров также могут применяться для удаления зашумленных экземпляров перед применением алгоритмов обучения. Этот шаг может повысить точность задач классификации.
Например, алгоритм выбора экземпляра должен идентифицировать подмножество всех доступных данных для достижения первоначальной цели приложения интеллектуального анализа данных (или машинного обучения), как если бы были использованы все данные. Учитывая это, оптимальным результатом ИС будет минимальное подмножество данных, которое может выполнить ту же задачу без потери производительности по сравнению с производительностью, достигаемой при выполнении задачи с использованием всех доступных данных. Следовательно, каждая стратегия выбора экземпляра должна учитывать компромисс между скоростью сокращения набора данных и качеством классификации.
Алгоритмы выбора экземпляра
[ редактировать ]В литературе представлено несколько различных алгоритмов выбора экземпляра. Их можно отличить друг от друга по нескольким различным критериям. Учитывая это, алгоритмы выбора экземпляров можно сгруппировать в два основных класса в зависимости от того, какие экземпляры они выбирают: алгоритмы, сохраняющие экземпляры на границах классов, и алгоритмы, сохраняющие внутренние экземпляры классов. К категории алгоритмов, отбирающих экземпляры на границах, можно отнести DROP3, [2] МКФ [3] и ЛСБо. [4] С другой стороны, в категории алгоритмов, отбирающих внутренние экземпляры, можно упомянуть ENN. [5] и ЛССм. [4] Обычно такие алгоритмы, как ENN и LSSm, используются для удаления вредных (шумных) экземпляров из набора данных. Они не сокращают данные, как алгоритмы, выбирающие пограничные экземпляры, но удаляют экземпляры на границах, которые негативно влияют на задачу интеллектуального анализа данных. Они могут использоваться другими алгоритмами выбора экземпляров в качестве этапа фильтрации. Например, алгоритм ENN используется DROP3 в качестве первого шага, а алгоритм LSSm — LSBo.
Существует также другая группа алгоритмов, использующих другие критерии выбора. Например, алгоритмы LDIS, [6] CDIS [7] и XLDIS [8] выберите самые плотные экземпляры в данной произвольной окрестности. Выбранные экземпляры могут включать как пограничные, так и внутренние экземпляры. Алгоритмы LDIS и CDIS очень просты и выбирают подмножества, которые очень репрезентативны для исходного набора данных. Кроме того, поскольку они выполняют поиск по репрезентативным экземплярам в каждом классе отдельно, они быстрее (с точки зрения временной сложности и эффективного времени работы), чем другие алгоритмы, такие как DROP3 и ICF.
Кроме того, существует третья категория алгоритмов, которые вместо выбора реальных экземпляров набора данных выбирают прототипы (которые могут быть синтетическими экземплярами). В эту категорию можно включить PSSA, [9] PSDSP [10] и ПССП. [11] В трех алгоритмах используется понятие пространственного разделения (гиперпрямоугольника) для идентификации похожих экземпляров и извлечения прототипов для каждого набора похожих экземпляров. В общем, эти подходы также можно модифицировать для выбора реальных экземпляров наборов данных. Алгоритм ИСДСП [11] использует аналогичный подход для выбора реальных экземпляров (вместо прототипов).
Ссылки
[ редактировать ]- ^ С. Гарсия, Х. Луенго и Ф. Эррера, Предварительная обработка данных при интеллектуальном анализе данных. Спрингер, 2015.
- ^ Д. Р. Уилсон и Т. Р. Мартинес, Методы сокращения для алгоритмов обучения на основе экземпляров, Машинное обучение, том. 38, нет. 3, стр. 257–286, 2000.
- ^ Х. Брайтон и К. Меллиш, Достижения в выборе экземпляров для алгоритмов обучения на основе экземпляров, Интеллектуальный анализ данных и обнаружение знаний, том. 6, нет. 2, стр. 153–172, 2002.
- ^ Перейти обратно: а б Э. Лейва, А. Гонсалес и Р. Перес, Три новых метода выбора экземпляров на основе локальных наборов: сравнительное исследование с несколькими подходами с двухобъектной точки зрения, Распознавание образов, том. 48, нет. 4, стр. 1523–1537, 2015.
- ^ Д.Л. Уилсон, «Асимптотические свойства правил ближайшего соседа с использованием отредактированных данных», «Системы, человек и кибернетика», IEEE Transactions on, no. 3, стр. 408–421, 1972.
- ^ Карбонера, Джоэл Луис и Мара Абель. Подход, основанный на плотности, например, выбор экземпляра. 27-я Международная конференция IEEE по инструментам с искусственным интеллектом (ICTAI), 2015 г.
- ^ Карбонера, Джоэл Луис и Мара Абель. Новый подход, основанный на плотности отбора экземпляров. 28-я Международная конференция IEEE по инструментам с искусственным интеллектом (ICTAI), 2016 г.
- ^ Карбонера, Джоэл Луис (2017), «Эффективный подход к выбору экземпляров», Аналитика больших данных и обнаружение знаний , Конспекты лекций по информатике, том. 10440, Springer International Publishing, стр. 228–243, номер doi : 10.1007/978-3-319-64283-3_17 , ISBN. 9783319642826
- ^ Карбонера, Джоэл Луис; Абель, Мара (2018), «Эффективный алгоритм выбора прототипа, основанный на пространственной абстракции», Аналитика больших данных и обнаружение знаний , Springer International Publishing, стр. 177–192, doi : 10.1007/978-3-319-98539-8_14 , ISBN 9783319985381
- ^ Карбонера, Джоэл Луис; Абель, Мара (2018), «Эффективный алгоритм выбора прототипа на основе плотных пространственных разделов», Искусственный интеллект и мягкие вычисления , Springer International Publishing, стр. 288–300, doi : 10.1007/978-3-319-91262-2_26 , ISBN 9783319912615
- ^ Перейти обратно: а б Карбонера, Джоэл Луис; Абель, Мара (ноябрь 2017 г.). «Эффективный выбор прототипа, поддерживаемый подпространственными разделами». 29-я Международная конференция IEEE по инструментам с искусственным интеллектом (ICTAI) , 2017 г. IEEE. стр. 921–928. дои : 10.1109/ictai.2017.00142 . ISBN 9781538638767 . S2CID 46955571 .