Jump to content

Выбор экземпляра

Выбор экземпляра (или сокращение набора данных, или сжатие набора данных) — это важный этап предварительной обработки данных , который можно применять во многих задачах машинного обучения (или интеллектуального анализа данных ). [1] Подходы, например, отбора экземпляров, могут применяться для сокращения исходного набора данных до управляемого объема, что приводит к сокращению вычислительных ресурсов, необходимых для выполнения процесса обучения. Алгоритмы выбора экземпляров также могут применяться для удаления зашумленных экземпляров перед применением алгоритмов обучения. Этот шаг может повысить точность задач классификации.

Например, алгоритм выбора экземпляра должен идентифицировать подмножество всех доступных данных для достижения первоначальной цели приложения интеллектуального анализа данных (или машинного обучения), как если бы были использованы все данные. Учитывая это, оптимальным результатом ИС будет минимальное подмножество данных, которое может выполнить ту же задачу без потери производительности по сравнению с производительностью, достигаемой при выполнении задачи с использованием всех доступных данных. Следовательно, каждая стратегия выбора экземпляра должна учитывать компромисс между скоростью сокращения набора данных и качеством классификации.

Алгоритмы выбора экземпляра

[ редактировать ]

В литературе представлено несколько различных алгоритмов выбора экземпляра. Их можно отличить друг от друга по нескольким различным критериям. Учитывая это, алгоритмы выбора экземпляров можно сгруппировать в два основных класса в зависимости от того, какие экземпляры они выбирают: алгоритмы, сохраняющие экземпляры на границах классов, и алгоритмы, сохраняющие внутренние экземпляры классов. К категории алгоритмов, отбирающих экземпляры на границах, можно отнести DROP3, [2] МКФ [3] и ЛСБо. [4] С другой стороны, в категории алгоритмов, отбирающих внутренние экземпляры, можно упомянуть ENN. [5] и ЛССм. [4] Обычно такие алгоритмы, как ENN и LSSm, используются для удаления вредных (шумных) экземпляров из набора данных. Они не сокращают данные, как алгоритмы, выбирающие пограничные экземпляры, но удаляют экземпляры на границах, которые негативно влияют на задачу интеллектуального анализа данных. Они могут использоваться другими алгоритмами выбора экземпляров в качестве этапа фильтрации. Например, алгоритм ENN используется DROP3 в качестве первого шага, а алгоритм LSSm — LSBo.

Существует также другая группа алгоритмов, использующих другие критерии выбора. Например, алгоритмы LDIS, [6] CDIS [7] и XLDIS [8] выберите самые плотные экземпляры в данной произвольной окрестности. Выбранные экземпляры могут включать как пограничные, так и внутренние экземпляры. Алгоритмы LDIS и CDIS очень просты и выбирают подмножества, которые очень репрезентативны для исходного набора данных. Кроме того, поскольку они выполняют поиск по репрезентативным экземплярам в каждом классе отдельно, они быстрее (с точки зрения временной сложности и эффективного времени работы), чем другие алгоритмы, такие как DROP3 и ICF.

Кроме того, существует третья категория алгоритмов, которые вместо выбора реальных экземпляров набора данных выбирают прототипы (которые могут быть синтетическими экземплярами). В эту категорию можно включить PSSA, [9] PSDSP [10] и ПССП. [11] В трех алгоритмах используется понятие пространственного разделения (гиперпрямоугольника) для идентификации похожих экземпляров и извлечения прототипов для каждого набора похожих экземпляров. В общем, эти подходы также можно модифицировать для выбора реальных экземпляров наборов данных. Алгоритм ИСДСП [11] использует аналогичный подход для выбора реальных экземпляров (вместо прототипов).

  1. ^ С. Гарсия, Х. Луенго и Ф. Эррера, Предварительная обработка данных при интеллектуальном анализе данных. Спрингер, 2015.
  2. ^ Д. Р. Уилсон и Т. Р. Мартинес, Методы сокращения для алгоритмов обучения на основе экземпляров, Машинное обучение, том. 38, нет. 3, стр. 257–286, 2000.
  3. ^ Х. Брайтон и К. Меллиш, Достижения в выборе экземпляров для алгоритмов обучения на основе экземпляров, Интеллектуальный анализ данных и обнаружение знаний, том. 6, нет. 2, стр. 153–172, 2002.
  4. ^ Перейти обратно: а б Э. Лейва, А. Гонсалес и Р. Перес, Три новых метода выбора экземпляров на основе локальных наборов: сравнительное исследование с несколькими подходами с двухобъектной точки зрения, Распознавание образов, том. 48, нет. 4, стр. 1523–1537, 2015.
  5. ^ Д.Л. Уилсон, «Асимптотические свойства правил ближайшего соседа с использованием отредактированных данных», «Системы, человек и кибернетика», IEEE Transactions on, no. 3, стр. 408–421, 1972.
  6. ^ Карбонера, Джоэл Луис и Мара Абель. Подход, основанный на плотности, например, выбор экземпляра. 27-я Международная конференция IEEE по инструментам с искусственным интеллектом (ICTAI), 2015 г.
  7. ^ Карбонера, Джоэл Луис и Мара Абель. Новый подход, основанный на плотности отбора экземпляров. 28-я Международная конференция IEEE по инструментам с искусственным интеллектом (ICTAI), 2016 г.
  8. ^ Карбонера, Джоэл Луис (2017), «Эффективный подход к выбору экземпляров», Аналитика больших данных и обнаружение знаний , Конспекты лекций по информатике, том. 10440, Springer International Publishing, стр. 228–243, номер doi : 10.1007/978-3-319-64283-3_17 , ISBN.  9783319642826
  9. ^ Карбонера, Джоэл Луис; Абель, Мара (2018), «Эффективный алгоритм выбора прототипа, основанный на пространственной абстракции», Аналитика больших данных и обнаружение знаний , Springer International Publishing, стр. 177–192, doi : 10.1007/978-3-319-98539-8_14 , ISBN  9783319985381
  10. ^ Карбонера, Джоэл Луис; Абель, Мара (2018), «Эффективный алгоритм выбора прототипа на основе плотных пространственных разделов», Искусственный интеллект и мягкие вычисления , Springer International Publishing, стр. 288–300, doi : 10.1007/978-3-319-91262-2_26 , ISBN  9783319912615
  11. ^ Перейти обратно: а б Карбонера, Джоэл Луис; Абель, Мара (ноябрь 2017 г.). «Эффективный выбор прототипа, поддерживаемый подпространственными разделами». 29-я Международная конференция IEEE по инструментам с искусственным интеллектом (ICTAI) , 2017 г. IEEE. стр. 921–928. дои : 10.1109/ictai.2017.00142 . ISBN  9781538638767 . S2CID   46955571 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: afba4b8a7f7e32f3aafaca263b78b654__1689981600
URL1:https://arc.ask3.ru/arc/aa/af/54/afba4b8a7f7e32f3aafaca263b78b654.html
Заголовок, (Title) документа по адресу, URL1:
Instance selection - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)