Детерминированный шум
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
В (контролируемом) машинном обучении , особенно при обучении на основе данных, возникают ситуации, когда значения данных невозможно смоделировать. Это может возникнуть, если в данных присутствуют случайные флуктуации или ошибки измерений, которые не моделируются, и их можно правильно назвать стохастическим шумом ; или когда моделируемое (или изучаемое) явление слишком сложное, и поэтому данные содержат дополнительную сложность, которая не моделируется. Эта дополнительная сложность данных была названа детерминированным шумом . [1] Хотя эти два типа шума возникают по разным причинам, их негативное влияние на обучение одинаково. Переобучение происходит потому, что модель пытается подогнать (стохастический или детерминированный) шум (ту часть данных, которую она не может моделировать) за счет подгонки той части данных, которую она может моделировать. При наличии любого типа шума обычно рекомендуется регуляризировать алгоритм обучения, чтобы предотвратить переподгонку модели к данным и снижение производительности. Регуляризация обычно приводит к модели с меньшей дисперсией за счет систематической ошибки .
Можно также попытаться смягчить воздействие шума, обнаруживая и удаляя зашумленные обучающие примеры перед обучением алгоритма обучения с учителем. Существует несколько алгоритмов, которые идентифицируют зашумленные примеры обучения, и удаление подозрительных зашумленных примеров обучения перед обучением обычно улучшает производительность. [2] [3]
Ссылки [ править ]
- ^ Ясер С.Абу-Мостафа; Малик Магдон-Исмаил; Сюань-Тянь Линь (март 2012 г.). Обучение на данных . амлбук.
- ^ CE Brodely и MA Friedl (1999). Выявление и устранение неправильно помеченных примеров обучения, Журнал исследований искусственного интеллекта 11, 131–167. ( http://jair.org/media/606/live-606-1803-jair.pdf. Архивировано 12 мая 2016 г. в Wayback Machine )
- ^ г-н Смит; Т. Мартинес (2011). «Повышение точности классификации путем выявления и удаления экземпляров, которые следует неправильно классифицировать». Материалы Международной совместной конференции по нейронным сетям (IJCNN, 2011) . стр. 2690–2697. CiteSeerX 10.1.1.221.1371 . дои : 10.1109/IJCNN.2011.6033571 .