Jump to content

Двойной спуск

(Перенаправлено с порога интерполяции )
Пример явления двойного спуска в двухслойной нейронной сети: при увеличении отношения параметров к точкам данных ошибка теста сначала падает, затем возрастает, а затем снова падает. [1] Вертикальная линия отмечает границу между недостаточно параметризованным режимом (больше точек данных, чем параметров) и сверхпараметризованным режимом (больше параметров, чем точек данных).

В статистике и машинном обучении — это двойной спуск явление, при котором статистическая модель с небольшим количеством параметров и модель с чрезвычайно большим количеством параметров имеют небольшую ошибку, но модель, количество параметров которой примерно равно числу точек данных, используемых для обучения модели, будут иметь большую ошибку. [2]

Ранние наблюдения двойного спуска в конкретных моделях относятся к 1989 году. [3] [4] в то время как феномен двойного спуска как более широкая концепция, разделяемая многими моделями, приобрел популярность примерно в 2019 году. [5] [6] [7] Последнее развитие событий было вызвано очевидным противоречием между общепринятым мнением о том, что слишком большое количество параметров в модели приводит к значительной ошибке (экстраполяция компромисса между смещением и дисперсией ), [8] и эмпирические наблюдения 2010-х годов о том, что некоторые современные модели машинного обучения имеют тенденцию работать лучше с более крупными моделями. [6] [9]

Теоретические модели

[ редактировать ]

[10] показывает, что двойной спуск происходит в линейной регрессии с изотропными гауссовыми ковариатами и изотропным гауссовским шумом.

Модель двойного спуска на термодинамическом пределе проанализирована методом реплик и результат подтвержден численно. [11]

Эмпирические примеры

[ редактировать ]

Было обнаружено, что масштабирующее поведение двойного спуска подчиняется нарушенному закону нейронного масштабирования. [12] функциональная форма.

  1. ^ Шеффер, Райлан; Хона, Микаил; Робертсон, Закари; Бупатия, Ахилан; Пистунова, Катерина; Рокс, Джейсон В.; Фите, Ила Рани; Коеджо, Олувасанми (24 марта 2023 г.). «Разоблачение двойного происхождения: выявление, интерпретация и устранение источников загадки глубокого обучения». arXiv : 2303.14151v1 [ cs.LG ].
  2. ^ «Глубокий двойной спуск» . ОпенАИ . 05.12.2019 . Проверено 12 августа 2022 г.
  3. ^ Валлет, Ф.; Кейлтон, Дж.-Г.; Рефрегье, доктор философии (июнь 1989 г.). «Линейное и нелинейное расширение псевдообратного решения для изучения булевых функций» . Письма по еврофизике . 9 (4): 315. Бибкод : 1989EL......9..315В . дои : 10.1209/0295-5075/9/4/003 . ISSN   0295-5075 .
  4. ^ Луг, Марко; Виринг, Том; Мэй, Александр; Крийт, Джесси Х.; Налог, Дэвид М.Дж. (19 мая 2020 г.). «Краткая предыстория двойного происхождения» . Труды Национальной академии наук . 117 (20): 10625–10626. arXiv : 2004.04328 . Бибкод : 2020PNAS..11710625L . дои : 10.1073/pnas.2001875117 . ISSN   0027-8424 . ПМЦ   7245109 . ПМИД   32371495 .
  5. ^ Спиглер, Стефано; Гейгер, Марио; д'Асколи, Стефан; Сагун, Левент; Бироли, Джулио; Вайарт, Матье (22 ноября 2019 г.). «Затормаживающий переход от недостаточной параметризации к чрезмерной влияет на картину потерь и обобщение» . Физический журнал A: Математический и теоретический . 52 (47): 474001. arXiv : 1810.09665 . дои : 10.1088/1751-8121/ab4c8b . ISSN   1751-8113 .
  6. ^ Jump up to: а б Белкин Михаил; Сюй, Дэниел; Ма, Сиюань; Мандал, Сумик (06 августа 2019 г.). «Сочетание современной практики машинного обучения и компромисса между смещением и отклонением» . Труды Национальной академии наук . 116 (32): 15849–15854. arXiv : 1812.11118 . дои : 10.1073/pnas.1903070116 . ISSN   0027-8424 . ПМК   6689936 . ПМИД   31341078 .
  7. ^ Виринг, Том; Луг, Марко (01 июня 2023 г.). «Форма кривых обучения: обзор» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (6): 7799–7819. arXiv : 2103.10948 . дои : 10.1109/TPAMI.2022.3220744 . ISSN   0162-8828 . ПМИД   36350870 .
  8. ^ Эрик (10 января 2023 г.). «Компромисс смещения и дисперсии не является статистической концепцией» . Эрик Дж. Ван . Проверено 5 января 2024 г.
  9. ^ Притум Наккиран; Галь Каплун; Ямини Бансал; Тристан Янг; Боаз Барак; Илья Суцкевер (29 декабря 2021 г.). «Глубокий двойной спуск: где вредят более крупные модели и больше данных». Журнал статистической механики: теория и эксперимент . 2021 (12). IOP Publishing Ltd и SISSA Medialab srl: 124003. arXiv : 1912.02292 . Бибкод : 2021JSMTE2021l4003N . дои : 10.1088/1742-5468/ac3a74 . S2CID   207808916 .
  10. ^ Наккиран, Притум (16 декабря 2019 г.). «Больше данных может повредить линейной регрессии: двойной спуск по выборке». arXiv : 1912.07242v1 [ stat.ML ].
  11. ^ Адвани, Мадху С.; Сакс, Эндрю М.; Сомполинский, Хаим (01 декабря 2020 г.). «Многомерная динамика ошибок обобщения в нейронных сетях» . Нейронные сети . 132 : 428–446. doi : 10.1016/j.neunet.2020.08.022 . ISSN   0893-6080 . ПМЦ   7685244 . ПМИД   33022471 .
  12. ^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования» . Международная конференция по обучению представлениям (ICLR), 2023 г.

Дальнейшее чтение

[ редактировать ]
[ редактировать ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3abd773309468bded565d4a02a2ec356__1720395720
URL1:https://arc.ask3.ru/arc/aa/3a/56/3abd773309468bded565d4a02a2ec356.html
Заголовок, (Title) документа по адресу, URL1:
Double descent - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)