Двойной спуск
В статистике и машинном обучении — это двойной спуск явление, при котором статистическая модель с небольшим количеством параметров и модель с чрезвычайно большим количеством параметров имеют небольшую ошибку, но модель, количество параметров которой примерно равно числу точек данных, используемых для обучения модели, будут иметь большую ошибку. [2]
История
[ редактировать ]Ранние наблюдения двойного спуска в конкретных моделях относятся к 1989 году. [3] [4] в то время как феномен двойного спуска как более широкая концепция, разделяемая многими моделями, приобрел популярность примерно в 2019 году. [5] [6] [7] Последнее развитие событий было вызвано очевидным противоречием между общепринятым мнением о том, что слишком большое количество параметров в модели приводит к значительной ошибке (экстраполяция компромисса между смещением и дисперсией ), [8] и эмпирические наблюдения 2010-х годов о том, что некоторые современные модели машинного обучения имеют тенденцию работать лучше с более крупными моделями. [6] [9]
Теоретические модели
[ редактировать ][10] показывает, что двойной спуск происходит в линейной регрессии с изотропными гауссовыми ковариатами и изотропным гауссовским шумом.
Модель двойного спуска на термодинамическом пределе проанализирована методом реплик и результат подтвержден численно. [11]
Эмпирические примеры
[ редактировать ]Было обнаружено, что масштабирующее поведение двойного спуска подчиняется нарушенному закону нейронного масштабирования. [12] функциональная форма.
Ссылки
[ редактировать ]- ^ Шеффер, Райлан; Хона, Микаил; Робертсон, Закари; Бупатия, Ахилан; Пистунова, Катерина; Рокс, Джейсон В.; Фите, Ила Рани; Коеджо, Олувасанми (24 марта 2023 г.). «Разоблачение двойного происхождения: выявление, интерпретация и устранение источников загадки глубокого обучения». arXiv : 2303.14151v1 [ cs.LG ].
- ^ «Глубокий двойной спуск» . ОпенАИ . 05.12.2019 . Проверено 12 августа 2022 г.
- ^ Валлет, Ф.; Кейлтон, Дж.-Г.; Рефрегье, доктор философии (июнь 1989 г.). «Линейное и нелинейное расширение псевдообратного решения для изучения булевых функций» . Письма по еврофизике . 9 (4): 315. Бибкод : 1989EL......9..315В . дои : 10.1209/0295-5075/9/4/003 . ISSN 0295-5075 .
- ^ Луг, Марко; Виринг, Том; Мэй, Александр; Крийт, Джесси Х.; Налог, Дэвид М.Дж. (19 мая 2020 г.). «Краткая предыстория двойного происхождения» . Труды Национальной академии наук . 117 (20): 10625–10626. arXiv : 2004.04328 . Бибкод : 2020PNAS..11710625L . дои : 10.1073/pnas.2001875117 . ISSN 0027-8424 . ПМЦ 7245109 . ПМИД 32371495 .
- ^ Спиглер, Стефано; Гейгер, Марио; д'Асколи, Стефан; Сагун, Левент; Бироли, Джулио; Вайарт, Матье (22 ноября 2019 г.). «Затормаживающий переход от недостаточной параметризации к чрезмерной влияет на картину потерь и обобщение» . Физический журнал A: Математический и теоретический . 52 (47): 474001. arXiv : 1810.09665 . дои : 10.1088/1751-8121/ab4c8b . ISSN 1751-8113 .
- ^ Jump up to: а б Белкин Михаил; Сюй, Дэниел; Ма, Сиюань; Мандал, Сумик (06 августа 2019 г.). «Сочетание современной практики машинного обучения и компромисса между смещением и отклонением» . Труды Национальной академии наук . 116 (32): 15849–15854. arXiv : 1812.11118 . дои : 10.1073/pnas.1903070116 . ISSN 0027-8424 . ПМК 6689936 . ПМИД 31341078 .
- ^ Виринг, Том; Луг, Марко (01 июня 2023 г.). «Форма кривых обучения: обзор» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (6): 7799–7819. arXiv : 2103.10948 . дои : 10.1109/TPAMI.2022.3220744 . ISSN 0162-8828 . ПМИД 36350870 .
- ^ Эрик (10 января 2023 г.). «Компромисс смещения и дисперсии не является статистической концепцией» . Эрик Дж. Ван . Проверено 5 января 2024 г.
- ^ Притум Наккиран; Галь Каплун; Ямини Бансал; Тристан Янг; Боаз Барак; Илья Суцкевер (29 декабря 2021 г.). «Глубокий двойной спуск: где вредят более крупные модели и больше данных». Журнал статистической механики: теория и эксперимент . 2021 (12). IOP Publishing Ltd и SISSA Medialab srl: 124003. arXiv : 1912.02292 . Бибкод : 2021JSMTE2021l4003N . дои : 10.1088/1742-5468/ac3a74 . S2CID 207808916 .
- ^ Наккиран, Притум (16 декабря 2019 г.). «Больше данных может повредить линейной регрессии: двойной спуск по выборке». arXiv : 1912.07242v1 [ stat.ML ].
- ^ Адвани, Мадху С.; Сакс, Эндрю М.; Сомполинский, Хаим (01 декабря 2020 г.). «Многомерная динамика ошибок обобщения в нейронных сетях» . Нейронные сети . 132 : 428–446. doi : 10.1016/j.neunet.2020.08.022 . ISSN 0893-6080 . ПМЦ 7685244 . ПМИД 33022471 .
- ^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования» . Международная конференция по обучению представлениям (ICLR), 2023 г.
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Дальнейшее чтение
[ редактировать ]- Михаил Белкин; Дэниел Сюй; Цзи Сюй (2020). «Две модели двойного спуска для слабых функций» . SIAM Journal по математике и науке о данных . 2 (4): 1167–1180. arXiv : 1903.07571 . дои : 10.1137/20M1336072 .
- Маунт, Джон (3 апреля 2024 г.). «Аномалия машинного обучения m = n» .
- Притум Наккиран; Галь Каплун; Ямини Бансал; Тристан Янг; Боаз Барак; Илья Суцкевер (29 декабря 2021 г.). «Глубокий двойной спуск: где вредят более крупные модели и больше данных». Журнал статистической механики: теория и эксперимент . 2021 (12). IOP Publishing Ltd и SISSA Medialab srl: 124003. arXiv : 1912.02292 . Бибкод : 2021JSMTE2021l4003N . дои : 10.1088/1742-5468/ac3a74 . S2CID 207808916 .
- Сон Мэй; Андреа Монтанари (апрель 2022 г.). «Ошибка обобщения регрессии случайных признаков: точная асимптотика и кривая двойного спуска». Сообщения по чистой и прикладной математике . 75 (4): 667–766. arXiv : 1908.05355 . дои : 10.1002/cpa.22008 . S2CID 199668852 .
- Сянъюй Чанг; Инцун Ли; Самет Оймак; Христос Трампулидис (2021). «Доказуемые преимущества чрезмерной параметризации при сжатии моделей: от двойного спуска к сокращению нейронных сетей». Материалы конференции AAAI по искусственному интеллекту . 35 (8). arXiv : 2012.08749 .
Внешние ссылки
[ редактировать ]- Брент Вернесс; Джаред Уилбер. «Двойной спуск: Часть 1: Визуальное введение» .
- Брент Вернесс; Джаред Уилбер. «Двойное спуск: Часть 2: Математическое объяснение» .
- Понимание «Глубокого двойного спуска» на evhub.