Подгонка кривой
Подгонка кривой [1] [2] это процесс построения кривой или математической функции , которая лучше всего соответствует ряду точек данных , [3] возможно, с учетом ограничений. [4] [5] Аппроксимация кривой может включать в себя либо интерполяцию , либо [6] [7] где требуется точное соответствие данным или сглаживание , [8] [9] в котором строится «гладкая» функция, приблизительно соответствующая данным. Связанная тема — регрессионный анализ . [10] [11] который больше фокусируется на вопросах статистического вывода, таких как степень неопределенности в кривой, которая соответствует данным, наблюдаемым со случайными ошибками. Встроенные кривые можно использовать в качестве вспомогательного средства для визуализации данных. [12] [13] вывести значения функции при отсутствии данных, [14] и суммировать отношения между двумя или более переменными. [15] Экстраполяция означает использование подобранной кривой за пределами диапазона наблюдаемых данных. [16] и подвержен определенной степени неопределенности [17] поскольку он может отражать метод, использованный для построения кривой, в такой же степени, как и наблюдаемые данные.
Для линейно-алгебраического анализа данных «подгонка» обычно означает попытку найти кривую, которая минимизирует вертикальное ( ось Y ) смещение точки от кривой (например, обычный метод наименьших квадратов ). Однако для графических приложений и изображений геометрическая подгонка стремится обеспечить наилучшее визуальное соответствие; что обычно означает попытку минимизировать ортогональное расстояние до кривой (например, общее число наименьших квадратов ) или иным образом включить обе оси смещения точки от кривой. Геометрические подгонки не пользуются популярностью, поскольку обычно требуют нелинейных и/или итеративных расчетов, хотя их преимущество заключается в более эстетичном и геометрически точном результате. [18] [19] [20]
Алгебраическая подгонка функций к точкам данных [ править ]
Чаще всего подходит функция вида y = f ( x ) .
Подгонка линий и полиномиальных функций к точкам данных [ править ]
первой степени Полиномиальное уравнение
представляет собой линию с наклоном a . Линия соединит любые две точки, поэтому полиномиальное уравнение первой степени точно соответствует любым двум точкам с различными координатами x.
Если порядок уравнения увеличить до полинома второй степени, получим следующие результаты:
Это точно соответствует простой кривой трем точкам.
Если повысить порядок уравнения до полинома третьей степени, получится следующее:
Это будет ровно соответствовать четырем точкам.
Более общим утверждением было бы сказать, что оно точно соответствует четырем ограничениям . Каждое ограничение может быть точкой, углом или кривизной (которая является обратной величиной радиуса соприкасающейся окружности ). Ограничения угла и кривизны чаще всего добавляются к концам кривой и в таких случаях называются конечными условиями . Идентичные конечные условия часто используются для обеспечения плавного перехода между полиномиальными кривыми, содержащимися в одном сплайне . Также можно добавить ограничения более высокого порядка, такие как «изменение скорости кривизны». Это, например, было бы полезно при проектировании клеверного листа на шоссе , чтобы понять скорость изменения сил, приложенных к автомобилю (см. Рывок ), когда он следует за клеверным листом, и соответственно установить разумные ограничения скорости.
Полиномиальное уравнение первой степени также может точно соответствовать одной точке и углу, в то время как полиномиальное уравнение третьей степени также может точно соответствовать двум точкам, ограничению угла и ограничению кривизны. Для этих и полиномиальных уравнений более высокого порядка возможны многие другие комбинации ограничений.
Если существует более n + 1 ограничений ( n — степень полинома), полиномиальную кривую все равно можно пройти через эти ограничения. Точное соответствие всем ограничениям не является гарантированным (но может произойти, например, в случае, когда полином первой степени точно соответствует трем коллинеарным точкам ). Однако в целом для оценки каждого приближения необходим какой-то метод. Метод наименьших квадратов — один из способов сравнения отклонений.
Есть несколько причин получить приблизительное соответствие, когда можно просто увеличить степень полиномиального уравнения и получить точное совпадение:
- Даже если существует точное совпадение, из этого не обязательно следует, что его можно легко обнаружить. В зависимости от используемого алгоритма может возникнуть расходящийся случай, когда точное соответствие невозможно вычислить или поиск решения может занять слишком много компьютерного времени. Эта ситуация может потребовать приблизительного решения.
- Может оказаться желательным эффект усреднения сомнительных точек данных в выборке, а не искажения кривой для точного их соответствия.
- Феномен Рунге : полиномы высокого порядка могут быть сильно колебательными. Если кривая проходит через две точки A и B , можно было бы ожидать, что кривая будет проходить где-то рядом с серединой точек A и B. также Этого может не произойти с полиномиальными кривыми высокого порядка; они могут даже иметь очень большие положительные или отрицательные значения . При использовании полиномов низкого порядка кривая с большей вероятностью будет находиться вблизи средней точки (даже гарантировано, что она точно пройдет через среднюю точку полинома первой степени).
- Полиномы низкого порядка имеют тенденцию быть гладкими, а полиномиальные кривые высокого порядка имеют тенденцию быть «комковатыми». Чтобы определить это более точно, максимальное количество точек перегиба , возможное в полиномиальной кривой, равно n-2 , где n — порядок полиномиального уравнения. Точка перегиба — это место на кривой, где ее радиус меняется с положительного на отрицательный. Мы также можем сказать, что именно здесь происходит переход от «удержания воды» к «пролитию воды». Обратите внимание, что «возможно» только то, что полиномы высокого порядка будут неровными; они также могут быть гладкими, но в этом нет никакой гарантии, в отличие от полиномиальных кривых низкого порядка. Полином пятнадцатой степени может иметь не более тринадцати точек перегиба, но также может иметь одиннадцать, девять или любое нечетное число до одной. (Многочлены четной степени могут иметь любое четное количество точек перегиба от n - 2 до нуля.)
Степень полиномиальной кривой, превышающая необходимую для точного подбора, нежелательна по всем причинам, перечисленным ранее для полиномов высокого порядка, но также приводит к случаю, когда существует бесконечное число решений. Например, полином первой степени (линия), ограниченный только одной точкой вместо обычных двух, даст бесконечное количество решений. Возникает проблема сравнения и выбора только одного решения, что может быть проблемой как для программного обеспечения, так и для людей. По этой причине обычно лучше выбирать как можно более низкую степень для точного соответствия всем ограничениям и, возможно, даже более низкую степень, если приближенное соответствие приемлемо.
Подгонка других функций к точкам данных [ править ]
В некоторых случаях также могут использоваться другие типы кривых, такие как тригонометрические функции (например, синус и косинус).
В спектроскопии данные могут быть аппроксимированы гауссовскими , лоренцианскими , фойгтовскими и соответствующими функциями.
В биологии, экологии, демографии, эпидемиологии и многих других дисциплинах рост населения , распространение инфекционных заболеваний и т. д. можно подогнать с помощью логистической функции .
В сельском хозяйстве обратная логистическая сигмовидная функция (S-кривая) используется для описания связи между урожайностью сельскохозяйственных культур и факторами роста. Синий рисунок получен с помощью сигмовидной регрессии данных, измеренных на сельскохозяйственных землях. Видно, что вначале, т. е. при малом засолении почвы, урожайность сельскохозяйственных культур при увеличении засоления снижается медленно, а в дальнейшем снижение происходит быстрее.
подгонка плоских кривых к данных Геометрическая точкам
Если функция вида нельзя постулировать, все же можно попытаться подогнать плоскую кривую .
другие типы кривых, такие как конические сечения (круговые, эллиптические, параболические и гиперболические дуги) или тригонометрические функции В некоторых случаях также могут использоваться (такие как синус и косинус). Например, траектории объектов под действием силы тяжести следуют параболической траектории, если не учитывать сопротивление воздуха. Следовательно, сопоставление точек данных траектории с параболической кривой имело бы смысл. Приливы следуют синусоидальной схеме, поэтому точки данных о приливах следует сопоставлять с синусоидальной волной или суммой двух синусоидальных волн разных периодов, если учитывать влияние Луны и Солнца.
Для параметрической кривой эффективно подогнать каждую из ее координат как отдельную функцию длины дуги ; предполагая, что точки данных можно упорядочить, расстояние по хорде . можно использовать [22]
Подгонка круга по геометрической подгонке [ править ]
Куп [23] подходит к проблеме поиска наилучшего визуального соответствия круга набору 2D-точек данных. Этот метод элегантно преобразует обычную нелинейную задачу в линейную задачу, которую можно решить без использования итерационных численных методов, и, следовательно, он намного быстрее, чем предыдущие методы.
Подгонка эллипса по геометрической подгонке [ править ]
Описанный выше метод распространяется на общие эллипсы. [24] путем добавления нелинейного шага, в результате чего получается быстрый метод, но при этом находит визуально приятные эллипсы произвольной ориентации и смещения.
Прилегающие поверхности [ править ]
Обратите внимание: хотя это обсуждение касалось двумерных кривых, большая часть этой логики также распространяется и на трехмерные поверхности, каждый участок которых определяется сетью кривых в двух параметрических направлениях, обычно называемых u и v . Поверхность может состоять из одного или нескольких участков поверхности в каждом направлении.
Программное обеспечение [ править ]
Многие статистические пакеты , такие как R , и численное программное обеспечение , такое как gnuplot , GNU Scientific Library , MLAB , Maple , MATLAB , TK Solver 6.0, Scilab , Mathematica , GNU Octave и SciPy, включают команды для аппроксимации кривой в различных сценариях. Существуют также программы, специально написанные для подгонки кривой; их можно найти в списках программ статистического и численного анализа, а также в категории: Программное обеспечение для регрессии и подбора кривых .
См. также [ править ]
- Калибровочная кривая
- Уплотнение по кривой
- Теория оценки
- Аппроксимация функции
- Хорошая посадка
- Генетическое программирование
- Корректировка по методу наименьших квадратов
- Алгоритм Левенберга – Марквардта
- Линия фитинга
- Линейная интерполяция
- Математическая модель
- Мультивыраженное программирование
- Нелинейная регрессия
- Переобучение
- Плоская кривая
- Подбор вероятностного распределения
- Синусоидальная модель
- Сглаживание
- Сплайны ( интерполяция , сглаживание )
- Временной ряд
- Всего наименьших квадратов
- Оценка линейного тренда
Ссылки [ править ]
- ^ Сандра Лах Арлингхаус, Практическое руководство PHB по подбору кривых. ЦРК Пресс, 1994.
- ^ Уильям М. Колб. Аппроксимация кривой для программируемых калькуляторов . Синтек, Инкорпорейтед, 1984 г.
- ^ СС Халли, К.В. Рао. 1992. Передовые методы демографического анализа. ISBN 0306439972 Страница 165 ( см . ... функции выполняются, если мы имеем хорошее или умеренное соответствие наблюдаемым данным.)
- ^ Сигнал и шум: почему так много прогнозов не работают, а некоторые нет. Нейт Сильвер
- ^ Подготовка данных для интеллектуального анализа данных : текст. Дориан Пайл.
- ^ Численные методы в инженерии с MATLAB®. Автор Яан Киусалас. Страница 24.
- ^ Численные методы в инженерии с использованием Python 3 . Автор Яан Киусалас. Страница 21.
- ^ Численные методы подбора кривой . Автор: П. Гест, Филип Джордж Гест. Страница 349.
- ^ См. Также: Моллифер
- ^ Подгонка моделей к биологическим данным с использованием линейной и нелинейной регрессии . Харви Мотульски, Артур Христопулос.
- ^ Регрессионный анализ Рудольфа Дж. Фройнда, Уильяма Дж. Уилсона, Ping Sa. Страница 269.
- ^ Визуальная информатика. Под редакцией Халимы Бадиозе Заман, Питера Робинсона, Марии Петру, Патрика Оливье, Хайко Шредера. Страница 689.
- ^ Численные методы для нелинейных инженерных моделей . Джон Р. Хаузер. Страница 227.
- ^ Методы экспериментальной физики: спектроскопия, том 13, часть 1. Клэр Мартон. Страница 150.
- ^ Энциклопедия дизайна исследований, Том 1. Под редакцией Нила Дж. Салкинда. Страница 266.
- ^ Методы анализа и планирования сообщества . Ричард Э. Клостерман. Страница 1.
- ^ Введение в риск и неопределенность в оценке экологических инвестиций. Издательство ДИАНА. стр. 69
- ^ Ан, Сунг-Джун (декабрь 2008 г.), «Геометрическая подгонка параметрических кривых и поверхностей» (PDF) , Journal of Information Processing Systems , 4 (4): 153–158, doi : 10.3745/JIPS.2008.4.4.153 , заархивировано из оригинал (PDF) от 13 марта 2014 г.
- ^ Чернов Н.; Ма, Х. (2011), «Подбор квадратичных кривых и поверхностей методом наименьших квадратов», в Йошида, Сота Р. (ред.), Computer Vision , Nova Science Publishers, стр. 285–302, ISBN 9781612093994
- ^ Лю, Ян; Ван, Вэньпин (2008), «Возврат к аппроксимации параметрических кривых и поверхностей ортогональным расстоянием наименьших квадратов», в Чен, Ф.; Джаттлер, Б. (ред.), Достижения в области геометрического моделирования и обработки , Конспект лекций по информатике, том. 4975, стр. 384–397, CiteSeerX 10.1.1.306.6085 , doi : 10.1007/978-3-540-79246-8_29 , ISBN 978-3-540-79245-1
- ^ Калькулятор сигмовидной регрессии
- ^ стр.51 в книге Альберга и Нильсона (1967) Теория сплайнов и их приложения , Academic Press, 1967 [1]
- ^ Куп, ID (1993). «Аппроксимация окружности методом линейных и нелинейных наименьших квадратов». Журнал теории оптимизации и приложений . 76 (2): 381–388. дои : 10.1007/BF00939613 . hdl : 10092/11104 . S2CID 59583785 .
- ^ Пол Шир, помощник по программному обеспечению для ручной стереофотометрологии , магистр наук. диссертация, 1997 г.
Дальнейшее чтение [ править ]
- Н. Чернов (2010), Круговая и линейная регрессия: Подбор окружностей и линий по методу наименьших квадратов , Чепмен и Холл/CRC, Монографии по статистике и прикладной теории вероятностей, Том 117 (256 стр.). [2]