Правило цепочки

В исчислении цепное правило — это формула , которая выражает производную композиции f двух дифференцируемых функций и g через производные f и g . Точнее, если это функция такая, что для каждого x тогда правило цепочки, в обозначениях Лагранжа , таково:

или, что то же самое,

Цепное правило также может быть выражено в обозначениях Лейбница . Если переменная z зависит от переменной y , которая сама зависит от переменной x (то есть y и z являются зависимыми переменными ), то z зависит от x и через промежуточную переменную y . В этом случае цепное правило выражается как

и
для указания, в каких точках необходимо оценивать производные.

В интеграции аналогом цепного правила является правило замены .

Интуитивное объяснение [ править ]

Интуитивно, цепное правило гласит, что знание мгновенной скорости изменения z относительно y и скорости y относительно x позволяет рассчитать мгновенную скорость изменения z относительно x как произведение двух скоростей изменения.

Как сказал Джордж Ф. Симмонс : «Если автомобиль едет в два раза быстрее велосипеда, а велосипед в четыре раза быстрее идущего человека, то машина едет в 2 × 4 = 8 раз быстрее человека». [1]

Связь между этим примером и правилом цепочки следующая. Пусть z , y и x — (переменные) положения автомобиля, велосипеда и идущего человека соответственно. Скорость изменения взаимного положения автомобиля и велосипеда равна Сходным образом, Итак, скорость изменения взаимного положения автомобиля и идущего человека равна

Скорость изменения положений — это отношение скоростей, а скорость — производная положения по времени; то есть,

или, что то же самое,
что также является применением правила цепочки.

История [ править ]

Цепное правило, кажется, впервые было использовано Готфридом Вильгельмом Лейбницем . Он использовал его для вычисления производной как композиция функции квадратного корня и функции . Впервые он упомянул об этом в мемуарах 1676 года (со знаком ошибки в расчете). [2] Общепринятое обозначение цепного правила принадлежит Лейбницу. [3] Гийом де Л'Опиталь неявно использовал правило цепочки в своем «Анализ бесконечных мелких частиц» . Цепное правило не встречается ни в одной из аналитических книг Леонарда Эйлера , хотя они были написаны более чем через сто лет после открытия Лейбница. [ нужна ссылка ] . Считается, что первая «современная» версия цепного правила появляется в «Теории аналитических функций» Лагранжа 1797 года ; Коши 1823 года он также появляется в «Сводке уроков, данных в Королевской политехнической школе» по теме «Le Calcul Infinitesimal» . [3]

Заявление [ править ]

Самая простая форма цепного правила предназначена для вещественнозначных функций одной действительной переменной. В нем говорится, что если g — функция, дифференцируемая в точке c производная g ′( c ) (т. е. существует ), а f — функция, дифференцируемая в точке g ( c ) , то составная функция дифференцируема в точке c , а производная равна [4]

Это правило иногда сокращается как

Если y = f ( u ) и u = g ( x ) , то эта сокращенная форма записывается в обозначениях Лейбница как:

Точки, в которых оцениваются производные, также могут быть указаны явно:

Продолжая те же рассуждения, учитывая n функций со сложной функцией , если каждая функция дифференцируема при непосредственном входе, то составная функция также дифференцируема повторным применением правила цепочки, где производная равна (в обозначениях Лейбница):

Приложения [ править ]

Композиции более чем двух функций [ править ]

Цепное правило можно применять к композициям, выполняющим более двух функций. Чтобы взять производную композиции более чем двух функций, обратите внимание, что композиция f , g и h (именно в этом порядке) является композицией f с g h . Цепное правило гласит, что для вычисления производной f g h достаточно вычислить производную f и производную g h . Производную f можно вычислить напрямую, а производную g h можно вычислить, снова применив цепное правило. [ нужна ссылка ]

Для конкретности рассмотрим функцию

Это можно разложить как совокупность трех функций:
Так что .

Их производные:

Цепное правило гласит, что производная их композиции в точке x = a равна:

В обозначениях Лейбница это:

или короче,
Таким образом, производная функция:

Другой способ вычисления этой производной — рассматривать составную функцию f g h как сумму f g и h . Применение правила цепочки таким образом даст:

Это то же самое, что было вычислено выше. Этого следует ожидать, потому что ( ж г ) ∘ час знак равно ж ∘ ( г час ) .

Иногда необходимо дифференцировать сколь угодно длинную композицию вида . В этом случае определите

где и когда . Тогда цепное правило примет вид
или, в обозначениях Лагранжа,

Правило частного [ править ]

Цепное правило можно использовать для вывода некоторых известных правил дифференцирования. Например, правило частного является следствием правила цепочки и правила произведения . Чтобы убедиться в этом, запишите функцию f ( x )/ g ( x ) как произведение f ( x ) · 1/ g ( x ) . Сначала примените правило продукта:

Чтобы вычислить производную 1/ g ( x ) , обратите внимание, что она представляет собой совокупность g с обратной функцией, то есть функцией, которая переводит x в 1/ x . Производная обратной функции равна . Применяя правило цепочки, последнее выражение становится:

что является обычной формулой правила фактора.

Производные обратных функций [ править ]

Предположим, что y = g ( x ) имеет обратную функцию . Вызовите ее обратную функцию f так, чтобы у нас было x = f ( y ) . Существует формула для производной f через производную g . Чтобы убедиться в этом, обратите внимание, что f и g удовлетворяют формуле

А поскольку функции и x равны, их производные должны быть равны. Производная x — это постоянная функция со значением 1, а производная от определяется правилом цепочки. Следовательно, мы имеем следующее:

Чтобы выразить f' как функцию независимой переменной y , мы подставляем для x , где бы он ни появлялся. Тогда мы сможем найти f' .

Например, рассмотрим функцию g ( x ) = e х . Он имеет обратный f ( y ) = ln y . Поскольку g ′( x ) = e х , приведенная выше формула говорит, что

Эта формула верна, если g дифференцируема и обратная к ней f также дифференцируема. Эта формула может дать сбой, если одно из этих условий неверно. Например, рассмотрим g ( x ) = x 3 . Его обратным является f ( y ) = y 1/3 , который не дифференцируем в нуле. Если мы попытаемся использовать приведенную выше формулу для вычисления производной f в нуле, тогда мы должны оценить 1/ g ′( f (0)) . Поскольку f (0) = 0 и g ′(0) = 0 , мы должны оценить 1/0, что не определено. Следовательно, в данном случае формула не работает. Это неудивительно, поскольку f не дифференцируема в нуле.

Обратное распространение [ править ]

Цепное правило лежит в основе алгоритма обратного распространения ошибки , который используется при градиентном спуске нейронных сетей в глубоком обучении ( искусственный интеллект ). [5]

Высшие производные [ править ]

Формула Фаа ди Бруно обобщает цепное правило на высшие производные. Предполагая, что y = f ( u ) и u = g ( x ) , тогда первые несколько производных таковы:

Доказательства [ править ]

Первое доказательство [ править ]

Одно из доказательств цепного правила начинается с определения производной сложной функции f g , где мы берем предел разностного фактора для f g, когда x приближается к a :

Предположим на мгновение, что не равно для любого около . Тогда предыдущее выражение равно произведению двух множителей:

Если колеблется вблизи a , то может случиться так, что независимо от того, насколько близко мы подошли к a , всегда найдется еще более близкий x такой, что g ( x ) = g ( a ) . Например, это происходит вблизи a = 0 для непрерывной функции g , определенной как g ( x ) = 0 для x = 0 и g ( x ) = x. 2 sin(1/ x ) в противном случае. Всякий раз, когда это происходит, приведенное выше выражение не определено, поскольку оно включает деление на ноль . Чтобы обойти эту проблему, введите функцию следующее:

Покажем, что разностный коэффициент для f g всегда равен:

Всякий раз, когда g ( x ) не равно g ( a ) , это ясно, потому что множители g ( x ) − g ( a ) сокращаются. Когда g ( x ) равно g ( a ) , то разностный коэффициент для f g равен нулю, потому что f ( g ( x )) равен f ( g ( a )) , а вышеуказанное произведение равно нулю, потому что оно равно f ′( g ( a )) раз ноль. Таким образом, вышеуказанное произведение всегда равно разностному коэффициенту, и чтобы показать, что производная f g в точке a существует, и определить ее значение, нам нужно только показать, что существует предел при переходе x в a вышеуказанного произведения и определить его ценность.

Для этого напомним, что предел произведения существует, если существуют пределы его факторов. Когда это произойдет, предел произведения этих двух факторов будет равен произведению пределов этих факторов. Двумя факторами являются Q ( г ( Икс )) и ( г ( Икс ) - г ( а )) / ( Икс - а ) . Последний является разностным фактором для g в точке a , и поскольку g дифференцируема в точке a по предположению, ее предел, когда x стремится к a, существует и равен g ′( a ) .

Что касается Q ( g ( x )) , обратите внимание, что Q определяется везде, где находится f . Более того, f дифференцируема в точке g ( a ) по предположению, поэтому Q непрерывна в точке g ( a ) по определению производной. Функция g непрерывна в точке a, поскольку она дифференцируема в точке a , и, следовательно, Q g непрерывна в точке a . Таким образом, его предел при переходе x в a существует и равен Q ( g ( a )) , то есть f ′( g ( a )) .

Это показывает, что пределы обоих факторов существуют и что они равны f ′( g ( a )) и g ′( a ) соответственно. Следовательно, производная f g в точке a существует и равна f ′( g ( a )) g ′( a ) .

Второе доказательство [ править ]

Другой способ доказать цепное правило — измерить погрешность линейного приближения, определяемую производной. Преимущество этого доказательства состоит в том, что оно обобщается на несколько переменных. Он основан на следующем эквивалентном определении дифференцируемости в точке: функция g дифференцируема в точке a , если существует действительное число g ′( a ) и функция ε ( h ), которая стремится к нулю, когда h стремится к нулю, и, кроме того,

Здесь левая часть представляет собой истинную разницу между значением g в точке a и в точке a + h , тогда как правая часть представляет собой аппроксимацию, определяемую производной плюс член ошибки.

В ситуации цепного правила такая функция ε существует, поскольку предполагается, что g дифференцируема в точке a . Опять же по предположению, аналогичная функция существует и для f в точке g ( a ). Называя эту функцию η , мы имеем

Приведенное выше определение не накладывает никаких ограничений на η (0), хотя предполагается, что η ( k ) стремится к нулю, когда k стремится к нулю. Если мы положим η (0) = 0 , то η непрерывен в точке 0.

Для доказательства теоремы необходимо изучить разность f ( g ( a + h )) − f ( g ( a )) при стремлении h к нулю. Первый шаг — заменить g ( a + h ), используя определение дифференцируемости g в точке a :

Следующий шаг — использовать определение дифференцируемости f в точке g ( a ). Для этого требуется член вида f ( g ( a )+ k ) для некоторого k . В приведенном выше уравнении правильный k зависит от h . Положите k час знак равно грамм ′( а ) час + ε ( час ) час и правая часть станет f ( грамм ( а ) + k час ) - f ( грамм ( а ) ) . Применение определения производной дает:
Чтобы изучить поведение этого выражения, когда h стремится к нулю, разверните k h . После перегруппировки членов правая часть становится:
Поскольку ε ( h ) и η ( k h ) стремятся к нулю, когда h стремится к нулю, первые два члена в квадратных скобках стремятся к нулю, когда h стремится к нулю. Применяя ту же теорему о произведениях пределов, что и в первом доказательстве, третий член в квадратных скобках также стремится к нулю. Поскольку приведенное выше выражение равно разнице f ( g ( a + h )) − f ( g ( a )) , по определению производной f g дифференцируемо в точке a , а ее производная равна f ′ ( g ( a )) г ′( а ).

Роль Q играет η в первом доказательстве в этом доказательстве . Они связаны уравнением:

Необходимость определить Q в точке g ( a ) аналогична необходимости определить η в нуле.

Третье доказательство [ править ]

Константином Каратеодори, можно использовать для элегантного доказательства цепного правила. Альтернативное определение дифференцируемости функции, данное [6]

Согласно этому определению, функция f дифференцируема в точке a тогда и только тогда, когда существует функция q , непрерывная в точке a и такая, что f ( x ) − f ( a ) = q ( x )( x a ) . Существует не более одной такой функции, и если f дифференцируема в точке a , то f ′( a ) = q ( a ) .

Учитывая предположения цепного правила и тот факт, что дифференцируемые функции и композиции непрерывных функций непрерывны, мы имеем, что существуют функции q , непрерывные в точке g ( a ) , и r , непрерывные в точке a , и такие, что

и
Поэтому,
но функция, заданная формулой h ( x ) = q ( g ( x )) r ( x ) , непрерывна в точке a , и для этого мы получаем a
Аналогичный подход работает для непрерывно дифференцируемых (вектор-) функций многих переменных. Этот метод факторизации также позволяет использовать единый подход к более сильным формам дифференцируемости, когда производная должна быть непрерывной по Липшицу , непрерывной по Гельдеру и т. д. Саму дифференциацию можно рассматривать как теорему о полиномиальном остатке (маленькая теорема Безу или факторная теорема). , обобщенный на соответствующий класс функций. [ нужна ссылка ]

Доказательство с помощью бесконечно малых [ править ]

Если и затем выбираем бесконечно малый мы вычисляем соответствующий а затем соответствующий , так что

и применив стандартную часть, получим
что является правилом цепочки.

Многомерный случай [ править ]

Полное обобщение цепного правила на функции многих переменных (такие как ) скорее технический. Однако проще написать в случае функций вида

где , и для каждого

Поскольку этот случай часто встречается при изучении функций одной переменной, стоит описать его отдельно.

Случай скалярных функций с несколькими входами [ править ]

Позволять , и для каждого Написать цепное правило композиции функций.

нужны частные производные функции f по ее k аргументам. Обычные обозначения частных производных включают имена аргументов функции. Поскольку эти аргументы не названы в приведенной выше формуле, проще и понятнее использовать D -нотацию и обозначать ее через
частная производная f по i- му аргументу, и
значение этой производной в точке z .

В этих обозначениях правило цепочки имеет вид

Пример: арифметические операции [ править ]

Если функция f является сложением, т. е. если

затем и . Таким образом, цепное правило дает

Для умножения

частичные и . Таким образом,

Случай возведения в степень

немного сложнее, так как
и, как
Отсюда следует, что

Общее правило: векторные функции с несколькими входами [ править ]

Самый простой способ написать цепное правило в общем случае — использовать полную производную , которая представляет собой линейное преобразование, объединяющее все производные по направлениям в одной формуле. Рассмотрим дифференцируемые функции f : R м Р к и г : Р н Р м , и точка a в R н . Пусть D a g обозначает полную производную от g в точке a , а D g ( a ) f обозначает полную производную от f в точке g ( a ) . Эти две производные являются линейными преобразованиями R н Р м и Р м Р к , соответственно, чтобы их можно было составить. Цепное правило для полных производных состоит в том, что их совокупность представляет собой полную производную от f g в точке a :

или короче,
Правило многомерной цепи можно доказать, используя технику, аналогичную второму доказательству, приведенному выше. [7]

Поскольку полная производная представляет собой линейное преобразование, функции, входящие в формулу, можно переписать в виде матриц. Матрица, соответствующая полной производной, называется матрицей Якобиана , а композиция двух производных соответствует произведению их матриц Якобиана. Таким образом, с этой точки зрения правило цепочки гласит:

или короче,

То есть якобиан сложной функции является произведением якобианов составных функций (вычисленных в соответствующих точках).

Правило многомерной цепочки является обобщением правила одномерной цепочки. Если k , m и n равны 1, так что f : R R и g : R R , то матрицы Якобиа f и g равны 1 × 1 . В частности, это:

Якобиан f g является произведением этих матриц 1 × 1 , поэтому это f ′( g ( a ))⋅ g ′( a ) , как и ожидалось из правила одномерной цепочки. На языке линейных преобразований D a ( g ) — это функция, масштабирующая вектор в коэффициент g ′( a ) , а D g ( a ) ( f ) — функция, масштабирующая вектор в коэффициент f ′. ( г ( а )) . Цепное правило гласит, что композиция этих двух линейных преобразований представляет собой линейное преобразование D a ( f g ) , и, следовательно, это функция, которая масштабирует вектор на f ′( g ( a ))⋅ g ′( a ) .

Другой способ записи цепного правила используется, когда f и g выражаются через их компоненты как y = f ( u ) = ( f 1 ( u ), …, f k ( u )) и u = g ( x ) знак равно ( г 1 ( Икс ), …, г м ( Икс )) . В этом случае приведенное выше правило для матриц Якоби обычно записывается как:

Цепное правило для полных производных подразумевает цепное правило для частных производных. Напомним, что когда полная производная существует, частная производная в i -м координатном направлении находится путем умножения матрицы Якобиана на i -й базисный вектор. Применив это к формуле выше, мы находим:

Поскольку элементы матрицы Якобиана являются частными производными, мы можем упростить приведенную выше формулу и получить:
факт, что изменение в xi направлении может изменить все значения от до g1 gm , Более концептуально это правило выражает тот и любое из этих изменений может повлиять на f .

В особом случае, когда k = 1 , так что f является действительной функцией, эта формула упрощается еще больше:

Это можно переписать как скалярное произведение . Вспоминая, что u = ( g 1 , …, g m ) , частная производная u / ∂ x i также является вектором, и цепное правило гласит, что:

Пример [ править ]

Учитывая ты ( Икс , y ) знак равно Икс 2 + 2 y где Икс ( р , т ) = р грех ( т ) и у ( р , т ) = грех 2 ( t ) определите значение u / ∂ r и u / ∂ t с помощью цепного правила. [ нужна ссылка ]

и

Высшие производные функций многих переменных [ править ]

Формула Фаа ди Бруно для производных высших порядков функций с одной переменной обобщается на случай многих переменных. Если y = f ( u ) является функцией u = g ( x ) , как указано выше, то вторая производная f g равна:

Дальнейшие обобщения

Все расширения исчисления имеют цепное правило. В большинстве из них формула остается той же, хотя значение этой формулы может сильно отличаться.

Одно из обобщений относится к многообразиям . В этой ситуации цепное правило представляет собой тот факт, что производная f g представляет собой смесь производной f и производной g . Эта теорема является непосредственным следствием приведенного выше правила цепочки более высокой размерности и имеет точно такую ​​же формулу.

Цепное правило справедливо также для производных Фреше в банаховых пространствах . Действует та же формула, что и раньше. [8] Этот и предыдущий случай допускают одновременное обобщение на банаховы многообразия .

В дифференциальной алгебре производная интерпретируется как морфизм модулей келеровых дифференциалов . Кольцевой гомоморфизм коммутативных колец f : R S определяет морфизм кэлеровых дифференциалов Df : Ω R → Ω S , который переводит элемент dr в d ( f ( r )) — внешний дифференциал f ( r ) . Формула D ( f g ) = Df Dg справедлива и в этом контексте.

Общей чертой этих примеров является то, что они являются выражением идеи о том, что производная является частью функтора . Функтор — это операция над пространствами и функциями между ними. Он связывает с каждым пространством новое пространство, а с каждой функцией между двумя пространствами — новую функцию между соответствующими новыми пространствами. В каждом из вышеперечисленных случаев функтор отправляет каждое пространство в его касательное расслоение , а каждую функцию — в свою производную. Например, в случае многообразия производная отправляет C р -многообразие до C р -1 -многообразие (его касательное расслоение) и C р -функцию к ее полной производной. Для того, чтобы это был функтор, есть одно требование, а именно: производная композиции должна быть смесью производных. Это и есть формула D ( ж г ) знак равно Df Dg .

также существуют цепные правила В стохастическом исчислении . Одна из них, лемма Ито , выражает совокупность процесса Ито (или, в более общем плане, семимартингала ) dX t с дважды дифференцируемой функцией f . В лемме Ито производная сложной функции зависит не только от dX t и производной f , но также и от второй производной f . Зависимость от второй производной является следствием ненулевой квадратичной вариации случайного процесса, что, вообще говоря, означает, что процесс может очень грубо двигаться вверх и вниз. Этот вариант цепного правила не является примером функтора, поскольку две составляющие функции относятся к разным типам.

См. также [ править ]

Ссылки [ править ]

  1. ^ Джордж Ф. Симмонс , Исчисление с аналитической геометрией (1985), с. 93.
  2. ^ Чайлд, Дж. М. (1917). «РУКОПИСИ ЛЕЙБНИЦА ОБ ОТКРЫТИИ ДИФФЕРЕНЦИАЛЬНОГО ИСЧИСЛЕНИЯ. ЧАСТЬ II (Продолжение)» . Монист . 27 (3): 411–454. ISSN   0026-9662 . JSTOR   27900650 .
  3. ^ Jump up to: Перейти обратно: а б Родригес, Омар Эрнандес; Лопес Фернандес, Хорхе М. (2010). «Семиотическое размышление о дидактике правила цепочки» . Любитель математики . 7 (2): 321–332. дои : 10.54870/1551-3440.1191 . S2CID   29739148 . Проверено 4 августа 2019 г.
  4. ^ Апостол, Том (1974). Математический анализ (2-е изд.). Эддисон Уэсли. Теорема 5.5.
  5. ^ Гудфеллоу, Ян ; Бенджио, Йошуа ; Курвиль, Аарон (2016), Глубокое обучение , Массачусетский технологический институт , стр = 197–217.
  6. ^ Кун, Стивен (1991). «Производная а-ля Каратеодори». Американский математический ежемесячник . 98 (1): 40–44. дои : 10.2307/2324035 . JSTOR   2324035 .
  7. ^ Спивак, Михаил (1965). Исчисление на многообразиях . Бостон: Аддисон-Уэсли. стр. 19–20. ISBN  0-8053-9021-9 .
  8. ^ Чейни, Уорд (2001). «Цепное правило и теоремы о среднем значении». Анализ для прикладной математики . Нью-Йорк: Спрингер. стр. 121–125. ISBN  0-387-95279-9 .

Внешние ссылки [ править ]