Теорема Кэли – Гамильтона

В линейной алгебре теорема Кэли-Гамильтона (названная в честь математиков Артура Кэли и Уильяма Роуэна Гамильтона ) утверждает, что каждая квадратная матрица над коммутативным кольцом (например, действительные или комплексные числа или целые числа ) удовлетворяет своему собственному характеристическому уравнению .

Характеристический полином матрицы $n \times n$ размера $A$ определяется как ^[5] $p_{A}(\lambda )=\det(\lambda I_{n}-A)$ , где $det$ — определительная операция, $λ$ — переменный скалярный элемент базового кольца , а $I n$ — $n \times n$ единичная матрица размера . Поскольку каждый элемент матрицы $(\lambda I_{n}-A)$ является либо постоянным, либо линейным по $λ$ , определитель $(\lambda I_{n}-A)$ является степени - $n$ моническим полиномом от $λ$ , поэтому его можно записать как $p_{A}(\lambda )=\lambda ^{n}+c_{n-1}\lambda ^{n-1}+\cdots +c_{1}\lambda +c_{0}.$ Заменяя скалярную переменную $λ$ матрицей $A$ , можно определить аналогичное матричное полиномиальное выражение: $p_{A}(A)=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}.$ (Здесь, $A$ — заданная матрица, а не переменная, в отличие от $\lambda$ -так $p_{A}(A)$ является константой, а не функцией.)Теорема Кэли-Гамильтона утверждает, что это полиномиальное выражение равно нулевой матрице , то есть что $p_{A}(A)=\mathbf {0} ;$ то есть характеристический полином $p_{A}$ является аннулирующим полиномом для $A.$

Кэли – Гамильтона Одно из применений теоремы состоит в том, что она позволяет $A$ ^$н$ быть выражено как линейная комбинация младших степеней матрицы $A$ : $A^{n}=-c_{n-1}A^{n-1}-\cdots -c_{1}A-c_{0}I_{n}.$ Когда кольцо является полем , теорема Кэли-Гамильтона эквивалентна утверждению, что минимальный многочлен квадратной матрицы делит ее характеристический многочлен.

Частный случай теоремы был впервые доказан Гамильтоном в 1853 году. ^[6] в терминах обратных линейных функций кватернионов . ^[2]^[3]^[4] Это соответствует частному случаю некоторых $вещественных матриц 4 \times 4$ или $комплексных матриц 2 \times 2$ . Кэли в 1858 году сформулировал результат для $матриц 3 \times 3$ и меньших, но опубликовал доказательство только для $случая 2 \times 2$ . ^[7]^[8] Что касается $матриц размера n \times n$ , Кэли заявил: «... я не считал необходимым предпринимать труд формального доказательства теоремы в общем случае матрицы любой степени». Общий случай впервые был доказан Фердинандом Фробениусом в 1878 году. ^[9]

Примеры

$1 \times 1$ матрицы

Для $размера 1 \times 1$ матрицы $A = (a)$ характеристический полином задается формулой $p (λ) = λ - a$ , и поэтому $p (A) = (a) - a (1) = 0$ тривиально.

$2 \times 2$ матрицы

В качестве конкретного примера позвольте $A={\begin{pmatrix}1&2\\3&4\end{pmatrix}}.$ Его характеристический полином определяется выражением ${\begin{aligned}p(\lambda )&=\det(\lambda I_{2}-A)=\det \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}\\&=(\lambda -1)(\lambda -4)-(-2)(-3)=\lambda ^{2}-5\lambda -2.\end{aligned}}$

Теорема Кэли-Гамильтона утверждает, что если мы определим $p(X)=X^{2}-5X-2I_{2},$ затем $p(A)=A^{2}-5A-2I_{2}={\begin{pmatrix}0&0\\0&0\\\end{pmatrix}}.$ Мы можем проверить с помощью вычислений, что действительно, $A^{2}-5A-2I_{2}={\begin{pmatrix}7&10\\15&22\\\end{pmatrix}}-{\begin{pmatrix}5&10\\15&20\\\end{pmatrix}}-{\begin{pmatrix}2&0\\0&2\\\end{pmatrix}}={\begin{pmatrix}0&0\\0&0\\\end{pmatrix}}.$

Для общей $2 \times 2$ матрицы $A={\begin{pmatrix}a&b\\c&d\\\end{pmatrix}},$

характеристический полином задается формулой $p (λ) = λ 2 - (a + d) λ + (ad - bc)$ , поэтому теорема Кэли–Гамильтона утверждает, что $p(A)=A^{2}-(a+d)A+(ad-bc)I_{2}={\begin{pmatrix}0&0\\0&0\end{pmatrix}};$ что на самом деле всегда так, что становится очевидным при вычислении записей $A 2$ .

Доказательство

${\begin{aligned}&{}A^{2}-(a+d)A+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}a^{2}+bc&ab+bd\\ac+cd&bc+d^{2}\\\end{pmatrix}}-{\begin{pmatrix}a(a+d)&b(a+d)\\c(a+d)&d(a+d)\end{pmatrix}}+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}bc-ad&0\\0&bc-ad\\\end{pmatrix}}+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}0&0\\0&0\end{pmatrix}}\end{aligned}}$

Приложения

Определитель и обратная матрица

Для общей $размера n \times n$ обратимой матрицы $A$ , т. е. матрицы с ненулевым определителем, $A$ ⁻¹ таким образом, может быть записано как $(n - 1)$ -го порядка полиномиальное выражение от $A$ : Как указано, теорема Кэли – Гамильтона сводится к тождеству

$p(A)=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+(-1)^{n}\det(A)I_{n}=0.$

Коэффициенты $c i$ задаются элементарными симметричными собственных значений A $.$ полиномами Используя тождества Ньютона , элементарные симметричные полиномы, в свою очередь, могут быть выражены через симметричные полиномы суммы степеней собственных значений: $s_{k}=\sum _{i=1}^{n}\lambda _{i}^{k}=\operatorname {tr} (A^{k}),$ где $tr(A к)$ — след матрицы $A к$ . Таким образом, мы можем выразить $c i$ через след степеней $A$ .

В общем, формула для коэффициентов $c i$ задается в терминах полных экспоненциальных полиномов Белла как ^{[номер 1]} $c_{n-k}={\frac {(-1)^{k}}{k!}}B_{k}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{k-1}(k-1)!s_{k}).$

В частности, определитель $A$ равен $(-1) н с 0$ . Таким образом, определитель можно записать как тождество следа : $\det(A)={\frac {1}{n!}}B_{n}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{n-1}(n-1)!s_{n}).$

Аналогично характеристический полином можно записать как $-(-1)^{n}\det(A)I_{n}=A(A^{n-1}+c_{n-1}A^{n-2}+\cdots +c_{1}I_{n}),$ и, умножив обе части на $A -1$ (примечание $-(-1) н = (-1) п -1$ ), мы приходим к выражению, обратному , A $как$ тождеству следа, ${\begin{aligned}A^{-1}&={\frac {(-1)^{n-1}}{\det A}}(A^{n-1}+c_{n-1}A^{n-2}+\cdots +c_{1}I_{n}),\\[5pt]&={\frac {1}{\det A}}\sum _{k=0}^{n-1}(-1)^{n+k-1}{\frac {A^{n-k-1}}{k!}}B_{k}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{k-1}(k-1)!s_{k}).\end{aligned}}$

Другой метод получения этих коэффициентов $c k$ для общей $матрицы размера n \times n$ , при условии, что ни один корень не равен нулю, основан на следующем альтернативном выражении для определителя : $p(\lambda )=\det(\lambda I_{n}-A)=\lambda ^{n}\exp(\operatorname {tr} (\log(I_{n}-A/\lambda ))).$ , в силу ряда Меркатора Следовательно $p(\lambda )=\lambda ^{n}\exp \left(-\operatorname {tr} \sum _{m=1}^{\infty }{({A \over \lambda })^{m} \over m}\right),$ где экспоненту только необходимо разложить $до порядка λ - п$ , поскольку $p (λ)$ имеет порядок $n$ , чистые отрицательные степени $λ$ автоматически исчезают по теореме C – H. (Опять же, для этого требуется кольцо, содержащее рациональные числа .) Дифференцирование этого выражения по $λ$ позволяет выразить коэффициенты характеристического многочлена для общего $n$ как определители матриц размера $m \times m$ : ^{[номер 2]} $c_{n-m}={\frac {(-1)^{m}}{m!}}{\begin{vmatrix}\operatorname {tr} A&m-1&0&\cdots \\\operatorname {tr} A^{2}&\operatorname {tr} A&m-2&\cdots \\\vdots &\vdots &&&\vdots \\\operatorname {tr} A^{m-1}&\operatorname {tr} A^{m-2}&\cdots &\cdots &1\\\operatorname {tr} A^{m}&\operatorname {tr} A^{m-1}&\cdots &\cdots &\operatorname {tr} A\end{vmatrix}}~.$

Примеры

Например, первые несколько полиномов Белла: $B 0$ = 1, $B 1 (x 1) = x 1$ , $B 2 (x 1, x 2) = x 21 + Икс 2$ и $B 3 (Икс 1, Икс 2, Икс 3) = Икс 31 + 3 х 1 х 2 + х 3$ .

Используя их для указания коэффициентов $c i$ характеристического полинома $матрицы 2 \times 2$ , получаем

${\begin{aligned}c_{2}=B_{0}=1,\\[4pt]c_{1}={\frac {-1}{1!}}B_{1}(s_{1})=-s_{1}=-\operatorname {tr} (A),\\[4pt]c_{0}={\frac {1}{2!}}B_{2}(s_{1},-1!s_{2})={\frac {1}{2}}(s_{1}^{2}-s_{2})={\frac {1}{2}}((\operatorname {tr} (A))^{2}-\operatorname {tr} (A^{2})).\end{aligned}}$

Коэффициент $c 0$ дает определитель $матрицы 2 \times 2$ , $c 1$ минус ее след, а его обратная величина определяется выражением $A^{-1}={\frac {-1}{\det A}}(A+c_{1}I_{2})={\frac {-2(A-\operatorname {tr} (A)I_{2})}{(\operatorname {tr} (A))^{2}-\operatorname {tr} (A^{2})}}.$

видно Из общей формулы для c _{n − k} , выраженной через полиномы Белла, , что выражения $-\operatorname {tr} (A)\quad {\text{and}}\quad {\tfrac {1}{2}}(\operatorname {tr} (A)^{2}-\operatorname {tr} (A^{2}))$

всегда задавайте коэффициенты $c n -1$ для $λ п -1$ и $c n -2$ из $λ п -2$ в характеристическом полиноме любой $матрицы размера n \times n$ соответственно. Итак, для $3 \times 3$ матрицы $A$ утверждение теоремы Кэли–Гамильтона также можно записать в виде $A^{3}-(\operatorname {tr} A)A^{2}+{\frac {1}{2}}\left((\operatorname {tr} A)^{2}-\operatorname {tr} (A^{2})\right)A-\det(A)I_{3}=O,$ где правая часть обозначает $матрицу 3 \times 3,$ все элементы которой приведены к нулю. Аналогично, этот определитель в $случае n = 3$ теперь равен ${\begin{aligned}\det(A)&={\frac {1}{3!}}B_{3}(s_{1},-1!s_{2},2!s_{3})={\frac {1}{6}}(s_{1}^{3}+3s_{1}(-s_{2})+2s_{3})\\[5pt]&={\frac {1}{6}}\left[(\operatorname {tr} A)^{3}-3\operatorname {tr} (A^{2})(\operatorname {tr} A)+2\operatorname {tr} (A^{3})\right].\end{aligned}}$ Это выражение дает отрицательный коэффициент $c n -3$ для $λ п -3$ в общем случае, как показано ниже.

Аналогично можно написать для $4 \times 4$ матрицы $A$ : $A^{4}-(\operatorname {tr} A)A^{3}+{\tfrac {1}{2}}\left[(\operatorname {tr} A)^{2}-\operatorname {tr} (A^{2})\right]A^{2}-{\tfrac {1}{6}}\left[(\operatorname {tr} A)^{3}-3\operatorname {tr} (A^{2})(\operatorname {tr} A)+2\operatorname {tr} (A^{3})\right]A+\det(A)I_{4}=O,$

где теперь определитель равен $c n -4$ ,

${\tfrac {1}{24}}\!\left[(\operatorname {tr} A)^{4}-6\operatorname {tr} (A^{2})(\operatorname {tr} A)^{2}+3\left(\operatorname {tr} (A^{2})\right)^{2}+8\operatorname {tr} (A^{3})\operatorname {tr} (A)-6\operatorname {tr} (A^{4})\right],$

и так далее для больших матриц. Все более сложные выражения для коэффициентов $c k$ выводятся из тождеств Ньютона или алгоритма Фаддеева – Леверье .

n -я степень матрицы

Теорема Кэли-Гамильтона всегда обеспечивает связь между степенями $A$ (хотя и не всегда самую простую), что позволяет упростить выражения, включающие такие степени, и вычислять их без необходимости вычисления степени $A.$ ^н или любые высшие степени $A$ .

В качестве примера для $A={\begin{pmatrix}1&2\\3&4\end{pmatrix}}$ теорема дает $A^{2}=5A+2I_{2}\,.$

Затем, чтобы вычислить $А 4$ , наблюдать ${\begin{aligned}A^{3}&=(5A+2I_{2})A=5A^{2}+2A=5(5A+2I_{2})+2A=27A+10I_{2},\\[1ex]A^{4}&=A^{3}A=(27A+10I_{2})A=27A^{2}+10A=27(5A+2I_{2})+10A=145A+54I_{2}\,.\end{aligned}}$ Так же, ${\begin{aligned}A^{-1}&={\frac {1}{2}}\left(A-5I_{2}\right)~.\\[1ex]A^{-2}&=A^{-1}A^{-1}={\frac {1}{4}}\left(A^{2}-10A+25I_{2}\right)={\frac {1}{4}}\left((5A+2I_{2})-10A+25I_{2}\right)={\frac {1}{4}}\left(-5A+27I_{2}\right)~.\end{aligned}}$

Обратите внимание, что мы смогли записать степень матрицы как сумму двух слагаемых. Фактически, степень матрицы любого порядка $k$ можно записать в виде матричного полинома степени не выше $n - 1$ , где $n$ - размер квадратной матрицы. Это тот случай, когда теорему Кэли – Гамильтона можно использовать для выражения матричной функции, которую мы систематически обсудим ниже.

Матричные функции

Учитывая аналитическую функцию $f(x)=\sum _{k=0}^{\infty }a_{k}x^{k}$ и характеристический полином $p (x)$ степени $n$ размера $n \times n$ матрицы $A$ , функция может быть выражена с помощью деления в столбик как $f(x)=q(x)p(x)+r(x),$ где $q (x)$ — некоторый фактор-многочлен, а $r (x)$ — остаточный полином такой, что $0 \leq deg r (x) < n$ .

По теореме Кэли-Гамильтона замена $x$ на матрицу $A$ дает $p (A) = 0$ , поэтому имеем $f(A)=r(A).$

Таким образом, аналитическую функцию матрицы $A$ можно выразить в виде матричного многочлена степени меньше $n$ .

Пусть полином остатка равен $r(x)=c_{0}+c_{1}x+\cdots +c_{n-1}x^{n-1}.$ Поскольку $p (λ) = 0$ , оценка функции $f (x)$ по $n$ собственным значениям $A$ дает $f(\lambda _{i})=r(\lambda _{i})=c_{0}+c_{1}\lambda _{i}+\cdots +c_{n-1}\lambda _{i}^{n-1},\qquad {\text{for }}i=1,2,...,n.$ Это составляет систему из $n$ линейных уравнений , которые можно решить для определения коэффициентов $c i$ . Таким образом, у человека есть $f(A)=\sum _{k=0}^{n-1}c_{k}A^{k}.$

Когда собственные значения повторяются, то есть $λ i = λ j$ для некоторого $i \neq j$ , два или более уравнений идентичны; и, следовательно, линейные уравнения не могут быть решены однозначно. В таких случаях для собственного значения $λ$ с кратностью $m$ первые $m - 1$ производные $p (x)$ обращаются в нуль в собственном значении. Это приводит к дополнительным $m - 1$ линейно независимым решениям. $\left.{\frac {\mathrm {d} ^{k}f(x)}{\mathrm {d} x^{k}}}\right|_{x=\lambda }=\left.{\frac {\mathrm {d} ^{k}r(x)}{\mathrm {d} x^{k}}}\right|_{x=\lambda }\qquad {\text{for }}k=1,2,\ldots ,m-1,$ которые в сочетании с другими дают необходимые $n$ уравнений для решения для $c i$ .

Поиск многочлена, проходящего через точки $(λ i, f (λ i))$ по сути является проблемой интерполяции и может быть решен с использованием Лагранжа или интерполяции методов Ньютона, что приводит к формуле Сильвестра .

Например, предположим, что задача состоит в том, чтобы найти полиномиальное представление $f(A)=e^{At}\qquad \mathrm {where} \qquad A={\begin{pmatrix}1&2\\0&3\end{pmatrix}}.$

Характеристический полином: $p (x) = (x - 1) (x - 3) = x 2 - 4 x + 3$ , а собственные значения $λ = 1, 3$ . Пусть $р (Икс) знак равно c 0 + c 1 Икс$ . Оценивая $f (λ) = r (λ)$ по собственным значениям, получаем два линейных уравнения: $e т = с 0 + с 1$ и $е 3 т знак равно c 0 + 3 c 1$ .

Решение уравнений дает $c 0 = (3 e т - и 3 т)/2$ и $c 1 = (e 3 т - и т)/2$ . Таким образом, следует, что $e^{At}=c_{0}I_{2}+c_{1}A={\begin{pmatrix}c_{0}+c_{1}&2c_{1}\\0&c_{0}+3c_{1}\end{pmatrix}}={\begin{pmatrix}e^{t}&e^{3t}-e^{t}\\0&e^{3t}\end{pmatrix}}.$

Если бы вместо этого функция была $f (A) = sin At$ , то коэффициенты были бы $c 0 = (3 sin t - sin 3 t)/2$ и $c 1 = (sin 3 t - sin t)/2$ ; следовательно $\sin(At)=c_{0}I_{2}+c_{1}A={\begin{pmatrix}\sin t&\sin 3t-\sin t\\0&\sin 3t\end{pmatrix}}.$

В качестве еще одного примера, при рассмотрении $f(A)=e^{At}\qquad \mathrm {where} \qquad A={\begin{pmatrix}0&1\\-1&0\end{pmatrix}},$ тогда характеристический полином равен $p (x) = x 2 + 1$ , а собственные значения: $λ = \pm i$ .

Как и раньше, вычисление функции по собственным значениям дает нам линейные уравнения $e это = c 0 + ic 1$ и $e - это знак равно c 0 - IC 1$ ; решение которой дает $c 0 = (e это + и - это)/2 = cos t$ и $c 1 = (e это - и - это)/2 я знак равно грех т$ . Таким образом, для этого случая $e^{At}=(\cos t)I_{2}+(\sin t)A={\begin{pmatrix}\cos t&\sin t\\-\sin t&\cos t\end{pmatrix}},$ которая является матрицей вращения .

Стандартными примерами такого использования являются экспоненциальное отображение алгебры Ли матричной группы Ли в группу. Оно задается матричной экспонентой , $\exp :{\mathfrak {g}}\rightarrow G;\qquad tX\mapsto e^{tX}=\sum _{n=0}^{\infty }{\frac {t^{n}X^{n}}{n!}}=I+tX+{\frac {t^{2}X^{2}}{2}}+\cdots ,t\in \mathbb {R} ,X\in {\mathfrak {g}}.$ Такие выражения давно известны для $SU(2)$ , $e^{i(\theta /2)({\hat {\mathbf {n} }}\cdot \sigma )}=I_{2}\cos {\frac {\theta }{2}}+i({\hat {\mathbf {n} }}\cdot \sigma )\sin {\frac {\theta }{2}},$ где $σ$ — матрицы Паули , а для $SO(3)$ , $e^{i\theta ({\hat {\mathbf {n} }}\cdot \mathbf {J} )}=I_{3}+i({\hat {\mathbf {n} }}\cdot \mathbf {J} )\sin \theta +({\hat {\mathbf {n} }}\cdot \mathbf {J} )^{2}(\cos \theta -1),$ что является формулой вращения Родригеса . Обозначения см. в разделе «Группа трехмерных вращений № Заметка об алгебрах Ли» .

Совсем недавно появились выражения для других групп, таких как группа Лоренца $SO(3, 1)$ , ^[10] $О (4, 2)$ ^[11] и $SU(2, 2)$ , ^[12] а также $GL(n, R)$ . ^[13] Группа $O(4,2)$ — конформная группа , пространства-времени SU $(2,2) —$ его односвязное покрытие (точнее, односвязное покрытие связной компоненты $SO + (4, 2)$ из $O(4, 2)$ ). Полученные выражения относятся к стандартному представлению этих групп. Для возведения в степень они требуют знания (некоторых) собственных значений матрицы. Для $SU(2)$ (и, следовательно, для $SO(3)$ ) получены замкнутые выражения для всех неприводимых представлений, т. е. любого спина. ^[14]

Фердинанд Георг Фробениус (1849–1917), немецкий математик. Его основными интересами были эллиптические функции , дифференциальные уравнения , а затем теория групп .
В 1878 году он дал первое полное доказательство теоремы Кэли-Гамильтона. ^[9]

Алгебраическая теория чисел

Теорема Кэли-Гамильтона — эффективный инструмент для вычисления минимального многочлена целых алгебраических чисел . Например, для конечного расширения $\mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ из $\mathbb {Q}$ и целое алгебраическое число $\alpha \in \mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ которая представляет собой ненулевую линейную комбинацию $\alpha _{1}^{n_{1}}\cdots \alpha _{k}^{n_{k}}$ мы можем вычислить минимальный полином от $\alpha$ найдя матрицу, представляющую $\mathbb {Q}$ - линейное преобразование $\cdot \alpha :\mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]\to \mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ Если мы назовем эту матрицу преобразования $A$ , то мы можем найти минимальный полином, применив теорему Кэли–Гамильтона к $A$ . ^[15]

Доказательства

Теорема Кэли-Гамильтона является непосредственным следствием существования йордановой нормальной формы для матриц над алгебраически замкнутыми полями , см. Жордановую нормальную форму § Теорема Кэли-Гамильтона . В этом разделе представлены прямые доказательства.

Как показывают приведенные выше примеры, получение утверждения теоремы Кэли–Гамильтона для $размера n \times n$ матрицы

$A=\left(a_{ij}\right)_{i,j=1}^{n}$ требует двух шагов: сначала определяются коэффициенты $c i$ характеристического многочлена путем развертывания в виде многочлена по $t$ определителя

${\begin{aligned}p(t)&=\det(tI_{n}-A)={\begin{vmatrix}t-a_{1,1}&-a_{1,2}&\cdots &-a_{1,n}\\-a_{2,1}&t-a_{2,2}&\cdots &-a_{2,n}\\\vdots &\vdots &\ddots &\vdots \\-a_{n,1}&-a_{n,2}&\cdots &t-a_{n,n}\end{vmatrix}}\\[5pt]&=t^{n}+c_{n-1}t^{n-1}+\cdots +c_{1}t+c_{0},\end{aligned}}$

а затем эти коэффициенты используются в линейной комбинации степеней $A$ , которая приравнивается к $нулевой матрице размера n \times n$ : $A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}={\begin{pmatrix}0&\cdots &0\\\vdots &\ddots &\vdots \\0&\cdots &0\end{pmatrix}}.$

Левую часть можно преобразовать в $матрицу размера n \times n,$ элементы которой представляют собой (огромные) полиномиальные выражения в наборе элементов $a i, j$ из $A$ , поэтому теорема Кэли-Гамильтона утверждает, что каждое из этих $n 2$ выражения равно $0$ . Для любого фиксированного значения $n$ эти тождества можно получить с помощью утомительных, но простых алгебраических манипуляций. Однако ни одно из этих вычислений не может показать, почему теорема Кэли-Гамильтона должна быть справедливой для матриц всех возможных размеров $n$ единообразное доказательство для всех $n$ , поэтому необходимо .

Предварительные сведения

Если вектор $v$ размера $n$ является собственным вектором с $A$ собственным значением $λ$ , другими словами, если $A \cdot v = λv$ , то ${\begin{aligned}p(A)\cdot v&=A^{n}\cdot v+c_{n-1}A^{n-1}\cdot v+\cdots +c_{1}A\cdot v+c_{0}I_{n}\cdot v\\[6pt]&=\lambda ^{n}v+c_{n-1}\lambda ^{n-1}v+\cdots +c_{1}\lambda v+c_{0}v=p(\lambda )v,\end{aligned}}$ который является нулевым вектором, поскольку $p (λ = 0$ (собственные значения $A$ являются в точности корнями p $) (t)$ ). Это справедливо для всех возможных собственных значений $λ$ , поэтому две матрицы, приравниваемые теоремой, безусловно, дают один и тот же (нулевой) результат при применении к любому собственному вектору. если $A$ допускает базис из собственных векторов, другими словами, если $A$ диагонализуема Теперь , , то теорема Кэли-Гамильтона должна выполняться для $A$ , поскольку две матрицы, которые дают одинаковые значения при применении к каждому элементу базиса, должны быть равны. $A=XDX^{-1},\quad D=\operatorname {diag} (\lambda _{i}),\quad i=1,2,...,n$ $p_{A}(\lambda )=|\lambda I-A|=\prod _{i=1}^{n}(\lambda -\lambda _{i})\equiv \sum _{k=0}^{n}c_{k}\lambda ^{k}$ $p_{A}(A)=\sum c_{k}A^{k}=Xp_{A}(D)X^{-1}=XCX^{-1}$ $C_{ii}=\sum _{k=0}^{n}c_{k}\lambda _{i}^{k}=\prod _{j=1}^{n}(\lambda _{i}-\lambda _{j})=0,\qquad C_{i,j\neq i}=0$ $\therefore p_{A}(A)=XCX^{-1}=O.$

Рассмотрим теперь функцию $e\colon M_{n}\to M_{n}$ который отображает $размера n \times n$ матрицы $в матрицы размера n \times n$ , заданные формулой $e(A)=p_{A}(A)$ , т.е. который принимает матрицу $A$ и подключает его к собственному характеристическому многочлену. Не все матрицы диагонализуемы, но для матриц с комплексными коэффициентами многие из них таковы: множество $D$ диагонализуемых комплексных квадратных матриц заданного размера плотно во множестве всех таких квадратных матриц ^[16] (чтобы матрица была диагонализируемой, достаточно, например, чтобы ее характеристический многочлен не имел кратных корней ). Теперь рассматривается как функция $e\colon \mathbb {C} ^{n^{2}}\to \mathbb {C} ^{n^{2}}$ (поскольку матрицы имеют $n^{2}$ записи) мы видим, что эта функция непрерывна . Это верно, поскольку элементы изображения матрицы задаются полиномами в элементах матрицы. С $e(D)=\left\{{\begin{pmatrix}0&\cdots &0\\\vdots &\ddots &\vdots \\0&\cdots &0\end{pmatrix}}\right\}$

и так как набор $D$ плотна, то по непрерывности эта функция должна отображать весь набор $матриц размера n \times n$ в нулевую матрицу. Следовательно, теорема Кэли–Гамильтона верна для комплексных чисел и, следовательно, должна выполняться и для $\mathbb {Q}$ - или $\mathbb {R}$ -значные матрицы.

Хотя это и дает валидное доказательство, аргумент не очень удовлетворительный, поскольку тождества, представляемые теоремой, никоим образом не зависят ни от природы матрицы (диагонализуемой или нет), ни от типа разрешенных элементов (для матриц с реальные элементы (диагонализуемые) не образуют плотного множества, и кажется странным, что пришлось бы рассматривать комплексные матрицы, чтобы увидеть, что для них справедлива теорема Кэли–Гамильтона). Поэтому мы теперь будем рассматривать только те рассуждения, которые доказывают теорему непосредственно для любой матрицы, используя только алгебраические манипуляции; они также имеют то преимущество, что работают с матрицами с элементами в любом коммутативном кольце .

Существует множество таких доказательств теоремы Кэли–Гамильтона, некоторые из которых будут приведены здесь. Они различаются по количеству абстрактных алгебраических понятий, необходимых для понимания доказательства. Простейшие доказательства используют только те понятия, которые необходимы для формулировки теоремы (матрицы, многочлены с числовыми элементами, определители), но включают в себя технические вычисления, которые делают несколько загадочным тот факт, что они приводят именно к правильному выводу. Таких подробностей можно избежать, но ценой привлечения более тонких алгебраических понятий: многочленов с коэффициентами в некоммутативном кольце или матриц с необычными типами элементов.

Сопряженные матрицы

Во всех приведенных ниже доказательствах используется понятие сопряженной матрицы $adj(M)$ размера $n \times n$ матрицы $M$ , транспонированной ее матрицы-сомножителя . Это матрица, коэффициенты которой задаются полиномиальными выражениями в коэффициентах $M$ (фактически, определенными $(n - 1) \times (n - 1)$ определителями), таким образом, что выполняются следующие фундаментальные соотношения: $\operatorname {adj} (M)\cdot M=\det(M)I_{n}=M\cdot \operatorname {adj} (M)~.$ Эти отношения являются прямым следствием основных свойств определителей: вычисление записи $(i, j)$ матричного произведения слева дает разложение по столбцу $j$ определителя матрицы, полученной из $M$ путем замены столбца $i$ на копия столбца $j$ , которая равна $det(M),$ если $i = j,$ и нулю в противном случае; матричное произведение справа аналогично, но для разложения по строкам.

Будучи следствием простого манипулирования алгебраическими выражениями, эти соотношения действительны для матриц с элементами в любом коммутативном кольце (для определения определителей необходимо предположить коммутативность). Здесь важно отметить это, поскольку эти отношения будут применяться ниже к матрицам с нечисловыми элементами, такими как полиномы.

Прямое алгебраическое доказательство

В этом доказательстве используются именно те объекты, которые необходимы для формулировки теоремы Кэли–Гамильтона: матрицы с полиномами в качестве элементов. Матрица $t I n - A$ , определителем которой является характеристический многочлен матрицы $A,$ является такой матрицей, и, поскольку многочлены образуют коммутативное кольцо, она имеет сопряженное $B=\operatorname {adj} (tI_{n}-A).$ Тогда, согласно правому фундаментальному соотношению сопряженного, имеем $(tI_{n}-A)B=\det(tI_{n}-A)I_{n}=p(t)I_{n}.$

Поскольку $B$ также является матрицей с полиномами от $t$ в качестве элементов, можно для каждого $i$ собрать коэффициенты $t я$ в каждой записи, чтобы сформировать матрицу $чисел B i$ такую, что имеется $B=\sum _{i=0}^{n-1}t^{i}B_{i}.$ (То, как определены элементы $B,$ ясно показывает, что никакие степени выше $t п -1$ происходить). Хотя это выглядит как полином с матрицами в качестве коэффициентов, мы не будем рассматривать такое понятие; это просто способ записать матрицу с полиномиальными элементами как линейную комбинацию $n$ постоянных матриц и коэффициента $t я$ написано слева от матрицы, чтобы подчеркнуть эту точку зрения.

Теперь можно разложить матричное произведение в нашем уравнении по билинейности: ${\begin{aligned}p(t)I_{n}&=(tI_{n}-A)B\\&=(tI_{n}-A)\sum _{i=0}^{n-1}t^{i}B_{i}\\&=\sum _{i=0}^{n-1}tI_{n}\cdot t^{i}B_{i}-\sum _{i=0}^{n-1}A\cdot t^{i}B_{i}\\&=\sum _{i=0}^{n-1}t^{i+1}B_{i}-\sum _{i=0}^{n-1}t^{i}AB_{i}\\&=t^{n}B_{n-1}+\sum _{i=1}^{n-1}t^{i}(B_{i-1}-AB_{i})-AB_{0}.\end{aligned}}$

Письмо $p(t)I_{n}=t^{n}I_{n}+t^{n-1}c_{n-1}I_{n}+\cdots +tc_{1}I_{n}+c_{0}I_{n},$ получается равенство двух матриц с полиномиальными элементами, записанными в виде линейных комбинаций постоянных матриц со степенями $t$ в качестве коэффициентов.

Такое равенство может иметь место только в том случае, если в любой позиции матрицы присутствует элемент, умноженный на заданную степень $t я$ одинаков с обеих сторон; то постоянные матрицы с коэффициентом $t я$ в обоих выражениях должны быть равны. Записав эти уравнения для $i$ от $n$ до 0, можно найти $B_{n-1}=I_{n},\qquad B_{i-1}-AB_{i}=c_{i}I_{n}\quad {\text{for }}1\leq i\leq n-1,\qquad -AB_{0}=c_{0}I_{n}.$

Наконец, умножим уравнение коэффициентов $t я$ слева от $А я$ и подведем итог:

$A^{n}B_{n-1}+\sum \limits _{i=1}^{n-1}\left(A^{i}B_{i-1}-A^{i+1}B_{i}\right)-AB_{0}=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}.$

Левые части образуют телескопическую сумму и полностью сокращаются; правые части в сумме составляют $p(A)$ : $0=p(A).$ Это завершает доказательство.

Доказательство с использованием полиномов с матричными коэффициентами.

Это доказательство похоже на первое, но пытается придать смысл понятию многочлена с матричными коэффициентами, которое было предложено выражениями, встречающимися в этом доказательстве. Это требует значительной осторожности, поскольку несколько необычно рассматривать многочлены с коэффициентами в некоммутативном кольце, и не все рассуждения, справедливые для коммутативных многочленов, могут быть применены в этом случае.

Примечательно, что хотя арифметика полиномов над коммутативным кольцом моделирует арифметику полиномиальных функций , это не относится к некоммутативному кольцу (фактически в этом случае не существует очевидного понятия полиномиальной функции, замкнутой при умножении). Поэтому при рассмотрении полиномов от $t$ с матричными коэффициентами переменную $t$ следует рассматривать не как «неизвестную», а как формальный символ, которым нужно манипулировать в соответствии с заданными правилами; в частности, нельзя просто установить $t$ на определенное значение. $(f+g)(x)=\sum _{i}\left(f_{i}+g_{i}\right)x^{i}=\sum _{i}{f_{i}x^{i}}+\sum _{i}{g_{i}x^{i}}=f(x)+g(x).$

Позволять $M(n,R)$ — кольцо $матриц размера n \times n$ с элементами некоторого кольца R (например, вещественных или комплексных чисел) $которого является A.$ , элементом Матрицы с полиномами коэффициентов от $t$ , такие как $tI_{n}-A$ или его сопряженный B в первом доказательстве являются элементами $M(n,R[t])$ .

Собирая одинаковые степени $t$ , такие матрицы можно записать как «полиномы» от $t$ с постоянными матрицами в качестве коэффициентов; писать $M(n,R)[t]$ для множества таких многочленов. Поскольку это множество находится в биекции с $M(n,R[t])$ , над ним соответственно определяются арифметические операции, в частности, умножение задается формулой $\left(\sum _{i}M_{i}t^{i}\right)\!\!\left(\sum _{j}N_{j}t^{j}\right)=\sum _{i,j}(M_{i}N_{j})t^{i+j},$ соблюдение порядка матриц коэффициентов из двух операндов; очевидно, это дает некоммутативное умножение.

Таким образом, тождество $(tI_{n}-A)B=p(t)I_{n}.$ из первого доказательства можно рассматривать как доказательство, включающее умножение элементов в $M(n,R)[t]$ .

На этом этапе возникает соблазн просто установить $t$ равным матрице $A$ , что делает первый множитель слева равным нулевой матрице, а правую часть — $p (A)$ ; однако это недопустимая операция, если коэффициенты не коммутируют. Можно определить «отображение с правой оценкой» $ev A : M [t] \to M$ , которое заменяет каждый $t я$ по степени матрицы $A я$ A $, где оговаривается ,$ что степень всегда следует умножать справа на соответствующий коэффициент. Но это отображение не является кольцевым гомоморфизмом : правая оценка произведения, вообще говоря, отличается от произведения правых оценок. Это так, потому что умножение полиномов на матричные коэффициенты не моделирует умножение выражений, содержащих неизвестные: произведение $Mt^{i}Nt^{j}=(M\cdot N)t^{i+j}$ определяется в предположении, что $коммутирует$ с $N$ , но это может оказаться неудачным, если $t$ заменить матрицей $A.$ t

Эту трудность можно обойти в конкретной ситуации, поскольку указанное выше отображение с правым вычислением действительно становится кольцевым гомоморфизмом, если матрица $A$ находится в центре кольца коэффициентов, так что она коммутирует со всеми коэффициентами многочленов. (аргумент, доказывающий это, прост, именно потому, что коммутация $t$ с коэффициентами теперь оправдана после вычисления).

Теперь $A$ не всегда находится в центре $M$ , но мы можем заменить $M$ кольцом меньшего размера, если оно содержит все коэффициенты рассматриваемых многочленов: $I_{n}$ , $A$ и коэффициенты $B_{i}$ многочлена $B$ . Очевидным выбором для такого подкольца является централизатор $Z$ кольца $A$ , подкольцо всех матриц, коммутирующих с $A$ ; по определению $A$ в центре $Z.$ находится

Этот централизатор, очевидно, содержит $I_{n}$ , и $A$ , но нужно показать, что он содержит матрицы $B_{i}$ . Для этого объединяем два фундаментальных соотношения для адъюгатов, записывая адъюгат $B$ в виде многочлена: ${\begin{aligned}\left(\sum _{i=0}^{m}B_{i}t^{i}\right)\!(tI_{n}-A)&=(tI_{n}-A)\sum _{i=0}^{m}B_{i}t^{i}\\\sum _{i=0}^{m}B_{i}t^{i+1}-\sum _{i=0}^{m}B_{i}At^{i}&=\sum _{i=0}^{m}B_{i}t^{i+1}-\sum _{i=0}^{m}AB_{i}t^{i}\\\sum _{i=0}^{m}B_{i}At^{i}&=\sum _{i=0}^{m}AB_{i}t^{i}.\end{aligned}}$

Приравнивание коэффициентов показывает, что для каждого $i$ имеем $AB i = B i A,$ как и хотелось. Найдя подходящую ситуацию, в которой $ev A$ действительно является гомоморфизмом колец, можно завершить доказательство, как предложено выше: ${\begin{aligned}\operatorname {ev} _{A}\left(p(t)I_{n}\right)&=\operatorname {ev} _{A}((tI_{n}-A)B)\\[5pt]p(A)&=\operatorname {ev} _{A}(tI_{n}-A)\cdot \operatorname {ev} _{A}(B)\\[5pt]p(A)&=(AI_{n}-A)\cdot \operatorname {ev} _{A}(B)=O\cdot \operatorname {ev} _{A}(B)=O.\end{aligned}}$ Это завершает доказательство.

Синтез первых двух доказательств

В первом доказательстве удалось определить коэффициенты $B i$ функции $B$ на основе правого фундаментального соотношения только для сопряженного. Фактически, первые $n$ полученных уравнений можно интерпретировать как определение фактора $B$ евклидова деления многочлена $p (t) I n$ слева по моническому многочлену $I n t - A$ , в то время как последнее уравнение выражает тот факт, что остаток равен нулю. Это деление осуществляется в кольце многочленов с матричными коэффициентами. Действительно, даже над некоммутативным кольцом евклидово деление на монический многочлен $P$ определено и всегда дает уникальное частное и остаток с тем же условием степени , что и в коммутативном случае, при условии, что указано, на какой стороне нужно, $P$ чтобы быть фактором (здесь это слева).

Чтобы увидеть, что частное и остаток уникальны (что является важной частью утверждения), достаточно написать $PQ+r=PQ'+r'$ как $P(Q-Q')=r'-r$ и заметим, что, поскольку $P$ является унитарным, $P (Q - Q' )$ не может иметь степень меньше, чем степень $P$ , если только $Q = Q'$ .

Но использованные здесь делимое $p (t) I n$ и делитель $I n t - A$ лежат в подкольце $(R [A])[t]$ , где $R [A]$ — подкольцо кольца матриц $M (n, R),$ A $:$ R $-$ линейная совокупность всех степеней $A.$ порожденный Следовательно, евклидово деление фактически может быть выполнено внутри этого коммутативного кольца многочленов, и, конечно, тогда оно дает то же частное $B$ и остаток 0, что и в большем кольце; в частности, это показывает, что $B$ на самом деле лежит в $(R [A])[t]$ .

Но в этой коммутативной ситуации допустимо установить $t$ равным $A$ в уравнении

$p(t)I_{n}=(tI_{n}-A)B;$

другими словами, применить оценочную карту

$\operatorname {ev} _{A}:(R[A])[t]\to R[A]$

который является кольцевым гомоморфизмом, дающим

$p(A)=0\cdot \operatorname {ev} _{A}(B)=0$

как и во втором доказательстве, по желанию.

В дополнение к доказательству теоремы приведенный выше аргумент говорит нам, что коэффициенты $B i$ группы $B$ являются полиномами от $A$ , тогда как из второго доказательства мы знали только, что они лежат в централизаторе $Z$ группы $A$ ; вообще $Z$ — большее подкольцо, чем $R [A]$ и не обязательно коммутативное. В частности, постоянный член $B 0 = adj(- A)$ лежит в $R [A]$ . Поскольку $A$ — произвольная квадратная матрица, это доказывает, что $adj(A)$ всегда можно выразить как полином от $A$ (с коэффициентами, зависящими от $A)$ .

Действительно, уравнения, найденные в первом доказательстве, позволяют последовательно выразить $B_{n-1},\ldots ,B_{1},B_{0}$ как полиномы от $A$ , что приводит к тождеству

$\operatorname {adj} (-A)=\sum _{i=1}^{n}c_{i}A^{i-1},$

справедливо для всех $матриц размера n \times n$ , где $p(t)=t^{n}+c_{n-1}t^{n-1}+\cdots +c_{1}t+c_{0}$ является характеристическим полиномом $A$ .

Заметим, что из этого тождества также следует утверждение теоремы Кэли–Гамильтона: можно переместить $adj(- A)$ в правую часть, умножить полученное уравнение (слева или справа) на $A$ и использовать тот факт, что $-A\cdot \operatorname {adj} (-A)=\operatorname {adj} (-A)\cdot (-A)=\det(-A)I_{n}=c_{0}I_{n}.$

Доказательство с использованием матриц эндоморфизмов

Как упоминалось выше, матрица p ( A ) в формулировке теоремы получается сначала вычислением определителя, а затем заменой матрицу A на t ; делая эту замену в матрице $tI_{n}-A$ до вычисления определителя не имеет смысла. Тем не менее, можно дать интерпретацию, где $p (A)$ получается непосредственно как значение некоторого определителя, но для этого требуется более сложная установка, одна из матриц над кольцом, в которой можно интерпретировать обе записи $A_{i,j}$ A $A.$ весь $сам$ и Для этого можно взять кольцо $M (n, R)$ матриц размера $n \times n$ над $R$ , где запись $A_{i,j}$ реализуется как $A_{i,j}I_{n}$ , и $A$ как самого себя. Но рассмотрение матриц с матрицами в качестве элементов может привести к путанице с блочными матрицами , что не предусмотрено, поскольку это дает неверное представление об определителе (напомним, что определитель матрицы определяется как сумма произведений ее элементов, и в случае блочной матрицы это, как правило, не то же самое, что соответствующая сумма произведений ее блоков!). Нагляднее отличить $A$ от эндоморфизма $φ$ мерного $n$ - , векторного пространства V (или свободного $R$ -модуля если $R$ не является полем), определенного им в базисе $e_{1},\ldots ,e_{n}$ и взять матрицы над кольцом End( V ) всех таких эндоморфизмов. Тогда $φ \in End(V)$ является возможным элементом матрицы, а $A$ обозначает элемент $M (n, End(V)),$ которого $элемент i, j$ является эндоморфизмом скалярного умножения на $A_{i,j}$ ; сходным образом $I_{n}$ будет интерпретироваться как элемент $M (n, End(V))$ . Однако, поскольку $End(V)$ не определен определитель $не является коммутативным кольцом, на M (n, End(V))$ ; это можно сделать только для матриц над коммутативным подкольцом $End(V)$ . Теперь элементы матрицы $\varphi I_{n}-A$ все они лежат в подкольце $R [φ],$ порожденном единицей и $φ$ , которое является коммутативным. определительное отображение $M (n, R [φ]) \to R [φ] и$ Тогда определено $\det(\varphi I_{n}-A)$ оценивается как значение $p (φ)$ характеристического полинома $A$ в точке $φ$ (это справедливо независимо от соотношения между $A$ и $φ$ ); теорема Кэли-Гамильтона утверждает, что $p (φ)$ является нулевым эндоморфизмом.

В этой форме можно получить следующее доказательство из доказательства Атьи и Макдональда (1969 , предложение 2.4) (которое на самом деле является более общим утверждением, связанным с леммой Накаямы принимается ; в этом предложении в качестве идеала все кольцо $R$ ). Тот факт, что $A$ является матрицей $φ$ в базисе $e 1, ..., en,$ означает, что $\varphi (e_{i})=\sum _{j=1}^{n}A_{j,i}e_{j}\quad {\text{for }}i=1,\ldots ,n.$ Их можно интерпретировать как $n$ компонентов одного уравнения в $V н$ , члены которого можно записать с помощью матрично-векторного произведения $M (n, End(V)) \times V н \to V н$ который определяется как обычно, но с отдельными элементами $ψ \in End(V)$ и $v$ в $V,$ которые «умножаются» путем формирования $\psi (v)$ ; это дает: $\varphi I_{n}\cdot E=A^{\operatorname {tr} }\cdot E,$ где $E\in V^{n}$ — это элемент, компонент которого $i$ равен $ei ($ другими словами, это базис $записанный в виде столбца)$ векторов $e 1 , ..., en V,$ . Записав это уравнение как $(\varphi I_{n}-A^{\operatorname {tr} })\cdot E=0\in V^{n}$ распознается транспонирование матрицы $\varphi I_{n}-A$ рассмотренный выше, и его определитель (как элемент $M (n, R [φ]))$ также равен p ( φ ). Чтобы вывести из этого уравнения, что $p (φ) = 0 \in End(V)$ , нужно умножить слева на матрицу сопряженную $\varphi I_{n}-A^{\operatorname {tr} }$ , который определен в кольце матриц $M (n, R [φ])$ , что дает ${\begin{aligned}0&=\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot \left((\varphi I_{n}-A^{\operatorname {tr} })\cdot E\right)\\[1ex]&=\left(\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot (\varphi I_{n}-A^{\operatorname {tr} })\right)\cdot E\\[1ex]&=\left(\det(\varphi I_{n}-A^{\operatorname {tr} })I_{n}\right)\cdot E\\[1ex]&=(p(\varphi )I_{n})\cdot E;\end{aligned}}$ ассоциативность умножения матрица-матрица и матрица-вектор , использованная на первом этапе, является чисто формальным свойством этих операций, не зависящим от характера записей. Теперь компонент $i$ этого уравнения говорит, что $p (φ)(e i) = 0 \in V$ ; таким образом, $p (φ)$ обращается в нуль на всех $ei p$ , и поскольку эти элементы порождают $V,$ отсюда следует, что $(φ) = 0 \in End(V)$ , что завершает доказательство.

Еще один факт, который следует из этого доказательства, заключается в том, что матрица $A$ , характеристический многочлен которой взят, не обязательно должна быть идентична значению $φ,$ подставленному в этот многочлен; достаточно, чтобы $φ$ был эндоморфизмом $V,$ удовлетворяющим исходным уравнениям

$\varphi (e_{i})=\sum _{j}A_{j,i}e_{j}$ для некоторой последовательности элементов $e 1, ..., en,$ порождающей $V$ (это пространство может иметь меньшую размерность, чем $n$ , или, если кольцо $R$ не является полем, оно может не быть свободным модулем вообще ).

Фальшивое «доказательство»: $p (A) = det(AI n - A) = det(A - A) = 0$

Один настойчивый элементарный, но неверный аргумент ^[17] ибо теорема состоит в том, чтобы «просто» взять определение $p(\lambda )=\det(\lambda I_{n}-A)$ и замените $A$ на $λ$ , получив $p(A)=\det(AI_{n}-A)=\det(A-A)=\det(\mathbf {0} )=0.$

Есть много способов понять, почему этот аргумент неверен. Во-первых, в теореме Кэли-Гамильтона $p (A)$ является $размера n \times n$ матрицей . Однако правая часть приведенного выше уравнения представляет собой значение определителя, который является скаляром . Поэтому их нельзя приравнять, если только $n = 1$ (т. е. $A$ — просто скаляр). Во-вторых, в выражении $\det(\lambda I_{n}-A)$ , переменная λ фактически встречается в диагональных элементах матрицы $\lambda I_{n}-A$ . Для иллюстрации снова рассмотрим характеристический полином из предыдущего примера:

$\det \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}.$

Если заменить всю матрицу $A$ на $λ$ в этих позициях, получим

$\det \!{\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-1&-2\\-3&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4\end{pmatrix}},$

в котором «матричное» выражение просто недопустимо. Однако обратите внимание, что если скалярные кратные единичных матрицвместо скаляров вычитаются выше, т.е. если замена выполняется как

$\det \!{\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-I_{2}&-2I_{2}\\-3I_{2}&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4I_{2}\end{pmatrix}},$

тогда определитель действительно равен нулю, но рассматриваемая расширенная матрица не имеет значения $AI_{n}-A$ ; и его определитель (скаляр) нельзя сравнивать с p ( A ) (матрицей). Итак, аргумент о том, что $p(A)=\det(AI_{n}-A)=0$ до сих пор не применяется.

На самом деле, если такой аргумент верен, он должен быть верен и тогда, когда другие полилинейные формы вместо определителя используются . Например, если мы рассмотрим постоянную функцию и определим $q(\lambda )=\operatorname {perm} (\lambda I_{n}-A)$ , то с помощью того же аргумента мы сможем «доказать», что $q (A) = 0$ . Но это утверждение явно неверно: например, в двумерном случае перманент матрицы определяется выражением

$\operatorname {perm} \!{\begin{pmatrix}a&b\\c&d\end{pmatrix}}=ad+bc.$

Итак, для матрицы $A$ в предыдущем примере:

${\begin{aligned}q(\lambda )&=\operatorname {perm} (\lambda I_{2}-A)=\operatorname {perm} \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}\\[6pt]&=(\lambda -1)(\lambda -4)+(-2)(-3)=\lambda ^{2}-5\lambda +10.\end{aligned}}$

И все же можно убедиться в том, что

$q(A)=A^{2}-5A+10I_{2}=12I_{2}\neq 0.$

Одно из приведенных выше доказательств теоремы Кэли–Гамильтона имеет некоторое сходство с аргументом о том, что $p(A)=\det(AI_{n}-A)=0$ . Вводя матрицу с нечисловыми коэффициентами, можно фактически позволить $А$ жить внутри элемента матрицы, но тогда $AI_{n}$ не равно $A$ , и вывод делается иначе.

Доказательства методами абстрактной алгебры.

Основные свойства дифференцирований Хассе–Шмидта на внешней алгебре ${\textstyle A=\bigwedge M}$ некоторого $B$ - модуля $M$ (предполагаемого свободным и конечного ранга) были использованы Гатто и Салехьяном (2016 , §4) для доказательства теоремы Кэли–Гамильтона. См. также Гатто и Щербак (2015) .

Абстракция и обобщения

Приведенные выше доказательства показывают, что теорема Кэли–Гамильтона справедлива для матриц с элементами в любом коммутативном кольце $R$ и что $p (φ) = 0$ будет выполняться всякий раз, когда $φ$ является эндоморфизмом $R$ -модуля, порожденного элементами $e 1,... , en что$ удовлетворяет

$\varphi (e_{j})=\sum a_{ij}e_{i},\qquad j=1,\ldots ,n.$

Эта более общая версия теоремы является источником знаменитой леммы Накаямы в коммутативной алгебре и алгебраической геометрии .

Теорема Кэли-Гамильтона также справедлива для матриц над кватернионами , некоммутативным кольцом . ^[18]^{[номер 3]}

См. также

Сопутствующая матрица

Примечания

^ См. раздел. 2 Криворученко (2016) . Явное выражение для коэффициентов $c i$ предоставлено Кондратюком и Криворученко (1992) : $c_{i}=\sum _{k_{1},k_{2},\ldots ,k_{n}}\prod _{l=1}^{n}{\frac {(-1)^{k_{l}+1}}{l^{k_{l}}k_{l}!}}\operatorname {tr} (A^{l})^{k_{l}},$ где сумма берется по множествам всех целочисленных разбиений $k l \geq 0,$ удовлетворяющих уравнению $\sum _{l=1}^{n}lk_{l}=n-i.$
^ См., например, с. 54 Брауна 1994 года , который решает формулу Якоби , ${\frac {\partial p(\lambda )}{\partial \lambda }}=p(\lambda )\sum _{m=0}^{\infty }\lambda ^{-(m+1)}\operatorname {tr} A^{m}=p(\lambda )~\operatorname {tr} {\frac {I}{\lambda I-A}}\equiv \operatorname {tr} B~,$ где $B$ — сопряженная матрица следующего раздела.Также существует эквивалентный родственный рекурсивный алгоритм, предложенный Урбеном Леверье и Дмитрием Константиновичем Фаддеевым, — алгоритм Фаддеева–Леверье , который читается ${\begin{aligned}M_{0}&\equiv O&c_{n}&=1\qquad &(k=0)\\[5pt]M_{k}&\equiv AM_{k-1}-{\frac {1}{k-1}}(\operatorname {tr} (AM_{k-1}))I\qquad \qquad &c_{n-k}&=-{\frac {1}{k}}\operatorname {tr} (AM_{k})\qquad &k=1,\ldots ,n~.\end{aligned}}$ (см., например, Gantmacher 1960 , стр. 88.) Заметьте $A -1 = - M n / c 0,$ когда рекурсия завершается.См. алгебраическое доказательство в следующем разделе, которое основано на модах сопряженного $B k \equiv M n - k$ .Конкретно, $(\lambda I-A)B=Ip(\lambda )$ и приведенная выше производная от $p,$ если ее проследить, дает $\lambda p'-np=\operatorname {tr} (AB)~,$ ( Hou 1998 ) и вышеупомянутые рекурсии, в свою очередь.
^ Из-за некоммутативного характера операции умножения для кватернионов и связанных с ними конструкций необходимо проявлять осторожность при определениях, особенно в этом контексте, для определителя. Теорема справедлива и для несколько менее «хороших» расщепленных кватернионов , см. Alagös, Oral & Yüce (2012) . Кольца кватернионов и разделенные кватернионы могут быть представлены определенными $комплексными матрицами размера 2 \times 2$ . (Если ограничиться единичной нормой, это группы $SU(2)$ и $SU(1,1)$ соответственно.) Поэтому неудивительно, что теорема верна.
такого матричного представления не существует Для октонионов , поскольку операция умножения в данном случае не ассоциативна . Однако модифицированная теорема Кэли-Гамильтона по-прежнему справедлива для октонионов, см. Tian (2000) .

Примечания

^ Jump up to: ^а ^б Крилли 1998 г.
^ Jump up to: ^а ^б Гамильтон 1864а
^ Jump up to: ^а ^б Гамильтон 1864b
^ Jump up to: ^а ^б Гамильтон 1862 г.
^ Атья и Макдональд 1969
^ Гамильтон 1853 , с. 562
^ Кэли 1858 , стр. 17–37.
^ Кэли 1889 , стр. 475–496.
^ Jump up to: ^а ^б Фробениус 1878 г.
^ Зени и Родригес 1992
^ Барут, Зени и Лауфер 1994a
^ Барут, Зени и Лауфер, 1994b.
^ Лауфер 1997
^ Куртрайт, Фэрли и Захос, 2014 г.
^ Штейн, Уильям. Алгебраическая теория чисел, вычислительный подход (PDF) . п. 29.
^ Бхатия 1997 , с. 7
^ Гарретт 2007 , с. 381
^ Чжан 1997

Ссылки

Алагос, Ю.; Орал, К.; Юдже, С. (2012). «Разделение кватернионных матриц» . Мишкольц Математические заметки . 13 (2): 223–232. дои : 10.18514/MMN.2012.364 . ISSN 1787-2405 (открытый доступ)
Атья, Миссури ; Макдональд, IG (1969), Введение в коммутативную алгебру , Westview Press, ISBN 978-0-201-40751-8
Барут, АО ; Зени, младший; Лауфер, А. (1994a). «Экспоненциальное отображение конформной группы O (2,4)». Дж. Физ. А: Математика. Ген . 27 (15): 5239–5250. arXiv : hep-th/9408105 . Бибкод : 1994JPhA...27.5239B . дои : 10.1088/0305-4470/27/15/022 .
Барут, АО ; Зени, младший; Лауфер, А. (1994b). «Экспоненциальное отображение унитарной группы SU (2,2)». Дж. Физ. А: Математика. Ген . 27 (20): 6799–6806. arXiv : hep-th/9408145 . Бибкод : 1994JPhA...27.6799B . дои : 10.1088/0305-4470/27/20/017 . S2CID 16495633 .
Бхатия, Р. (1997). Матричный анализ . Дипломные тексты по математике. Том. 169. Спрингер. ISBN 978-0387948461 .
Браун, Лоуэлл С. (1994). Квантовая теория поля . Издательство Кембриджского университета . ISBN 978-0-521-46946-3 .
Кэли, А. (1858). «Мемуары по теории матриц». Филос. Транс . 148 .
Кэли, А. (1889). Сборник математических статей Артура Кэли . (Классическая перепечатка). Том. 2. Забытые книги. ASIN B008HUED9O .
Крилли, Т. (1998). «Молодой Артур Кэли». Примечания Рек. Р. Сок. Лонд . 52 (2): 267–282. дои : 10.1098/rsnr.1998.0050 . S2CID 146669911 .
Куртрайт, ТЛ ; Фэрли, Д.Б. ; Захос, СК (2014). «Компактная формула для вращений как полиномов матрицы спина». СИГМА . 10 (2014): 084. arXiv : 1402.3541 . Бибкод : 2014SIGMA..10..084C . дои : 10.3842/SIGMA.2014.084 . S2CID 18776942 .
Фробениус, Г. (1878). «О линейных заменах и билинейных формах». Дж. Рейн Анжью. Математика . 1878 (84): 1–63. дои : 10.1515/crll.1878.84.1 .
Гантмахер, Франция (1960). Теория матриц . Нью-Йорк: Издательство Челси. ISBN 978-0-8218-1376-8 .
Гатто, Леттерио; Салехян, Пархэм (2016), Выводы Хассе–Шмидта на алгебрах Грассмана , Спрингер, doi : 10.1007/978-3-319-31842-4 , ISBN 978-3-319-31842-4 , МР 3524604
Гатто, Леттерио; Щербак, Инна (2015), Замечания к теореме Кэли-Гамильтона , arXiv : 1510.03022
Гарретт, Пол Б. (2007). Абстрактная алгебра . Нью-Йорк: Чепмен и Холл/CRC. ISBN 978-1584886891 .
Гамильтон, WR (1853 г.). Лекции по кватернионам . Дублин. {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
Гамильтон, WR (1864a). «О новом и общем методе обращения линейной и кватернионной функции кватерниона». Труды Королевской ирландской академии . VIII : 182–183. (сообщено 9 июня 1862 г.)
Гамильтон, WR (1864b). «О существовании символического и биквадратного уравнения, которому удовлетворяет символ линейной операции в кватернионах». Труды Королевской ирландской академии . VIII : 190–101. (сообщено 23 июня 1862 г.)
Хоу, SH (1998). «Классная заметка: простое доказательство алгоритма характеристического полинома Леверье-Фаддеева». Обзор СИАМ . 40 (3): 706–709. Бибкод : 1998SIAMR..40..706H . дои : 10.1137/S003614459732076X . «Классная записка: простое доказательство алгоритма характеристического полинома Леверье-Фаддеева»
Гамильтон, WR (1862 г.). «О существовании символического и биквадратного уравнения, которому удовлетворяет символ линейной или распределительной операции над кватернионом» . Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал . серия IV . 24 : 127–128. ISSN 1478-6435 . Проверено 14 февраля 2015 г.
Домовладелец, Олстон С. (2006). Теория матриц в численном анализе . Дуврские книги по математике. ISBN 978-0486449722 .
Криворученко, М.И. (2016). «Тождества трассировок для кососимметричных матриц». arXiv : 1605.00447 .
Кондратюк Л.А.; Криворученко, М.И. (1992). «Сверхпроводящая кварковая материя цветовой группы SU (2)». Журнал физики А. 344 (1): 99–115. Бибкод : 1992ZPhyA.344...99K . дои : 10.1007/BF01291027 . S2CID 120467300 .
Лауфер, А. (1997). «Экспоненциальная карта GL (N)». Дж. Физ. А: Математика. Ген . 30 (15): 5455–5470. arXiv : hep-th/9604049 . Бибкод : 1997JPhA...30.5455L . дои : 10.1088/0305-4470/30/15/029 . S2CID 10699434 .
Тиан, Ю. (2000). «Матричные представления октонионов и их применение». Достижения в области прикладной алгебры Клиффорда . 10 (1): 61–90. arXiv : math/0003166 . Бибкод : 2000math......3166T . CiteSeerX 10.1.1.237.2217 . дои : 10.1007/BF03042010 . ISSN 0188-7009 . S2CID 14465054 .
Зени, младший; Родригес, Вашингтон (1992). «Вдумчивое исследование преобразований Лоренца алгебрами Клиффорда». Межд. Дж. Мод. Физ. А. 7 (8): 1793 стр. Бибкод : 1992IJMPA...7.1793Z . дои : 10.1142/S0217751X92000776 .
Чжан, Ф. (1997). «Кватернионы и матрицы кватернионов» . Линейная алгебра и ее приложения . 251 : 21–57. дои : 10.1016/0024-3795(95)00543-9 . ISSN 0024-3795 (открытый архив).

Внешние ссылки

[10] См. раздел. 2 Криворученко (2016) . Явное выражение для коэффициентов $c i$ предоставлено Кондратюком и Криворученко (1992) : $c_{i}=\sum _{k_{1},k_{2},\ldots ,k_{n}}\prod _{l=1}^{n}{\frac {(-1)^{k_{l}+1}}{l^{k_{l}}k_{l}!}}\operatorname {tr} (A^{l})^{k_{l}},$ где сумма берется по множествам всех целочисленных разбиений $k l \geq 0,$ удовлетворяющих уравнению $\sum _{l=1}^{n}lk_{l}=n-i.$

[11] См., например, с. 54 Брауна 1994 года , который решает формулу Якоби , ${\frac {\partial p(\lambda )}{\partial \lambda }}=p(\lambda )\sum _{m=0}^{\infty }\lambda ^{-(m+1)}\operatorname {tr} A^{m}=p(\lambda )~\operatorname {tr} {\frac {I}{\lambda I-A}}\equiv \operatorname {tr} B~,$ где $B$ — сопряженная матрица следующего раздела.Также существует эквивалентный родственный рекурсивный алгоритм, предложенный Урбеном Леверье и Дмитрием Константиновичем Фаддеевым, — алгоритм Фаддеева–Леверье , который читается ${\begin{aligned}M_{0}&\equiv O&c_{n}&=1\qquad &(k=0)\\[5pt]M_{k}&\equiv AM_{k-1}-{\frac {1}{k-1}}(\operatorname {tr} (AM_{k-1}))I\qquad \qquad &c_{n-k}&=-{\frac {1}{k}}\operatorname {tr} (AM_{k})\qquad &k=1,\ldots ,n~.\end{aligned}}$ (см., например, Gantmacher 1960 , стр. 88.) Заметьте $A -1 = - M n / c 0,$ когда рекурсия завершается.См. алгебраическое доказательство в следующем разделе, которое основано на модах сопряженного $B k \equiv M n - k$ .Конкретно, $(\lambda I-A)B=Ip(\lambda )$ и приведенная выше производная от $p,$ если ее проследить, дает $\lambda p'-np=\operatorname {tr} (AB)~,$ ( Hou 1998 ) и вышеупомянутые рекурсии, в свою очередь.

[21] Из-за некоммутативного характера операции умножения для кватернионов и связанных с ними конструкций необходимо проявлять осторожность при определениях, особенно в этом контексте, для определителя. Теорема справедлива и для несколько менее «хороших» расщепленных кватернионов , см. Alagös, Oral & Yüce (2012) . Кольца кватернионов и разделенные кватернионы могут быть представлены определенными $комплексными матрицами размера 2 \times 2$ . (Если ограничиться единичной нормой, это группы $SU(2)$ и $SU(1,1)$ соответственно.) Поэтому неудивительно, что теорема верна.
такого матричного представления не существует Для октонионов , поскольку операция умножения в данном случае не ассоциативна . Однако модифицированная теорема Кэли-Гамильтона по-прежнему справедлива для октонионов, см. Tian (2000) .

[Crilly_1-1] Jump up to: ^а ^б Крилли 1998 г.

[Hamilton_1864a-2] Jump up to: ^а ^б Гамильтон 1864а

[Hamilton_1864b-3] Jump up to: ^а ^б Гамильтон 1864b

[Hamilton_1862-4] Jump up to: ^а ^б Гамильтон 1862 г.

[5] Атья и Макдональд 1969

[Hamilton_1853-6] Гамильтон 1853 , с. 562

[7] Кэли 1858 , стр. 17–37.

[8] Кэли 1889 , стр. 475–496.

[Frobenius_1878-9] Jump up to: ^а ^б Фробениус 1878 г.

[12] Зени и Родригес 1992

[13] Барут, Зени и Лауфер 1994a

[14] Барут, Зени и Лауфер, 1994b.

[15] Лауфер 1997

[16] Куртрайт, Фэрли и Захос, 2014 г.

[17] Штейн, Уильям. Алгебраическая теория чисел, вычислительный подход (PDF) . п. 29.

[18] Бхатия 1997 , с. 7

[19] Гарретт 2007 , с. 381

[20] Чжан 1997

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[номер 1]

[номер 2]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[номер 3]

Примеры

1 × 1 матрицы

2 × 2 матрицы

Приложения

Определитель и обратная матрица

n -я степень матрицы

Матричные функции

Алгебраическая теория чисел

Доказательства

Предварительные сведения

Сопряженные матрицы

Прямое алгебраическое доказательство

Доказательство с использованием полиномов с матричными коэффициентами.

Синтез первых двух доказательств

Доказательство с использованием матриц эндоморфизмов

Фальшивое «доказательство»: p ( A ) = det( AI n - A ) = det( A - A ) = 0

Доказательства методами абстрактной алгебры.

Абстракция и обобщения

См. также

Примечания

Примечания

Ссылки

Внешние ссылки

$1 \times 1$ матрицы

$2 \times 2$ матрицы

Фальшивое «доказательство»: $p (A) = det(AI n - A) = det(A - A) = 0$