Дано выражение для производной составной функции f(g(x)). Приведите несколько формулировок и докажите, при каких условиях формула дифференцирования по цепочке корректна
Формулировки (несколько эквивалентных вариантов). 1) (одномерный случай). Пусть ggg дифференцируема в точке aaa и fff дифференцируема в точке g(a)g(a)g(a). Тогда композиция f∘gf\circ gf∘g дифференцируема в aaa и (f∘g)′(a)=f′(g(a))⋅g′(a).
(f\circ g)'(a)=f'(g(a))\cdot g'(a). (f∘g)′(a)=f′(g(a))⋅g′(a). 2) (вектор-значный внешний). Пусть g:R→Rmg:\mathbb R\to\mathbb R^mg:R→Rm дифференцируема в aaa (векторная производная — якобиан-строка) и f:Rm→Rf:\mathbb R^m\to\mathbb Rf:Rm→R дифференцируема в g(a)g(a)g(a). Тогда f∘gf\circ gf∘g дифференцируема в aaa и (f∘g)′(a)=∇f(g(a))⋅g′(a),
(f\circ g)'(a)=\nabla f(g(a))\cdot g'(a), (f∘g)′(a)=∇f(g(a))⋅g′(a),
где ∇f(g(a))\nabla f(g(a))∇f(g(a)) — градиент в точке g(a)g(a)g(a). 3) (многомерный случай, классический). Пусть g:Rn→Rmg:\mathbb R^n\to\mathbb R^mg:Rn→Rm и f:Rm→Rkf:\mathbb R^m\to\mathbb R^kf:Rm→Rk фреще-дифференцируемы в точках aaa и g(a)g(a)g(a) соответственно. Тогда f∘gf\circ gf∘g фреше-дифференцируема в aaa и D(f∘g)(a)=Df(g(a)) Dg(a),
D(f\circ g)(a)=D f(g(a))\;D g(a), D(f∘g)(a)=Df(g(a))Dg(a),
где произведение — композиция линейных отображений (или умножение якобианов). 4) (в банаховых пространствах). Те же утверждения верны, если считать g:X→Yg:X\to Yg:X→Y и f:Y→Zf:Y\to Zf:Y→Z фреше-дифференцируемыми в точках aaa и g(a)g(a)g(a) (где X,Y,ZX,Y,ZX,Y,Z — банаховы пространства): D(f∘g)(a)=Df(g(a))∘Dg(a)D(f\circ g)(a)=Df(g(a))\circ Dg(a)D(f∘g)(a)=Df(g(a))∘Dg(a). Ключевые условия: требуется фреше- (или в одномерном случае обычная) дифференцируемость внешней и внутренней функций в соответствующих точках. Гейтовская дифференцируемость внешней функции по направлению обычно недостаточна для общего результата. Доказательства (кратко). A) Одномерный (через определения). Так как ggg дифференцируема в aaa, то g(a+h)=g(a)+g′(a)h+o(h)(h→0).
g(a+h)=g(a)+g'(a)h+o(h)\quad(h\to0). g(a+h)=g(a)+g′(a)h+o(h)(h→0).
Поскольку fff дифференцируема в g(a)g(a)g(a), f(y)=f(g(a))+f′(g(a))(y−g(a))+o(∣y−g(a)∣)(y→g(a)).
f(y)=f(g(a))+f'(g(a))(y-g(a))+o(|y-g(a)|)\quad(y\to g(a)). f(y)=f(g(a))+f′(g(a))(y−g(a))+o(∣y−g(a)∣)(y→g(a)).
Подставим y=g(a+h)y=g(a+h)y=g(a+h): f(g(a+h))=f(g(a))+f′(g(a))(g′(a)h+o(h))+o(∣g′(a)h+o(h)∣).
f(g(a+h))=f(g(a))+f'(g(a))(g'(a)h+o(h))+o(|g'(a)h+o(h)|). f(g(a+h))=f(g(a))+f′(g(a))(g′(a)h+o(h))+o(∣g′(a)h+o(h)∣).
Поскольку o(∣g′(a)h+o(h)∣)=o(h)o(|g'(a)h+o(h)|)=o(h)o(∣g′(a)h+o(h)∣)=o(h) и f′(g(a))⋅o(h)=o(h)f'(g(a))\cdot o(h)=o(h)f′(g(a))⋅o(h)=o(h), получаем f(g(a+h))=f(g(a))+f′(g(a))g′(a)h+o(h),
f(g(a+h))=f(g(a))+f'(g(a))g'(a)h+o(h), f(g(a+h))=f(g(a))+f′(g(a))g′(a)h+o(h),
откуда по определению производной (f∘g)′(a)=f′(g(a))g′(a).
(f\circ g)'(a)=f'(g(a))g'(a). (f∘g)′(a)=f′(g(a))g′(a). B) Многомерный (фреше). Пусть g(a+h)=g(a)+Dg(a)h+r1(h),r1(h)=o(∥h∥),
g(a+h)=g(a)+Dg(a)h+r_1(h),\qquad r_1(h)=o(\|h\|), g(a+h)=g(a)+Dg(a)h+r1(h),r1(h)=o(∥h∥),f(y+k)=f(y)+Df(y)k+r2(k),r2(k)=o(∥k∥),
f(y+k)=f(y)+Df(y)k+r_2(k),\qquad r_2(k)=o(\|k\|), f(y+k)=f(y)+Df(y)k+r2(k),r2(k)=o(∥k∥),
где y=g(a)y=g(a)y=g(a). Возьмём k=g(a+h)−g(a)=Dg(a)h+r1(h)k=g(a+h)-g(a)=Dg(a)h+r_1(h)k=g(a+h)−g(a)=Dg(a)h+r1(h). Тогда f(g(a+h))=f(g(a))+Df(g(a))(Dg(a)h+r1(h))+r2(Dg(a)h+r1(h)).
f(g(a+h))=f(g(a))+Df(g(a))\big(Dg(a)h+r_1(h)\big)+r_2\big(Dg(a)h+r_1(h)\big). f(g(a+h))=f(g(a))+Df(g(a))(Dg(a)h+r1(h))+r2(Dg(a)h+r1(h)).
Разложим остатки: линейность даёт Df(g(a))Dg(a)h+Df(g(a))r1(h)+r2(⋅).
Df(g(a))Dg(a)h + Df(g(a))r_1(h) + r_2(\cdot). Df(g(a))Dg(a)h+Df(g(a))r1(h)+r2(⋅).
Поскольку r1(h)=o(∥h∥)r_1(h)=o(\|h\|)r1(h)=o(∥h∥) и линейный оператор Df(g(a))Df(g(a))Df(g(a)) ограничен, имеем Df(g(a))r1(h)=o(∥h∥)Df(g(a))r_1(h)=o(\|h\|)Df(g(a))r1(h)=o(∥h∥). Для последнего члена r2(Dg(a)h+r1(h))=o(∥Dg(a)h+r1(h)∥)=o(∥h∥).
r_2(Dg(a)h+r_1(h))=o(\|Dg(a)h+r_1(h)\|)=o(\|h\|). r2(Dg(a)h+r1(h))=o(∥Dg(a)h+r1(h)∥)=o(∥h∥).
Итак, f(g(a+h))=f(g(a))+Df(g(a))Dg(a)h+o(∥h∥),
f(g(a+h))=f(g(a))+Df(g(a))Dg(a)h+o(\|h\|), f(g(a+h))=f(g(a))+Df(g(a))Dg(a)h+o(∥h∥),
что равнозначно фреше-дифференцируемости композиции и формуле D(f∘g)(a)=Df(g(a))∘Dg(a).
D(f\circ g)(a)=Df(g(a))\circ Dg(a). D(f∘g)(a)=Df(g(a))∘Dg(a). Замечания и уточнения. - Для корректности формулы достаточно требований фреше-дифференцируемости; непрерывность производных не требуется. - В чисто предельных/направленных смыслах (Гейтовский) требуются дополнительные условия, иначе композиция может не быть фреше-дифференцируемой. - В координатной форме это даёт умножение якобианов (матриц): если JfJ_fJf — якобиан fff в g(a)g(a)g(a) и JgJ_gJg — якобиан ggg в aaa, то Jf∘g=JfJgJ_{f\circ g}=J_fJ_gJf∘g=JfJg.
1) (одномерный случай). Пусть ggg дифференцируема в точке aaa и fff дифференцируема в точке g(a)g(a)g(a). Тогда композиция f∘gf\circ gf∘g дифференцируема в aaa и
(f∘g)′(a)=f′(g(a))⋅g′(a). (f\circ g)'(a)=f'(g(a))\cdot g'(a).
(f∘g)′(a)=f′(g(a))⋅g′(a).
2) (вектор-значный внешний). Пусть g:R→Rmg:\mathbb R\to\mathbb R^mg:R→Rm дифференцируема в aaa (векторная производная — якобиан-строка) и f:Rm→Rf:\mathbb R^m\to\mathbb Rf:Rm→R дифференцируема в g(a)g(a)g(a). Тогда f∘gf\circ gf∘g дифференцируема в aaa и
(f∘g)′(a)=∇f(g(a))⋅g′(a), (f\circ g)'(a)=\nabla f(g(a))\cdot g'(a),
(f∘g)′(a)=∇f(g(a))⋅g′(a), где ∇f(g(a))\nabla f(g(a))∇f(g(a)) — градиент в точке g(a)g(a)g(a).
3) (многомерный случай, классический). Пусть g:Rn→Rmg:\mathbb R^n\to\mathbb R^mg:Rn→Rm и f:Rm→Rkf:\mathbb R^m\to\mathbb R^kf:Rm→Rk фреще-дифференцируемы в точках aaa и g(a)g(a)g(a) соответственно. Тогда f∘gf\circ gf∘g фреше-дифференцируема в aaa и
D(f∘g)(a)=Df(g(a)) Dg(a), D(f\circ g)(a)=D f(g(a))\;D g(a),
D(f∘g)(a)=Df(g(a))Dg(a), где произведение — композиция линейных отображений (или умножение якобианов).
4) (в банаховых пространствах). Те же утверждения верны, если считать g:X→Yg:X\to Yg:X→Y и f:Y→Zf:Y\to Zf:Y→Z фреше-дифференцируемыми в точках aaa и g(a)g(a)g(a) (где X,Y,ZX,Y,ZX,Y,Z — банаховы пространства): D(f∘g)(a)=Df(g(a))∘Dg(a)D(f\circ g)(a)=Df(g(a))\circ Dg(a)D(f∘g)(a)=Df(g(a))∘Dg(a).
Ключевые условия: требуется фреше- (или в одномерном случае обычная) дифференцируемость внешней и внутренней функций в соответствующих точках. Гейтовская дифференцируемость внешней функции по направлению обычно недостаточна для общего результата.
Доказательства (кратко).
A) Одномерный (через определения). Так как ggg дифференцируема в aaa, то
g(a+h)=g(a)+g′(a)h+o(h)(h→0). g(a+h)=g(a)+g'(a)h+o(h)\quad(h\to0).
g(a+h)=g(a)+g′(a)h+o(h)(h→0). Поскольку fff дифференцируема в g(a)g(a)g(a),
f(y)=f(g(a))+f′(g(a))(y−g(a))+o(∣y−g(a)∣)(y→g(a)). f(y)=f(g(a))+f'(g(a))(y-g(a))+o(|y-g(a)|)\quad(y\to g(a)).
f(y)=f(g(a))+f′(g(a))(y−g(a))+o(∣y−g(a)∣)(y→g(a)). Подставим y=g(a+h)y=g(a+h)y=g(a+h):
f(g(a+h))=f(g(a))+f′(g(a))(g′(a)h+o(h))+o(∣g′(a)h+o(h)∣). f(g(a+h))=f(g(a))+f'(g(a))(g'(a)h+o(h))+o(|g'(a)h+o(h)|).
f(g(a+h))=f(g(a))+f′(g(a))(g′(a)h+o(h))+o(∣g′(a)h+o(h)∣). Поскольку o(∣g′(a)h+o(h)∣)=o(h)o(|g'(a)h+o(h)|)=o(h)o(∣g′(a)h+o(h)∣)=o(h) и f′(g(a))⋅o(h)=o(h)f'(g(a))\cdot o(h)=o(h)f′(g(a))⋅o(h)=o(h), получаем
f(g(a+h))=f(g(a))+f′(g(a))g′(a)h+o(h), f(g(a+h))=f(g(a))+f'(g(a))g'(a)h+o(h),
f(g(a+h))=f(g(a))+f′(g(a))g′(a)h+o(h), откуда по определению производной
(f∘g)′(a)=f′(g(a))g′(a). (f\circ g)'(a)=f'(g(a))g'(a).
(f∘g)′(a)=f′(g(a))g′(a).
B) Многомерный (фреше). Пусть
g(a+h)=g(a)+Dg(a)h+r1(h),r1(h)=o(∥h∥), g(a+h)=g(a)+Dg(a)h+r_1(h),\qquad r_1(h)=o(\|h\|),
g(a+h)=g(a)+Dg(a)h+r1 (h),r1 (h)=o(∥h∥), f(y+k)=f(y)+Df(y)k+r2(k),r2(k)=o(∥k∥), f(y+k)=f(y)+Df(y)k+r_2(k),\qquad r_2(k)=o(\|k\|),
f(y+k)=f(y)+Df(y)k+r2 (k),r2 (k)=o(∥k∥), где y=g(a)y=g(a)y=g(a). Возьмём k=g(a+h)−g(a)=Dg(a)h+r1(h)k=g(a+h)-g(a)=Dg(a)h+r_1(h)k=g(a+h)−g(a)=Dg(a)h+r1 (h). Тогда
f(g(a+h))=f(g(a))+Df(g(a))(Dg(a)h+r1(h))+r2(Dg(a)h+r1(h)). f(g(a+h))=f(g(a))+Df(g(a))\big(Dg(a)h+r_1(h)\big)+r_2\big(Dg(a)h+r_1(h)\big).
f(g(a+h))=f(g(a))+Df(g(a))(Dg(a)h+r1 (h))+r2 (Dg(a)h+r1 (h)). Разложим остатки: линейность даёт
Df(g(a))Dg(a)h+Df(g(a))r1(h)+r2(⋅). Df(g(a))Dg(a)h + Df(g(a))r_1(h) + r_2(\cdot).
Df(g(a))Dg(a)h+Df(g(a))r1 (h)+r2 (⋅). Поскольку r1(h)=o(∥h∥)r_1(h)=o(\|h\|)r1 (h)=o(∥h∥) и линейный оператор Df(g(a))Df(g(a))Df(g(a)) ограничен, имеем Df(g(a))r1(h)=o(∥h∥)Df(g(a))r_1(h)=o(\|h\|)Df(g(a))r1 (h)=o(∥h∥). Для последнего члена
r2(Dg(a)h+r1(h))=o(∥Dg(a)h+r1(h)∥)=o(∥h∥). r_2(Dg(a)h+r_1(h))=o(\|Dg(a)h+r_1(h)\|)=o(\|h\|).
r2 (Dg(a)h+r1 (h))=o(∥Dg(a)h+r1 (h)∥)=o(∥h∥). Итак,
f(g(a+h))=f(g(a))+Df(g(a))Dg(a)h+o(∥h∥), f(g(a+h))=f(g(a))+Df(g(a))Dg(a)h+o(\|h\|),
f(g(a+h))=f(g(a))+Df(g(a))Dg(a)h+o(∥h∥), что равнозначно фреше-дифференцируемости композиции и формуле
D(f∘g)(a)=Df(g(a))∘Dg(a). D(f\circ g)(a)=Df(g(a))\circ Dg(a).
D(f∘g)(a)=Df(g(a))∘Dg(a).
Замечания и уточнения.
- Для корректности формулы достаточно требований фреше-дифференцируемости; непрерывность производных не требуется.
- В чисто предельных/направленных смыслах (Гейтовский) требуются дополнительные условия, иначе композиция может не быть фреше-дифференцируемой.
- В координатной форме это даёт умножение якобианов (матриц): если JfJ_fJf — якобиан fff в g(a)g(a)g(a) и JgJ_gJg — якобиан ggg в aaa, то Jf∘g=JfJgJ_{f\circ g}=J_fJ_gJf∘g =Jf Jg .