\documentclass[8pt,a4paper,landscape]{scrartcl} \input{definitions} \input{packages} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \geometry{left=8mm,right=8mm, top=10mm, bottom=10mm, paperwidth=210mm, paperheight=297mm} \fancyhf{} %Kopf-/Fu?zeilenfelder leeren \pagestyle{fancy} %Seitenstil auf fancy setzen \fancyhead[L]{SR} %im Kopf links den Titel schreiben \fancyhead[R]{\copyright \hspace{1mm}Lst Ökonometrie, Uni Regensburg, Nov 2012} \renewcommand{\headrulewidth}{0pt} %Im Kopf rechts die Seitenzahl setzen \fancypagestyle{plain}{} % damit auch "plain" Seiten fancy werden \setlength{\headheight}{14.5pt} \renewcommand{\baselinestretch}{1.25} \begin{document} \section*{Ableitungsbegriff und Taylorentwicklung von (vektorwertigen) Funktionen (in mehreren Veränderlichen)} Im folgenden betrachten wir Funktionen, die Punkte (Vektoren) auf Punkte (Vektoren) abbilden, beschreiben den Ableitungsbegriff und definieren in den ersten beiden Fällen eine Taylorentwicklung. \\Die Definitionen sollen der gedanklichen Strukturbildung von VWL-Studenten helfen und sind demzufolge an manchen Stellen etwas ungenau.\\ \begin{tabularx}{\textwidth}{|p{8.5cm}|p{12.5cm}| X|} \hline $f: \R \to \R$ \newline $x \mapsto y :=f(x)$ & $f: \R^n\to \R$ \newline $\vx \mapsto y :=f(\vx)$ & $\vf:\R^n \to \R^m$ \newline $\vx \mapsto \vy :=\vf(\vx)$\\ Ein Punkt $x$ wird auf einen Wert $y:=f(x)$ abgebildet. & Ein Vektor $\vx$ wird auf einen Wert $y:=f(\vx)$ abgebildet, z. B. zwei Koordinaten werden einer Höhe (= Landkarten), drei Koordinaten werden einer Farbe ( = Temperaturkarten) zugeordnet. & Ein Vektor $\vx$ wird auf einen Vektor $\vy:=\vf(\vx)$ abgebildet, z. B. Strömungen im Schwimmbad.\\ \hline Die Ableitung von $f$ an einem Punkt $x_0$ ist durch folgenden Grenzwert (falls er existiert) definiert: \newline \beqs Df(x_0):=\frac{df(x)}{dx}\mid_{x=x_0}:=f'(x_0):=\lim\frac{f(x_0+h)-f(x_0)}{h} \eeqs Die Ableitung an diesem Punkt ist ein Skalar, den man graphisch als Tangentensteigung an $x_0$ illustrieren kann. Man kann die Funktion zweimal ableiten (falls beide Grenzwerte existieren) und erhält die zweite Ableitung an einem Punkt, welche wieder ein Skalar ist.\newline \textbf{Wichtig:} \newline Im $\R^1\to\R^1$-Fall korrespondiert eine Veränderung der $x$-Variable mit \textbf{einer} Veränderung der $y$-Variable. bwinÓéÀÖ_bwinÓéÀÖ¹ÙÍø»¶Ó­Äú@e Änderungsrate ist gerade die Ableitung. Im $\R^n\to\R$ gibt es $n$-Veränderungen der $\vx$-Variable und dementsprechend $n$ Ableitungen, im $\R^n \to \R^m$ gibt es für $n$ Veränderungen der $\vx$ Variable gerade $m$ Veränderungen der $\vy$ Variable und dementsprechend eine $m\times n$-Matrix als Ableitung. & Motiviert durch die erste Ableitung als Steigung, definiert man im Fall von mehreren Veränderlichen $\vx$ die partielle Ableitung (bzw. interpretiert als Steigung in Richtung $x_i$): \beqs \frac{\partial f(x)}{\partial x_i}\mid_{\vx_0}:=\partial_i f(\vx_0):=f_{x_i}(\vx_0):=\lim\frac{f(x_1, ..., x_{i}+h, ... x_n)-f(\vx)}{h} \eeqs Man bekommt also für jede Variable eine partielle Ableitung, welche man als Gradient zusammenfasst: \beqs \nabla f(\vx_0):=\begin{pmatrix} \frac{\partial f(\vx_0)}{x_1}, & \cdots & ,\frac{\partial f(\vx_0)}{x_n} \end{pmatrix}=\begin{pmatrix} \partial_1 f(\vx_0), & \cdots &, \partial_n f(\vx_0) \end{pmatrix} \eeqs bwinÓéÀÖ_bwinÓéÀÖ¹ÙÍø»¶Ó­Äú@ ist ein $1\times n$-Vektor (je nach Literatur auch ein $n \times 1$-Vektor) und kann als Richtungsvektor des maximalen Anstiegs interpretiert werden. Während im einfachen Fall der Ableitungswert an einem Punkt ein Skalar war, ist es hier ein Vektor. \newline Will man nun ausgehend von einem Punkt $\vx_0$ die Steigung in die Richtung $\vv{z}$ bestimmen, so berechnet man einfach $\nabla f(\vx_0)\cdot \vv{z}$ und erhält wieder ein Skalar, die Tangentensteigung in diese Richtung. \newline Analog zum ersten Fall möchte man höhere Ableitungen bilden, dabei benötigt man aber zwischen allen möglichen Steigungen Krümmungen und definiert deshalb die $n \times n$-Hesse-Matrix von $f$ an der Stelle $\vx_0$: \beqs \text{H}_f(\vx_0) := \left[\left(\frac{\partial^2 f(\vx)}{\partial x_i \partial x_j} \right)_{i,j=1, ...,n} \right]_{\vx=\vx_0} := \begin{pmatrix} \frac{\partial^2 f(\vx)}{\partial x_1 \partial x_1} & \cdots & \frac{\partial^2 f(\vx)}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f(\vx)}{\partial x_2 \partial x_1} & \cdots & \frac{\partial^2 f(\vx)}{\partial x_2 \partial x_n} \\ \vdots &\ddots &\vdots \\ \frac{\partial^2 f(\vx)}{\partial x_n \partial x_1} & \cdots & \frac{\partial^2 f(\vx)}{\partial x_n \partial x_n}\end{pmatrix}_{\vx=\vx_0} \eeqs & Während wir im $\R^1 \to \R^1$ ein Skalar (einen $1 \times 1$-Vektor) als Ableitung definierten, im $\R^n \to \R^1$ einen Vektor, den $1\times n$-Gradienten definierten, wollen wir dies nun konsistent für den $\R^n\to\R^m$-Fall fortführen und eine $m\times n$-Matrix definieren: \newline $\vf(\vx_0)$ ist an der Stelle $\vx_0$ differenzierbar, falls es eine lineare Abbildung $L:\R^n\to\R^m$ gibt, so dass gilt: \beqs \lim_{\vh\to \vnull} \frac{\vf(\vx_0+\vh)-\vf(\vx_0)-L\cdot \vh}{\mid\mid \vh\mid\mid}=0\eeqs bwinÓéÀÖ_bwinÓéÀÖ¹ÙÍø»¶Ó­Äú@e lineare Abbildung kann nach Basiswahl als Matrix dargestellt werden; in der Standardbasis ist es gerade die Jacobimatrix im Punkt $\vx_0$: \beqs \mJ_{\vf}(\vx_0):=\begin{pmatrix} \frac{\partial f_1(\vx)}{\partial x_1} & \cdots & \frac{\partial f_1(\vx)}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m(\vx)}{\partial x_1} & \cdots & \frac{\partial f_m(\vx)}{\partial x_n}\end{pmatrix}_{\vx=\vx_0} \eeqs bwinÓéÀÖ_bwinÓéÀÖ¹ÙÍø»¶Ó­Äú@ ist eine $m\times n $ Matrix, im Fall $m=1$ gerade der Gradient.\\ \hline Optimalitätsbedingungen für $x_0$ lok. Max. bzw. lok. Min.: \newline Notwendig: $f'(x_0)=0$ \newline Hinreichend: $f''(x_0)\underset{(<)}{>} 0 \lor f'''(x_0)\underset{(<)}{>} 0 \lor ...:$ $x_0$ lok. Minimum (Maximum) \newline Man sucht also zuerst die Punkte, an denen die Funktion weder steigt, noch fällt und untersucht die Krümmung an diesem Punkt. Ist die Krümmung konvex, d. h. $f''(x_0) > 0$, so liegt hier ein lokales Minimum. & Optimalitätsbedingungen für $\vx_0$ lok. Max. bzw. lok. Min.: \newline Notwendig: $\nabla f(\vx_0)=\vv{0} \LR \partial_i f(\vx_0) = 0 \hd \forall i=1, ..., n$\newline Hinreichend: $\text{H}_f(\vx_0)$ positiv (negativ) definit: $\vx_0$ lok. Minimum (Maximum) \newline Wie im einfachen Fall gibt die zweite Ableitung die Auskunft über die Art des Extremas. Hier kann man aber nicht mehr von einer "`positiven Matrix"' sprechen, sondern muss die Definitheit, für die es mehrere Kriterien gibt, der Matrix testen.& Da $\R^m$ keine Ordnungsrelation mehr besitzt, d.h. man zwei Vektoren $\vv{v}, \vv{w} \in \R^m$ nicht mehr vergleichen kann ($\vv{v}\overset{?}{\leq} \vv{w}$), macht es hier nicht viel Sinn von Maxima und Minima zu sprechen.\\ \hline Taylorpolynom von $f$ erzeugt an der Stelle $x_0$ vom Grad $k$ : \beqs T_f^k(x; x_0):= \sum_{n=0}^k \frac{f^{(n)}(x_0)}{n!} (x-x_0)^n\eeqs Ausgeschrieben für $k=2$:\newline $T_f^k(x; x_0)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2=c+bx+ax^2$ & Wir beschränken uns hier auf die für die Vorlesung notwendige Taylorapproximation zweiten Grades von $f$ an der Stelle $\vx_0$: \beqs T_f^2(\vx, \vx_0) := f(\vx_0)+\nabla f(\vx_0) (\vx-\vx_0)+\frac{1}{2}(\vx-\vx_0)^T \cdot \text{H}_f(\vx_0) \cdot (\vx-\vx_0)\eeqs Wie im einfachen Fall ist dies eine Funktion in der Variablen $\vx$. Analog zum quadratischen Polynom links ist dies eine quadratische Form.& Da eine Taylorentwicklung trotzdem von Interesse sein kann, definiert man die Taylorentwicklung 1. Grades von $\vf$ an der Stelle $\vx_0$ durch: \beqs \mT^1_{\vf}(\vx;\vx_0) =\vf(\vx_0)+ \mJ_{\vf}(\vx_0) \cdot (\vx-\vx_0) \eeqs Achtung bei den Dimensionen!\\ \hline \end{tabularx} \end{document}