\( \def\vec#1{\bf{\underline{#1}}} \)

Momente

Die folgenden Ausführungen stützen sich stark auf [Chapter 2 und 4], chatfield:1980 . Vgl. dazu auch smith:2002 . Wir gehen von einer multivariaten Verteilung aus.

Die $p$ Zufallsvariablen seien im Vektor $$\underline{x} = \left ( \begin{matrix} x_1\cr\cr x_p\cr\end{matrix}\right )$$ zusammengefasst. Ihr Mittelwertvektor $$\begin{matrix} \vec{\mu} &= &\left ( \begin{matrix} \mu_1\cr\cr \mu_p\cr\end{matrix}\right ) &= &\left( \begin{matrix} E(x_1)\cr\cr E(x_p)\cr\end{matrix}\right ) \cr\end{matrix}$$ Die Varianz jeder Zufallsvariablen ist $$\begin{matrix} Var(x_j) &= &E((x_j-\mu_j)^2)\hfill\cr\cr &= &E(x_j^2) - \mu_j^2\hfill\cr\end{matrix}$$ Die Kovarianzen zwischen den Variablen sind gegeben durch $$\sigma_{ij} = Cov(x_i, x_j) = E((x_i - \mu_i)(x_j - \mu_j))\qquad (*)$$ Es gilt \begin{eqnarray} \sigma_{ij} = E(x_ix_j) - \mu_i\mu_j\qquad (**) \end{eqnarray} Die Kovarianzen können zu einer Matrix zusammengefasst werden $$S = \left ( \begin{matrix} \sigma_{11} &&\sigma_{1n}\cr\cr \sigma_{n1} &&\sigma_{nn}\cr \end{matrix}\right ) $$ (In der Statistik wird diese Matrix häufig mit dem großen $\Sigma$ bezeichnet. Wir vermeiden diese Notation, da sie schnell mit einem Summenzeichen verwechselt werden kann.)

Die Matrix der Kovarianzen kann wegen (*) und (**) geschrieben werden als $$\begin{matrix} S &= &E\left [(\vec{x} - \vec{\mu})(\vec{x} -\vec\mu)^T\right ] \cr\cr &= &E\left [ \vec{x} \cdot \vec{x}^T\right ] - \vec{\mu} \vec{\mu}^T\hfill\cr\end{matrix}$$

Herleitung

$$\vec{x} = \left ( \begin{matrix} x_1\cr\cr x_p\cr\end{matrix}\right )$$ sei eine $p$-dimensionale Zufallsvariable mit Mittelwert $\mu$ und der Kovarianz-Matrix $\underline{S}$.

Es sollen neue Variablen $y_1, \dots , y_p$ so gefunden werden, so dass sie unkorreliert sind und ihre Varianzen abnehmen, also $1$ die höchste und $p$ die niedrigste Varianz besitzt. Dabei seien $y_1$ bis $y_p$ Linearkombinationen von $x_1$ bis $x_n$.

Also $$\begin{matrix} y_j &= &a_{1j}x_1 + a_{2j}x_2 + \dots + a_{pj}x_j \cr\cr &= &(a_{1j} ,\dots, a_{pj}) \left ( \begin{matrix} x_1 \cr\vdots\cr x_j\cr\end{matrix} \right ) \hfill\cr &= &\vec{a}_j^T \cdot \vec{x}\hfill\cr\end{matrix}$$

Werden alle $a_{ij}$ im gleichen Verhältnis geändert, so entsteht ein in diesem Verhältnis geändertes $y_j$ mit gleicher Richtung. Somit kann die lineare Transformation nominiert werden.

Normierung

Zusätzlich führen wir noch folgende Normalisierung ein $$\vec{a}_j^T \cdot \vec{a}_j = 1$$ $$(a_{1j} ,\dots, a_{pj} ) \left( \begin{matrix} a_{1j} \cr\vdots\cr a_{pj}\cr \end{matrix} \right ) = a_{1j}^2 + \dots + a_{pj}^2 = 1$$

Damit ist $\vec{a}_j$ ein Punkt der p-dimensionalen Kugel mit Radius 1

Das Optimierungsproblem zur Bestimmung der ersten Hauptkomponente $\vec{y}_1$ ergibt sich dann aus dem Optimierungsproblem

ZF. $\begin{matrix}\qquad Var(\vec{a}_1) &= &Var(\vec{a}_1^T \vec x) \rightarrow \max\cr\end{matrix}$

NB $\begin{matrix}\qquad \qquad \vec{a}_1^T \cdot \vec{a}_1 &= &1\cr\end{matrix}$

Die Zielfunktion kann noch umgeformt werden. %%(Hier muss noch Index $j$ eingeführt werden) Dazu betrachten wir allgemein die Linearkombination $\vec a_i^T\cdot \vec x$

Aus $$\vec{y} = \vec{a}_j^T \cdot \vec{x}$$ folgt $$E(\vec{y}) = \vec{a}_j^T \cdot \vec{\mu}$$

Die Varianz ergibt sich $$Var (\vec{y}) = E\left [ \left (\vec{a}_j^T (\vec{x} - \vec{\mu})\right )^2 \right ]$$

$\vec{a}_j^T (\vec{x} - \vec{\mu})$ ist ein Skalar und somit gleich seinem Transponierten.

Somit gilt \begin{eqnarray} \begin{matrix} Var(\vec{y}) & = &E\left [ \vec{a}_j^T (\vec{x} - \vec{\mu})(\vec{x} - \vec\mu)^T\vec a_j\right ] \hfill\cr\cr & = &\vec{a}_j^T E\left [(\vec{x} - \vec{\mu})(\vec{x} - \vec\mu)^T\right ] \cdot \vec{a}_j\hfill\cr\cr & = &\vec{a}_j^T\cdot S \cdot \vec{a}_j\hfill\cr \end{matrix} \qquad (eq:HK5) \end{eqnarray}

Somit kann für $j=1$ das Optimierungsproblem umgeschrieben werden zu: $$\begin{matrix} ZF: &&&\vec{a}_1^T \cdot S \cdot \vec{a}_1 &\rightarrow \max\cr\cr &&&\hfill \vec{a}_1^T \cdot \vec{a}_1 &= 1\hfill\cr\end{matrix}$$

Das führt zur Lagrangefunktion $$L(\vec{a}_1, \lambda ) = \vec{a}_1^T \cdot S \cdot \vec{a}_1 - \lambda (\vec{a}_1^T \vec{a}_1 - 1)$$ Es gilt (siehe Aufgabe \ref{AbleitungVektorQuadrat.aufgabe} und Aufgabe \ref{AbleitungQuadrForm.aufgabe} [Ableitung der quadratischen Form]) $${\partial (\vec{a}_1^T S\vec{a}_1)\over \partial \vec{a}_1} = 2 S\vec{a}_1$$ Damit ergibt sich als Ableitung der Lagrangefunktion: $${\partial L\over \partial \vec{a}_i} = 2 S\vec{a}_1 - 2 \lambda \vec{a}_1 \ {\buildrel \rm ! \over =} \ \vec{0}$$ Somit durch Spreizung von $2\lambda \vec{a}_1$ $$2S\vec{a}_1 - 2\lambda I\vec{a}_1 = \vec{0}$$ $$(S-\lambda I)\vec{a}_1 = \vec{0}$$ Das ist das bekannte Eigenwertproblem. Da $S$ positiv semidefinit ist, existieren $p$ nicht negative Eigenwerte $\lambda_1, \lambda_2, \dots , \lambda p$. Nehmen wir an, dass sie unterschiedlich und nach der Größe geordnet sind $$\lambda_1 > \lambda_2 > \lambda_3 \dots > \lambda_p \geqslant 0$$ Welcher Eigenwert $\lambda$ maximiert die Varianz.

Es gilt $$\begin{matrix} Var(\vec{a}_1^T S) &= &\vec{a}_1^T S \vec{a}_1\hfill \cr\cr &= &\vec a_1^T \lambda I \vec a_1\hfill \cr\cr &= &\lambda\hfill\cr\end{matrix}$$ Somit muss zur Maximierung der Varianz der größte Eigenwert $\lambda_1$ gewählt werden.

$\vec a_1$ ergibt sich als Eigenvektor zum Eigenwert $\lambda_1$. Die zweite Hauptkomponente $\vec{y}_2$ wird so bestimmt, dass $\vec{y}_1$ und $\vec{y}_2$ unkorreliert sind.

Es gilt $$\begin{matrix} Cov(\vec{y}_2, \vec{y}_1) &= &Cov(\vec{a}_2\vec{x}, \vec{a}_1\vec{x})\hfill \cr\cr &= &E\left [\vec{a}_2 (\vec{x} - \vec{\mu})(\vec x - \vec{\mu})\vec{a}_1\right ] \hfill \cr\cr &= &\vec{a}_2^T S \vec{a}_1\hfill (***)\cr\end{matrix}$$ Da die Kovarianz Null sein soll, ergibt sich $$\vec{a}_2^T S \vec{a}_1 = 0$$ Wegen $S\vec{a}_1 = \lambda_1\vec a_1$ (Eigenwerteigenschaft) ergibt sich $$\vec{a}_2^T \lambda \vec{a}_1 = 0$$ also wegen $\lambda_1 \neq 0$: $$\vec{a}_2^T \vec{a}_1 = 0$$ Das bedeutet, dass $\vec{a}_2$ und $\vec{a}_1$ orthogonal zueinander sind.

Es ergibt sich folgendes Optimierungsproblem mit zwei Nebenbedingungen $$\begin{matrix} \vec{a}_2^T S \vec{a}_2\hfill &\rightarrow &\max\hfill\cr\cr \vec{a}_2^T \cdot \vec{a}_2\hfill &= &1\hfill\cr\cr \vec{a}_2^T \cdot \vec{a}_1\hfill &= &0\hfill\cr\end{matrix}$$ aus dem sich folgende Lagrangefunktion mit den Lagrangefaktoren $\lambda$ und $\delta$ ergibt: $$\begin{matrix}L(\vec{a}_2, \lambda, \delta ) = \vec{a}_2^T S \vec{a}_2 - \lambda (\vec{a}_2^T\vec a_2 - 1) - \delta \vec{a}_2^T \vec{a}_1&\cr\cr {\partial L\over \partial \vec{a}_2} = 2(S - \lambda I) \vec{a}_2 - \delta \vec{a}_1 = 0\hfill &(+)\cr\end{matrix}$$ $$2S\vec{a}_2 - \lambda I \vec{a}_2 - \delta \vec{a}_1 = 0$$ Multiplikation von links mit $\vec{a}_1^T$ liefert $$2\vec{a}_1^T S\vec{a}_2 - \lambda I \underbrace{\vec{a}_1^T \vec{a}_2}_{=0} - \delta \underbrace{\vec{a}_1^T \vec{a}_1}_{=1} = 0$$ $$\underbrace{2\vec{a}_1^T S \vec{a}_2}_{= \ 0 \ \hbox{wegen} \ (***)} = \delta$$ Somit wird (+) zu $$(S - \lambda I) \vec{a}_2 = 0$$ Wir haben wieder das gleiche Eigenwertproblem mit $p$ Eigenwerten, jetzt zur Bestimmung von $\vec{a}_2$.

Wir wählen den zweithöchsten $\lambda_2$ und für die Hauptkomponente $\vec{a}_2$ den zugehörigen Eigenvektor.

Setzen wir die Überlegungen entsprechend fort, so ergibt sich, dass die Hauptkomponente $\vec{a}_j$ gegeben ist durch den Eigenvektor zum Eigenwert $\lambda_j$. A sei die Matrix der in dieser Weise bestimmten Eigenvektoren $\vec a_i$. Dann gilt $$\vec y = A^T\cdot \vec x$$ Von der Konstruktion her sind die $y_i$ unkorreliert. Die Kovarianzmatrix von $\vec y$ ist somit eine Hauptdiagonalmatrix mit den Eigenwerten als Varianzen in der Hauptdiagonale. $$\Lambda = Kov(\vec y) = \begin{pmatrix} \lambda_1 & 0 &\cdots & 0\\ 0 &\lambda_2 &\cdots & 0\\ \vdots& & \ddots& \vdots\\ 0 & 0 & \cdots &\lambda_p \\ \end{pmatrix} $$ Wegen (eq:HK5) gilt $ Var(\vec{y}) = \vec{a}_j^T\cdot S \cdot \vec{a}_j $ . Somit ergibt sich als Zusammenhang zwischen der Kovarianzmatrix von $\vec y$ und $\vec x$: $$\Lambda = \vec{a}_j^T\cdot S \cdot \vec{a}_j $$ Es gilt $A\cdot A^T = I$, da die Vektoren $\vec a_i$ orthogonal zueinander sind. Daraus ergibt sich: $$ S = A^T\cdot \Lambda\cdot A$$ $$ \sum_{i=1}^{p} \hbox{Var}(y_i) = \sum_{i=1}^{p} \lambda_i= \hbox{Spur}(\Lambda)$$ Es ist wegen Spur(AB)= Spur (BA): $$ \hbox{Spur}(\Lambda) = Spur(A^T S A) = Spur(SAA^T) = Spur(S) = \sum_{i=1}^p Var(x_i)$$ Somit ist die Summe der Varianzen der ursprünglichen Variablen gleich der Summe der Varianzen der transformierten Variablen.

Die j-te Hauptkomponente hat damit den Anteil $\lambda_j/\sum_{i=1}^p \lambda_i$ der Summe der ursprünglichen Variablen.

Die ersten k Hauptkomponenten haben den Anteil $\sum_{j=1}^k\lambda_j/\sum_{i=1}^p \lambda_i$ der Summe der ursprünglichen Variablen.