\( \def\vec#1{\bf{\underline{#1}}} \)
Momente
Die folgenden Ausführungen stützen sich stark auf [Chapter 2 und 4],
chatfield:1980 .
Vgl. dazu auch
smith:2002 .
Wir gehen von einer multivariaten Verteilung aus.
Die $p$ Zufallsvariablen seien im Vektor
$$\underline{x} = \left ( \begin{matrix} x_1\cr\cr
x_p\cr\end{matrix}\right )$$
zusammengefasst. Ihr Mittelwertvektor
$$\begin{matrix} \vec{\mu} &= &\left ( \begin{matrix} \mu_1\cr\cr
\mu_p\cr\end{matrix}\right ) &= &\left( \begin{matrix}
E(x_1)\cr\cr E(x_p)\cr\end{matrix}\right ) \cr\end{matrix}$$
Die Varianz jeder Zufallsvariablen ist
$$\begin{matrix} Var(x_j) &= &E((x_j-\mu_j)^2)\hfill\cr\cr &=
&E(x_j^2) - \mu_j^2\hfill\cr\end{matrix}$$
Die Kovarianzen zwischen den Variablen sind gegeben durch
$$\sigma_{ij} = Cov(x_i, x_j) = E((x_i - \mu_i)(x_j - \mu_j))\qquad (*)$$
Es gilt
\begin{eqnarray}
\sigma_{ij} = E(x_ix_j) - \mu_i\mu_j\qquad (**)
\end{eqnarray}
Die Kovarianzen können zu einer Matrix zusammengefasst werden
$$S = \left ( \begin{matrix} \sigma_{11} &&\sigma_{1n}\cr\cr \sigma_{n1}
&&\sigma_{nn}\cr \end{matrix}\right ) $$
(In der Statistik wird diese Matrix häufig mit dem großen $\Sigma$
bezeichnet. Wir vermeiden diese Notation, da sie schnell mit einem
Summenzeichen verwechselt werden kann.)
Die Matrix der Kovarianzen kann wegen (*) und (**) geschrieben
werden als
$$\begin{matrix} S &= &E\left [(\vec{x} - \vec{\mu})(\vec{x} -\vec\mu)^T\right ]
\cr\cr
&= &E\left [ \vec{x} \cdot \vec{x}^T\right ] - \vec{\mu} \vec{\mu}^T\hfill\cr\end{matrix}$$
Herleitung
$$\vec{x} = \left ( \begin{matrix} x_1\cr\cr
x_p\cr\end{matrix}\right )$$
sei eine $p$-dimensionale Zufallsvariable mit Mittelwert $\mu$ und
der Kovarianz-Matrix $\underline{S}$.
Es sollen neue Variablen $y_1, \dots , y_p$ so gefunden werden, so
dass sie unkorreliert sind und ihre Varianzen abnehmen, also $1$
die höchste und $p$ die niedrigste Varianz besitzt. Dabei seien
$y_1$ bis $y_p$ Linearkombinationen von $x_1$ bis $x_n$.
Also
$$\begin{matrix}
y_j &= &a_{1j}x_1 + a_{2j}x_2 + \dots +
a_{pj}x_j
\cr\cr
&= &(a_{1j} ,\dots, a_{pj}) \left (
\begin{matrix} x_1
\cr\vdots\cr
x_j\cr\end{matrix}
\right ) \hfill\cr &=
&\vec{a}_j^T \cdot \vec{x}\hfill\cr\end{matrix}$$
Werden alle $a_{ij}$ im gleichen Verhältnis geändert, so entsteht
ein in diesem Verhältnis geändertes $y_j$ mit gleicher Richtung.
Somit kann die lineare Transformation nominiert werden.
Normierung
Zusätzlich führen wir noch folgende Normalisierung ein
$$\vec{a}_j^T \cdot \vec{a}_j = 1$$
$$(a_{1j} ,\dots, a_{pj} )
\left( \begin{matrix}
a_{1j}
\cr\vdots\cr
a_{pj}\cr
\end{matrix} \right )
= a_{1j}^2 + \dots + a_{pj}^2 =
1$$
Damit ist $\vec{a}_j$ ein Punkt der p-dimensionalen Kugel mit
Radius 1
Das Optimierungsproblem zur Bestimmung der ersten Hauptkomponente
$\vec{y}_1$ ergibt sich dann aus dem Optimierungsproblem
ZF. $\begin{matrix}\qquad Var(\vec{a}_1) &= &Var(\vec{a}_1^T \vec x)
\rightarrow \max\cr\end{matrix}$
NB $\begin{matrix}\qquad \qquad \vec{a}_1^T \cdot \vec{a}_1 &=
&1\cr\end{matrix}$
Die Zielfunktion kann noch umgeformt werden.
%%(Hier muss noch Index $j$ eingeführt werden)
Dazu betrachten wir allgemein die Linearkombination $\vec a_i^T\cdot \vec x$
Aus
$$\vec{y} = \vec{a}_j^T \cdot \vec{x}$$
folgt
$$E(\vec{y}) = \vec{a}_j^T \cdot \vec{\mu}$$
Die Varianz ergibt sich
$$Var (\vec{y}) = E\left [ \left (\vec{a}_j^T (\vec{x} -
\vec{\mu})\right )^2 \right ]$$
$\vec{a}_j^T (\vec{x} - \vec{\mu})$ ist ein Skalar und somit gleich
seinem Transponierten.
Somit gilt
\begin{eqnarray}
\begin{matrix}
Var(\vec{y}) & = &E\left [ \vec{a}_j^T (\vec{x} -
\vec{\mu})(\vec{x} - \vec\mu)^T\vec a_j\right ] \hfill\cr\cr & =
&\vec{a}_j^T E\left [(\vec{x} - \vec{\mu})(\vec{x} -
\vec\mu)^T\right ] \cdot \vec{a}_j\hfill\cr\cr & =
&\vec{a}_j^T\cdot S \cdot \vec{a}_j\hfill\cr
\end{matrix} \qquad (eq:HK5)
\end{eqnarray}
Somit kann für $j=1$ das Optimierungsproblem umgeschrieben werden zu:
$$\begin{matrix} ZF: &&&\vec{a}_1^T \cdot S \cdot \vec{a}_1
&\rightarrow \max\cr\cr &&&\hfill \vec{a}_1^T \cdot \vec{a}_1 &=
1\hfill\cr\end{matrix}$$
Das führt zur Lagrangefunktion
$$L(\vec{a}_1, \lambda ) = \vec{a}_1^T \cdot S \cdot \vec{a}_1 -
\lambda (\vec{a}_1^T \vec{a}_1 - 1)$$
Es gilt (siehe Aufgabe \ref{AbleitungVektorQuadrat.aufgabe}
und Aufgabe \ref{AbleitungQuadrForm.aufgabe} [Ableitung der quadratischen
Form])
$${\partial (\vec{a}_1^T S\vec{a}_1)\over \partial \vec{a}_1} = 2
S\vec{a}_1$$
Damit ergibt sich als Ableitung der Lagrangefunktion:
$${\partial L\over \partial \vec{a}_i} = 2 S\vec{a}_1 - 2 \lambda
\vec{a}_1 \ {\buildrel \rm ! \over =} \ \vec{0}$$
Somit durch Spreizung von $2\lambda \vec{a}_1$
$$2S\vec{a}_1 - 2\lambda I\vec{a}_1 = \vec{0}$$
$$(S-\lambda I)\vec{a}_1 = \vec{0}$$
Das ist das bekannte Eigenwertproblem. Da $S$ positiv semidefinit
ist, existieren $p$ nicht negative Eigenwerte $\lambda_1,
\lambda_2, \dots , \lambda p$. Nehmen wir an, dass sie
unterschiedlich und nach der Größe geordnet sind
$$\lambda_1 > \lambda_2 > \lambda_3 \dots > \lambda_p \geqslant 0$$
Welcher Eigenwert $\lambda$ maximiert die Varianz.
Es gilt
$$\begin{matrix}
Var(\vec{a}_1^T S) &= &\vec{a}_1^T S
\vec{a}_1\hfill
\cr\cr
&= &\vec a_1^T \lambda I \vec a_1\hfill
\cr\cr
&=
&\lambda\hfill\cr\end{matrix}$$
Somit muss zur Maximierung der Varianz der größte Eigenwert
$\lambda_1$ gewählt werden.
$\vec a_1$ ergibt sich als Eigenvektor zum Eigenwert $\lambda_1$.
Die zweite Hauptkomponente $\vec{y}_2$ wird so bestimmt, dass
$\vec{y}_1$ und $\vec{y}_2$ unkorreliert sind.
Es gilt
$$\begin{matrix}
Cov(\vec{y}_2, \vec{y}_1) &= &Cov(\vec{a}_2\vec{x}, \vec{a}_1\vec{x})\hfill
\cr\cr
&= &E\left [\vec{a}_2 (\vec{x} - \vec{\mu})(\vec x - \vec{\mu})\vec{a}_1\right ]
\hfill
\cr\cr
&= &\vec{a}_2^T S \vec{a}_1\hfill
(***)\cr\end{matrix}$$
Da die Kovarianz Null sein soll, ergibt sich
$$\vec{a}_2^T S \vec{a}_1 = 0$$
Wegen $S\vec{a}_1 = \lambda_1\vec a_1$ (Eigenwerteigenschaft) ergibt
sich
$$\vec{a}_2^T \lambda \vec{a}_1 = 0$$
also wegen $\lambda_1 \neq 0$:
$$\vec{a}_2^T \vec{a}_1 = 0$$
Das bedeutet, dass $\vec{a}_2$ und $\vec{a}_1$ orthogonal
zueinander sind.
Es ergibt sich folgendes Optimierungsproblem mit zwei
Nebenbedingungen
$$\begin{matrix} \vec{a}_2^T S \vec{a}_2\hfill &\rightarrow
&\max\hfill\cr\cr \vec{a}_2^T \cdot \vec{a}_2\hfill &=
&1\hfill\cr\cr \vec{a}_2^T \cdot \vec{a}_1\hfill &=
&0\hfill\cr\end{matrix}$$
aus dem sich folgende Lagrangefunktion mit den Lagrangefaktoren
$\lambda$ und $\delta$ ergibt:
$$\begin{matrix}L(\vec{a}_2, \lambda, \delta ) = \vec{a}_2^T S \vec{a}_2 -
\lambda (\vec{a}_2^T\vec a_2 - 1) - \delta \vec{a}_2^T
\vec{a}_1&\cr\cr {\partial L\over \partial \vec{a}_2} = 2(S -
\lambda I) \vec{a}_2 - \delta \vec{a}_1 = 0\hfill
&(+)\cr\end{matrix}$$
$$2S\vec{a}_2 - \lambda I \vec{a}_2 - \delta \vec{a}_1 = 0$$
Multiplikation von links mit $\vec{a}_1^T$ liefert
$$2\vec{a}_1^T S\vec{a}_2 - \lambda I \underbrace{\vec{a}_1^T
\vec{a}_2}_{=0} - \delta \underbrace{\vec{a}_1^T \vec{a}_1}_{=1} =
0$$
$$\underbrace{2\vec{a}_1^T S \vec{a}_2}_{= \ 0 \ \hbox{wegen} \ (***)}
= \delta$$
Somit wird (+) zu
$$(S - \lambda I) \vec{a}_2 = 0$$
Wir haben wieder das gleiche Eigenwertproblem mit $p$ Eigenwerten,
jetzt zur Bestimmung von $\vec{a}_2$.
Wir wählen den zweithöchsten $\lambda_2$ und für die
Hauptkomponente $\vec{a}_2$ den zugehörigen Eigenvektor.
Setzen wir die Überlegungen entsprechend fort, so ergibt sich,
dass die Hauptkomponente $\vec{a}_j$ gegeben ist durch den
Eigenvektor zum Eigenwert $\lambda_j$.
A sei die Matrix der in dieser Weise bestimmten Eigenvektoren $\vec a_i$. Dann gilt
$$\vec y = A^T\cdot \vec x$$
Von der Konstruktion her sind die $y_i$ unkorreliert. Die
Kovarianzmatrix von $\vec y$ ist somit eine Hauptdiagonalmatrix
mit den Eigenwerten als Varianzen in der Hauptdiagonale.
$$\Lambda = Kov(\vec y) =
\begin{pmatrix}
\lambda_1 & 0 &\cdots & 0\\
0 &\lambda_2 &\cdots & 0\\
\vdots& & \ddots& \vdots\\
0 & 0 & \cdots &\lambda_p \\
\end{pmatrix}
$$
Wegen (eq:HK5) gilt
$
Var(\vec{y}) = \vec{a}_j^T\cdot S \cdot \vec{a}_j
$
. Somit ergibt sich als Zusammenhang zwischen der Kovarianzmatrix von $\vec y$ und $\vec x$:
$$\Lambda = \vec{a}_j^T\cdot S \cdot \vec{a}_j $$
Es gilt $A\cdot A^T = I$, da die Vektoren $\vec a_i$ orthogonal zueinander sind. Daraus ergibt sich:
$$ S = A^T\cdot \Lambda\cdot A$$
$$ \sum_{i=1}^{p} \hbox{Var}(y_i) = \sum_{i=1}^{p} \lambda_i= \hbox{Spur}(\Lambda)$$
Es ist wegen Spur(AB)= Spur (BA):
$$
\hbox{Spur}(\Lambda) = Spur(A^T S A) = Spur(SAA^T) = Spur(S) = \sum_{i=1}^p Var(x_i)$$
Somit ist die Summe der Varianzen der ursprünglichen Variablen gleich der
Summe der Varianzen der transformierten Variablen.
Die j-te Hauptkomponente hat damit den Anteil $\lambda_j/\sum_{i=1}^p \lambda_i$
der Summe der ursprünglichen Variablen.
Die ersten k Hauptkomponenten haben den Anteil $\sum_{j=1}^k\lambda_j/\sum_{i=1}^p \lambda_i$
der Summe der ursprünglichen Variablen.