速習!線形回帰!

はじめに

線形回帰(単回帰分析、重回帰分析)は、統計学における最も基本的な技術のひとつです。

本稿では、回帰分析の理論的な基礎をまとめてみましょう。

射影行列の復習

線形回帰の理論は、射影行列を用いて展開すると大変見通しがよくなります。

まずは、射影行列を復習しましょう。なお、本稿を通してX^\primeは、行列Xの転置を表します。

定義(射影行列)
対称行列\Pi \Pi^2=\Piを満たすとき、\Piを射影行列という。
補題(射影行列の性質)
(i) \Piが射影行列であれば、1-\Piも射影行列である。
(ii) 射影行列は対角化可能であり、その対角成分(固有値)は0か1に限られる。
定理(正規変数の2乗)
射影行列\Piと独立な標準正規分布に従う確率ベクトルZ = (Z_1,\cdots,Z_n)^\primeに対して、 \lvert\lvert \Pi Z\rvert\rvert^2は自由度\mathrm{tr}  \Pi\chi^2分布に従う。
線形回帰モデルと最小二乗推定量

線形回帰モデルでは、出力データ

Y=(y_0,y_1,\cdots ,y_{n-1})^\prime

p個の入力データ

X_j = (x_{0j},x_{1j},\cdots,x_{(n-1)j})^\prime ,\  j=0,1,\cdots,p-1

で回帰することを考えます。

回帰パラメータ\beta=(\beta_0,\cdots,\beta_{p-1})^\primeと残差ベクトル

\varepsilon=(\varepsilon_0,\varepsilon_1,c\cdots,\varepsilon_{n-1})

を導入して、回帰式を以下のように定めます。


Y = X\beta +\varepsilon

ここで、X=(X_0,X_1,\cdots,X_{p-1})N\times p行列です。X_0=(1,1,\cdots,1)^\primeとすれば、モデルに切片を取り込むことに相当します。

パラメータ\betaは以下の\mathcal E (\beta) を最小化するものとして推定されます。


\begin{align}
\mathcal{E}(\beta)  &=  \lvert\lvert {Y-X\beta}\rvert\rvert^2 \\\
&= \lvert\lvert {(X^\prime X)^{\frac{1}{2}}(\beta-(X^\prime X)^{-1}X^\prime Y) }\rvert\rvert^2\\\
&\ \ \ \ \ \ \ \ -Y^\prime X (X^\prime X)^{-1} X^\prime Y+ Y^\prime Y
\end{align}

上式の2行目は平方完成です。これにより、最小化問題の解は以下のようになることがわかります。


\begin{align}
\hat\beta &= \mathrm{argmin} \mathcal E(\beta)  \\\
&=(X^\prime X)^{-1} X^\prime Y
\end{align}

定量\betaの分布

定量\betaの統計的性質を議論するため、\varepsilonは各成分独立の正規分布に従うと仮定します。つまり、


\varepsilon \sim N(0,\sigma^2I)

とします。すると、\hat\betaの平均と共分散行列は、真の値\beta,\sigma^2を用いて以下のようになります。



\begin{align}
\mathbb{E}[\hat\beta] &= \mathbb E [ (X^\prime X)^{-1} X^\prime (X\beta+\varepsilon) ] \\\
&=\beta
\end{align}


\begin{align}
\mathrm{Cov}(\hat\beta) &= \mathbb E[\hat\beta \otimes \hat\beta^\prime]-\mathbb E [\beta]\mathbb \otimes E[\hat\beta]\\\
&=(X^\prime X)^{-1}X^\prime \mathrm{Cov}(Y) X (X^\prime X)^{-1}\\\
&= \sigma^2(X^\prime X)^{-1}
\end{align}

最後の変形では、\mathrm{Cov}(Y)=\mathrm{Cov}(\varepsilon)=\sigma^2Iを用いました。

また、残差平方和を\mathrm{RSS} = \mathcal E(\hat\beta)とすると、以下のように表示できます。


\begin{align}
\mathrm{RSS} &= \lvert\lvert {Y-X\hat\beta}\rvert\rvert^2 \\\
&=\lvert\lvert {Y-X(X^\prime X)X^\prime Y}\rvert\rvert^2\\\
&=\lvert\lvert {(I-H) Y}\rvert\rvert^2
\end{align}

ここで、H=X(X^\prime X)^{-1}X^\primeとおきました。Hは射影行列となっています。
今、(1-H)X=0より(1-H)Y=(I-H)\varepsilonなので、結局、



\mathrm{RSS} =\lvert\lvert {(I-H) \varepsilon}\rvert\rvert^2\\

期待値をとると、


\begin{align}
\mathbb E[ \mathrm{RSS} ] &=\mathbb E [ \lvert\lvert {(I-H) \varepsilon}\rvert\rvert^2 ] \\\
&=\mathbb E [ \mathrm{Tr}[(I-H)\varepsilon\otimes e^\prime(I-H)] ]\\\
&= \mathrm{Tr}[(I-H) \mathbb E[ \varepsilon\otimes e^\prime ] (I-H)] \\\
&= \sigma^2\mathrm{Tr}[(I-H) ] \\\
&= \sigma^2(n-p)
\end{align}

これから、\sigma^2の推定量として、以下の\hat s^2を定義します。


\hat s^2 = \frac{1}{n-p}\mathrm{RSS}

このとき、以下が成り立ちます。



\frac{n-p}{\sigma^2}\hat s^2 = \lvert\lvert {(I-H) \sigma^{-1}\varepsilon}\rvert\rvert^2 \sim \chi^2_{n-p}

また、\hat\beta-\betaおよび(I-H)\varepsilonのそれぞれの各成分は平均0の正規分布であり、相関を計算すると、


\begin{align}
\mathbb E [ (\hat\beta-\beta) \otimes (I-H)\varepsilon ] &= (X^\prime X)^{-1}X^\prime (\varepsilon\otimes\varepsilon^\prime)(I-H) \\\
&=0 
\end{align}

となることから、\hat\beta-\betaおよび(I-H)\varepsilonは独立であり、ゆえに\hat\beta\hat s^2も独立であるとわかります。

t値と検定

\hat\beta \sim N(\beta,\sigma^2(X^\prime X)^{-1})より、(X^\prime X)^{-1}j番目の対角成分をc_jとすれば、\hat\beta_j\sim N (\beta_j,c_j\sigma^2)となります。

ここで、\beta_j=\beta_j^{\mathrm{Null}}帰無仮説とした検定を考えます。いま、


\hat t_j = \frac{\hat \beta_j-\beta_j^{\mathrm{Null}}}{\sqrt{c_{j}\hat s^2}} =\frac{(\hat\beta_j-\beta^H_j)/\sqrt{c_j \sigma^2}}{\sqrt{\frac{n-p}{\sigma^2}\hat s^2 \frac{1}{n-p}}}

とおくと、分子は正規分布、分母はχ自乗分布の平方根であり、それぞれ独立なので、t_j\sim t_{n-p}となることがわかります。