重回帰分析
1. 重回帰モデル
(1) 重回帰分析とは
一つの目的変数に対し、複数の説明変数が存在するようなモデルを考えること。
(2) 重回帰式
@ 回帰方程式
A 実測値
(3) 重回帰モデルの仮定
・ 重回帰式は線形の一次式であること。
・ n個の誤差同士には系列相関がない。
・ n個の誤差の平均値は0で、分散は等しく、その分布は正規分布に従う。
・ 説明変数と誤差は互いに独立である。
(4) 重回帰モデルを考える上での注意
・ 寄与率が1に近くなるような、説明変数を選ぶこと。
・ 説明変数同士の相関が強くないこと。強い相関があるとマルチコ(多重共線性)が発生する。
2. 係数の推定
(1) 残差平方和
この値が最小となるように、偏回帰係数を決める。
(2) 変数の偏差平方和・偏差積和
@ xk(x1〜xp)の偏差平方和:それぞれxkのみのばらつきを表す。(独立変数)
A yの偏差平方和(全平方和):yのみのばらつきを表す。(独立変数)
B 異なる説明変数同士の偏差積和:xkxjのばらつきを表す。(従属変数)
C xk(x1〜xp)とyの偏差積和:xky(x1y〜xpy)のばらつきを表す。(従属変数)
(3) 分散
@ 不偏分散
A 共分散
(4) 偏相関係数
(5) 偏回帰係数の点推定
目的変数と説明変数の偏差積和は、次式で表される。
今、誤差を最小にするような解を求めるので、 とおけば、
なので、 の全ての説明変数について連立方程式を立てれば、
行列形式で、
以上のようにして、偏差平方和・偏差積和から、重相関係数を最大にするような偏回帰係数を求める。
3. 変動と回帰・残差
(1) 回帰式と変数
@ 平均値
A 予測値
(2) 目的変数の変動=残差+回帰による偏差
(3) 平方和
@ 残差平方和
A 回帰平方和
または、
B 全平方和=残差平方和+回帰平方和
全ての変動は、残差変動と回帰による変動の総和となる。
(4) 決定係数(寄与率)
(5) 重相関係数
目的変数と予測値の相関係数を重相関係数という。
寄与率は重相関係数の二乗となる。
(6) 最小二乗法
したがって、残差平方和は次の4つに係数をかけたものの総和で表現される。
@ 目的変数の偏差平方和
A 説明変数の偏差平方和
B 説明変数同士の偏差積和
C 説明変数と目的変数の偏差積和
4. 重回帰分析の手順
(1) 計算
@ データから、全ての偏差平方和・偏差積和を計算する。
A 偏回帰係数を計算する。
B 回帰平方和を計算する。
C 残差平方和を計算する。
(2) 検定
回帰平方和と残差平方和を使って、F検定を行う。
例:標準偏差を根拠に、回帰による偏差と誤差のばらつきに差があるといえるか
@ 仮説を立てる
帰無仮説H0: 全ての偏回帰係数が0となる
( 標準偏差に差があるといえない)
対立仮説H1: 少なくとも一つの回帰係数が0では無い
( 標準偏差に差があるといえる)
A 分散分析表を作り、不偏分散Vの比を表すFを求める。
F は、自由度 のF分布に従う。
変動要因 |
S :平方和 |
:自由度 |
V :不偏分散 |
F :分散比 |
R :回帰 |
|
|
|
|
ε :残差 |
|
|
|
|
T :全変動 |
|
|
|
|
B 判定
検定基準:F分布表などから、値を読み取る。
検定(5%,1%):
たとえば、有意水準5%の検定では、
i. ならば帰無仮説H0は棄却され、対立仮説H1が採択される。有意水準5%にて有意差あり。
標準偏差に差があるといえる。
すなわち重回帰モデルは有効である。
ii. ならば帰無仮説H0は棄却されない。有意水準5%にて有意でない。
標準偏差に差があるといえない。
すなわち重回帰モデルは有効とはいえない。
(3) 推定
p個の説明変数が確定している場合において、回帰式と目的変数を推定する。
@ 回帰式と目的変数の点推定
A 回帰式の区間推定
マハラノビス距離を求める。偏差積和行列または共分散行列から、
よって、回帰式の95%信頼区間は、t分布から、
B 目的変数の区間推定
目的変数の95%信頼区間は、t分布から、
5. 規格化
(1) 規格化の必要性
前述の重回帰式について、このままでは、偏回帰係数の大小を比較し、どの説明変数の影響が強いのかを検討することができない。なぜなら、説明変数ごとの単位がばらばらだからである。
(2) 規格化の方法
そこで、単位の影響を取り除くためには、平均値と標準偏差を使って、
のように、規格化してやる必要がある。
重回帰式を書き換えると、次式のようになり、新たな係数を標準偏回帰係数という。
6. Excelによる重回帰分析
ここに挙げた例はあくまで仮定であって、実際にハイブリッド車の燃費が予測できるわけではない。
(1) 目的変数Yと説明変数Xの表を作成する。
Y |
X1 |
X2 |
X3 |
X4 |
|
|
燃費 |
車体重量 |
排気量 |
モータ |
エンジン |
初代プリウス |
29 |
1220 |
1496 |
33 |
53 |
2代目プリウス |
35.5 |
1250 |
1496 |
50 |
57 |
3代目プリウス |
38 |
1310 |
1797 |
60 |
73 |
レクサスハイブリッド |
12.2 |
2320 |
4968 |
165 |
290 |
2代目エスティマハイブリッド |
20 |
1950 |
2362 |
155 |
110 |
ハリアーハイブリッド |
17.8 |
1930 |
3310 |
173 |
155 |
クラウンハイブリッド |
15.8 |
1840 |
3456 |
147 |
296 |
(2) 分析ツール→データ分析→回帰分析
・ Y範囲:燃費
・ X範囲:車体重量からエンジン出力まで
・ ラベル・残差出力にチェック
(3) 出力結果
分散分析表
|
自由度 |
変動 |
分散 |
観測された分散比 |
有意 F |
回帰 |
4 |
543.2217 |
135.8054 |
3.828984 |
0.217661 |
残差 |
2 |
70.93549 |
35.46774 |
||
合計 |
6 |
614.1571 |
|
|
|
偏回帰係数
|
係数 |
切片 |
55.30199 |
車体重量 [kg] |
-0.01739 |
排気量 [cc] |
0.002452 |
モータ出力 [kW] |
-0.01959 |
エンジン出力 [kW] |
-0.04282 |
残差出力
観測値 |
予測値: 燃費 |
残差 |
初代プリウス |
34.84334 |
-5.84334 |
2代目プリウス |
33.8174 |
1.682604 |
3代目プリウス |
32.63118 |
5.368823 |
レクサスハイブリッド |
11.49701 |
0.702994 |
2代目エスティマハイブリッド |
19.4439 |
0.556102 |
ハリアーハイブリッド |
19.83626 |
-2.03626 |
クラウンハイブリッド |
16.23093 |
-0.43093 |
(4) 係数から回帰式を作る。
(5) 回帰式を使ってデータを予測する。
新たな説明変数と回帰式から、新たな目的変数yを予測する。
トヨタのハイブリッド車から得られた回帰式に、ホンダのハイブリッド車のデータを代入して、燃費を予測する。
実際の値 |
Y |
X1 |
X2 |
X3 |
X4 |
|
|
燃費 |
予測燃費 |
車体重量 |
排気量 |
モータ |
エンジン |
2代目インサイト |
30 |
34.9 |
1190 |
1339 |
10 |
65 |
2代目シビックハイブリッド |
31 |
33.3 |
1270 |
1339 |
15 |
69 |
予測値と実際の値を比較してみると、それほど大きく外れていないので、まずまずといったところか。
(6) 規格化してから分析し、係数を比較する。
規格化
Y |
X1 |
X2 |
X3 |
X4 |
|
|
燃費 |
車体重量 |
排気量 |
モータ |
エンジン |
初代プリウス |
0.490 |
-1.093 |
-0.935 |
-1.291 |
-0.900 |
2代目プリウス |
1.132 |
-1.023 |
-0.935 |
-1.013 |
-0.862 |
3代目プリウス |
1.380 |
-0.883 |
-0.701 |
-0.849 |
-0.710 |
レクサスハイブリッド |
-1.171 |
1.472 |
1.766 |
0.870 |
1.352 |
2代目エスティマハイブリッド |
-0.400 |
0.610 |
-0.261 |
0.706 |
-0.358 |
ハリアーハイブリッド |
-0.617 |
0.563 |
0.476 |
1.001 |
0.069 |
クラウンハイブリッド |
-0.815 |
0.353 |
0.590 |
0.575 |
1.409 |
標準偏回帰係数
|
係数 |
切片 |
-4.2E-16 |
車体重量 [kg] |
-0.73694 |
排気量 [cc] |
0.311527 |
モータ出力 [kW] |
-0.11832 |
エンジン出力 [kW] |
-0.44553 |
すなわち、燃費には車体重量の影響が最も大きい。