重回帰分析

重回帰分析

1. 重回帰モデル

(1) 重回帰分析とは

一つの目的変数に対し、複数の説明変数が存在するようなモデルを考えること。

(2) 重回帰式

① 回帰方程式

② 実測値

(3) 重回帰モデルの仮定

・重回帰式は線形の一次式であること。

・ n個の誤差同士には系列相関がない。

・ n個の誤差の平均値は0で、分散は等しく、その分布は正規分布に従う。

・説明変数と誤差は互いに独立である。

(4) 重回帰モデルを考える上での注意

・寄与率が1に近くなるような、説明変数を選ぶこと。

・説明変数同士の相関が強くないこと。強い相関があるとマルチコ（多重共線性）が発生する。

2. 係数の推定

(1) 残差平方和

この値が最小となるように、偏回帰係数を決める。

(2) 変数の偏差平方和・偏差積和

① x_k（x₁～x_p）の偏差平方和：それぞれx_kのみのばらつきを表す。(独立変数)

② yの偏差平方和（全平方和）：yのみのばらつきを表す。(独立変数)

③ 異なる説明変数同士の偏差積和：x_kx_jのばらつきを表す。(従属変数)

④ x_k（x₁～x_p）とyの偏差積和：x_ky（x₁y～x_py）のばらつきを表す。(従属変数)

(3) 分散

① 不偏分散

② 共分散

(4) 偏相関係数

(5) 偏回帰係数の点推定

目的変数と説明変数の偏差積和は、次式で表される。

今、誤差を最小にするような解を求めるので、とおけば、

なので、の全ての説明変数について連立方程式を立てれば、

行列形式で、

以上のようにして、偏差平方和・偏差積和から、重相関係数を最大にするような偏回帰係数を求める。

3. 変動と回帰・残差

(1) 回帰式と変数

① 平均値

② 予測値

③ 実測値

(2) 目的変数の変動＝残差＋回帰による偏差

(3) 平方和

① 残差平方和

② 回帰平方和

または、

③ 全平方和＝残差平方和＋回帰平方和

全ての変動は、残差変動と回帰による変動の総和となる。

(4) 決定係数（寄与率）

(5) 重相関係数

目的変数と予測値の相関係数を重相関係数という。

寄与率は重相関係数の二乗となる。

(6) 最小二乗法

したがって、残差平方和は次の4つに係数をかけたものの総和で表現される。

① 目的変数の偏差平方和

② 説明変数の偏差平方和

③ 説明変数同士の偏差積和

④ 説明変数と目的変数の偏差積和

4. 重回帰分析の手順

(1) 計算

① データから、全ての偏差平方和・偏差積和を計算する。

② 偏回帰係数を計算する。

③ 回帰平方和を計算する。

④ 残差平方和を計算する。

(2) 検定

回帰平方和と残差平方和を使って、F検定を行う。

例：標準偏差を根拠に、回帰による偏差と誤差のばらつきに差があるといえるか

① 仮説を立てる

帰無仮説H₀：全ての偏回帰係数が0となる

（　標準偏差に差があるといえない）

対立仮説H₁：少なくとも一つの回帰係数が0では無い

（　標準偏差に差があるといえる）

② 分散分析表を作り、不偏分散Vの比を表すFを求める。

F は、自由度のF分布に従う。

変動要因	S :平方和	:自由度	V :不偏分散	F :分散比
R :回帰
ε :残差
T :全変動

③ 判定

検定基準：F分布表などから、値を読み取る。

検定(5%,1%)：

たとえば、有意水準5%の検定では、

i. ならば帰無仮説H₀は棄却され、対立仮説H₁が採択される。有意水準5%にて有意差あり。

　標準偏差に差があるといえる。

すなわち重回帰モデルは有効である。

ii. ならば帰無仮説H₀は棄却されない。有意水準5%にて有意でない。

　標準偏差に差があるといえない。

すなわち重回帰モデルは有効とはいえない。

(3) 推定

p個の説明変数が確定している場合において、回帰式と目的変数を推定する。

① 回帰式と目的変数の点推定

② 回帰式の区間推定

マハラノビス距離を求める。偏差積和行列または共分散行列から、

よって、回帰式の95%信頼区間は、t分布から、

③ 目的変数の区間推定

目的変数の95%信頼区間は、t分布から、

5. 規格化

(1) 規格化の必要性

前述の重回帰式について、このままでは、偏回帰係数の大小を比較し、どの説明変数の影響が強いのかを検討することができない。なぜなら、説明変数ごとの単位がばらばらだからである。

(2) 規格化の方法

そこで、単位の影響を取り除くためには、平均値と標準偏差を使って、

のように、規格化してやる必要がある。

重回帰式を書き換えると、次式のようになり、新たな係数を標準偏回帰係数という。

6. Excelによる重回帰分析

ここに挙げた例はあくまで仮定であって、実際にハイブリッド車の燃費が予測できるわけではない。

(1) 目的変数Yと説明変数Xの表を作成する。

	Y	X1	X2	X3	X4
	燃費 [km/l] (10・15)	車体重量 [kg]	排気量 [cc]	モータ出力 [kW]	エンジン出力 [kW]
初代プリウス	29	1220	1496	33	53
2代目プリウス	35.5	1250	1496	50	57
3代目プリウス	38	1310	1797	60	73
レクサスﾊｲﾌﾞﾘｯﾄﾞ	12.2	2320	4968	165	290
2代目ｴｽﾃｨﾏﾊｲﾌﾞﾘｯﾄﾞ	20	1950	2362	155	110
ハリアーﾊｲﾌﾞﾘｯﾄﾞ	17.8	1930	3310	173	155
クラウンﾊｲﾌﾞﾘｯﾄﾞ	15.8	1840	3456	147	296

(2) 分析ツール→データ分析→回帰分析

・ Y範囲：燃費

・ X範囲：車体重量からエンジン出力まで

・ラベル・残差出力にチェック

(3) 出力結果

分散分析表

	自由度	変動	分散	観測された分散比	有意 F
回帰	4	543.2217	135.8054	3.828984	0.217661
残差	2	70.93549	35.46774
合計	6	614.1571

偏回帰係数

	係数
切片	55.30199
車体重量 [kg]	-0.01739
排気量 [cc]	0.002452
モータ出力 [kW]	-0.01959
エンジン出力 [kW]	-0.04282

残差出力

観測値	予測値: 燃費 [km/l] (10・15)	残差
初代プリウス	34.84334	-5.84334
2代目プリウス	33.8174	1.682604
3代目プリウス	32.63118	5.368823
レクサスﾊｲﾌﾞﾘｯﾄﾞ	11.49701	0.702994
2代目ｴｽﾃｨﾏﾊｲﾌﾞﾘｯﾄﾞ	19.4439	0.556102
ハリアーﾊｲﾌﾞﾘｯﾄﾞ	19.83626	-2.03626
クラウンﾊｲﾌﾞﾘｯﾄﾞ	16.23093	-0.43093

(4) 係数から回帰式を作る。

(5) 回帰式を使ってデータを予測する。

新たな説明変数と回帰式から、新たな目的変数yを予測する。

トヨタのハイブリッド車から得られた回帰式に、ホンダのハイブリッド車のデータを代入して、燃費を予測する。

	実際の値	Y	X1	X2	X3	X4
	燃費 [km/l] (10・15)	予測燃費 [km/l] (10・15)	車体重量 [kg]	排気量 [cc]	モータ出力 [kW]	エンジン出力 [kW]
2代目ｲﾝｻｲﾄ	30	34.9	1190	1339	10	65
2代目シビックﾊｲﾌﾞﾘｯﾄﾞ	31	33.3	1270	1339	15	69

予測値と実際の値を比較してみると、それほど大きく外れていないので、まずまずといったところか。

(6) 規格化してから分析し、係数を比較する。

規格化

	Y	X1	X2	X3	X4
	燃費 [km/l] (10・15)	車体重量 [kg]	排気量 [cc]	モータ出力 [kW]	エンジン出力 [kW]
初代プリウス	0.490	-1.093	-0.935	-1.291	-0.900
2代目プリウス	1.132	-1.023	-0.935	-1.013	-0.862
3代目プリウス	1.380	-0.883	-0.701	-0.849	-0.710
レクサスﾊｲﾌﾞﾘｯﾄﾞ	-1.171	1.472	1.766	0.870	1.352
2代目ｴｽﾃｨﾏﾊｲﾌﾞﾘｯﾄﾞ	-0.400	0.610	-0.261	0.706	-0.358
ハリアーﾊｲﾌﾞﾘｯﾄﾞ	-0.617	0.563	0.476	1.001	0.069
クラウンﾊｲﾌﾞﾘｯﾄﾞ	-0.815	0.353	0.590	0.575	1.409

標準偏回帰係数

	係数
切片	-4.2E-16
車体重量 [kg]	-0.73694
排気量 [cc]	0.311527
モータ出力 [kW]	-0.11832
エンジン出力 [kW]	-0.44553

すなわち、燃費には車体重量の影響が最も大きい。

戻る