重回帰分析

 

1. 重回帰モデル

(1)  重回帰分析とは

一つの目的変数に対し、複数の説明変数が存在するようなモデルを考えること。

 

(2)  重回帰式

@ 回帰方程式

 

A 実測値

 

 

(3)  重回帰モデルの仮定

重回帰式は線形の一次式であること。

n個の誤差同士には系列相関がない。

n個の誤差の平均値は0で、分散は等しく、その分布は正規分布に従う。

説明変数と誤差は互いに独立である。

 

(4)  重回帰モデルを考える上での注意

寄与率が1に近くなるような、説明変数を選ぶこと。

説明変数同士の相関が強くないこと。強い相関があるとマルチコ(多重共線性)が発生する。

 

 

2. 係数の推定

(1)  残差平方和

この値が最小となるように、偏回帰係数を決める。

 

(2)  変数の偏差平方和・偏差積和

@ xkx1xp)の偏差平方和:それぞれxkみのばらつきを表す。(独立変数)

 

A yの偏差平方和(全平方和):yのみのばらつきを表す。(独立変数)

 

B 異なる説明変数同士の偏差積和:xkxjのばらつきを表す。(従属変数)

 

C xkx1xp)とyの偏差積和:xkyx1yxpy)のばらつきを表す。(従属変数)

 

(3)  分散

@ 不偏分散

A 共分散

 

 

(4)  偏相関係数

 

 

(5)  偏回帰係数の点推定

目的変数と説明変数の偏差積和は、次式で表される。

 

今、誤差を最小にするような解を求めるので、 とおけば、

 

なので、 の全ての説明変数について連立方程式を立てれば、

行列形式で、

 

 

 

以上のようにして、偏差平方和・偏差積和から、重相関係数を最大にするような偏回帰係数を求める。

 

 

3. 変動と回帰・残差

(1)  回帰式と変数

@ 平均値

 

A 予測値

 

B 実測値

 

 

(2)  目的変数の変動=残差+回帰による偏差

 

 

(3)  平方和

@ 残差平方和

 

A 回帰平方和

 

または、

 

B 全平方和=残差平方和+回帰平方和

全ての変動は、残差変動と回帰による変動の総和となる。

 

(4)  決定係数(寄与率)

 

(5)  重相関係数

目的変数と予測値の相関係数を重相関係数という。

 

寄与率は重相関係数の二乗となる。

 

(6)  最小二乗法

 

したがって、残差平方和は次の4つに係数をかけたものの総和で表現される。

@ 目的変数の偏差平方和

A 説明変数の偏差平方和

B 説明変数同士の偏差積和

C 説明変数と目的変数の偏差積和

 

 

4. 重回帰分析の手順

(1)  計算

@ データから、全ての偏差平方和・偏差積和を計算する。

 

A 偏回帰係数を計算する。

 

B 回帰平方和を計算する。

 

C 残差平方和を計算する。

 

(2)  検定

回帰平方和と残差平方和を使って、F検定を行う。

例:標準偏差を根拠に、回帰による偏差と誤差のばらつきに差があるといえるか

 

 

@ 仮説を立てる

帰無仮説H0 全ての偏回帰係数が0となる

 標準偏差に差があるといえない)

対立仮説H1 少なくとも一つの回帰係数が0では無い

 標準偏差に差があるといえる)

 

A 分散分析表を作り、不偏分散Vの比を表すFを求める。

 

F は、自由度 F分布に従う。

 

変動要因

S

:平方和

:自由度

V

:不偏分散

F

:分散比

R :回帰

 

 

 

 

ε :残差

 

 

 

 

T :全変動

 

 

 

 

 

B 判定

検定基準:F分布表などから、値を読み取る。

検定(5%,1%)

 

たとえば、有意水準5%の検定では、

 

                       i.     ならば帰無仮説H0は棄却され、対立仮説H1が採択される。有意水準5%にて有意差あり。

 標準偏差に差があるといえる。

すなわち重回帰モデルは有効である。

 

                      ii.   ならば帰無仮説H0は棄却されない。有意水準5%にて有意でない。

 標準偏差に差があるといえない。

すなわち重回帰モデルは有効とはいえない。

 

 

(3)  推定

p個の説明変数が確定している場合において、回帰式と目的変数を推定する。

 

@ 回帰式と目的変数の点推定

 

A 回帰式の区間推定

マハラノビス距離を求める。偏差積和行列または共分散行列から、

 

よって、回帰式の95%信頼区間は、t分布から、

 

B 目的変数の区間推定

目的変数の95%信頼区間は、t分布から、

 

 

5. 規格化

(1)  規格化の必要性

 

前述の重回帰式について、このままでは、偏回帰係数の大小を比較し、どの説明変数の影響が強いのかを検討することができない。なぜなら、説明変数ごとの単位がばらばらだからである。

 

(2)  規格化の方法

そこで、単位の影響を取り除くためには、平均値と標準偏差を使って、

 

 

のように、規格化してやる必要がある。

 

重回帰式を書き換えると、次式のようになり、新たな係数を標準偏回帰係数という。

 

 

 

 

6. Excelによる重回帰分析

ここに挙げた例はあくまで仮定であって、実際にハイブリッド車の燃費が予測できるわけではない。

 

(1)  目的変数Yと説明変数Xの表を作成する。

 

Y

X1

X2

X3

X4

 

燃費
[km/l]
(10
15)

車体重量
[kg]

排気量
[cc]

モータ
出力
[kW]

エンジン
出力
[kW]

初代プリウス

29

1220

1496

33

53

2代目プリウス

35.5

1250

1496

50

57

3代目プリウス

38

1310

1797

60

73

レクサスハイブリッド

12.2

2320

4968

165

290

2代目エスティマハイブリッド

20

1950

2362

155

110

ハリアーハイブリッド

17.8

1930

3310

173

155

クラウンハイブリッド

15.8

1840

3456

147

296

 

 

(2)  分析ツール→データ分析→回帰分析

Y範囲:燃費

X範囲:車体重量からエンジン出力まで

ラベル・残差出力にチェック

 

 

(3)  出力結果

 

分散分析表

 

自由度

変動

分散

観測された分散比

有意 F

回帰

4

543.2217

135.8054

3.828984

0.217661

残差

2

70.93549

35.46774

合計

6

614.1571

 

 

 

 

 

偏回帰係数

 

係数

切片

55.30199

車体重量 [kg]

-0.01739

排気量 [cc]

0.002452

モータ出力 [kW]

-0.01959

エンジン出力 [kW]

-0.04282

 

 

残差出力

観測値

予測値: 燃費
[km/l]
(10
15)

残差

初代プリウス

34.84334

-5.84334

2代目プリウス

33.8174

1.682604

3代目プリウス

32.63118

5.368823

レクサスハイブリッド

11.49701

0.702994

2代目エスティマハイブリッド

19.4439

0.556102

ハリアーハイブリッド

19.83626

-2.03626

クラウンハイブリッド

16.23093

-0.43093

 

 

(4)  係数から回帰式を作る。

 

 

(5)  回帰式を使ってデータを予測する。

新たな説明変数と回帰式から、新たな目的変数yを予測する。

 

トヨタのハイブリッド車から得られた回帰式に、ホンダのハイブリッド車のデータを代入して、燃費を予測する。

 

実際の値

Y

X1

X2

X3

X4

 

燃費
[km/l]
(10
15)

予測燃費
[km/l]
(10
15)

車体重量
[kg]

排気量
[cc]

モータ
出力
[kW]

エンジン
出力
[kW]

2代目インサイト

30

34.9

1190

1339

10

65

2代目シビックハイブリッド

31

33.3

1270

1339

15

69

 

予測値と実際の値を比較してみると、それほど大きく外れていないので、まずまずといったところか。

 

 

(6)  規格化してから分析し、係数を比較する。

 

規格化

Y

X1

X2

X3

X4

 

燃費
[km/l]
(10
15)

車体重量
[kg]

排気量
[cc]

モータ
出力
[kW]

エンジン
出力
[kW]

初代プリウス

0.490

-1.093

-0.935

-1.291

-0.900

2代目プリウス

1.132

-1.023

-0.935

-1.013

-0.862

3代目プリウス

1.380

-0.883

-0.701

-0.849

-0.710

レクサスハイブリッド

-1.171

1.472

1.766

0.870

1.352

2代目エスティマハイブリッド

-0.400

0.610

-0.261

0.706

-0.358

ハリアーハイブリッド

-0.617

0.563

0.476

1.001

0.069

クラウンハイブリッド

-0.815

0.353

0.590

0.575

1.409

 

 

標準偏回帰係数

 

係数

切片

-4.2E-16

車体重量 [kg]

-0.73694

排気量 [cc]

0.311527

モータ出力 [kW]

-0.11832

エンジン出力 [kW]

-0.44553

 

 

 

すなわち、燃費には車体重量の影響が最も大きい。

 

 

戻る

 

 

 

inserted by FC2 system