主成分分析

 

1. 主成分

(1)  主成分分析とは

総合的指標を統計的に設定し、変数間の関係を把握すること。

複数の変数によって表現されたデータを、新変数(主成分)を作って、表現しなおすこと。

⇔重回帰分析:複数の変数で表現された、目的変数を説明するようなモデル(重回帰式)を考えること。

 

(2)  目的

@ 新たな指標を導入することにより、データの特徴を把握しやすくする。

A 高次元のデータを低次元のデータに変換する。変数の数が、主成分の数に減る。

 

(3)  主成分の設定

分散が最大となる方向に主成分を設定する。

ただし、結合係数の平方和は1であること。

 

 

 

 

2. 係数の導出

(1)  主成分得点

 

 

n組の変数・n個の主成分得点の合計はともに0であり、平均も0である。

 

(2)  変数の偏差平方和・偏差積和

@ xkx1xpの偏差平方和:それぞれxkのみのばらつきを表す。(独立変数)

 

A 異なる変数同士の偏差積和:xkxjのばらつきを表す。(従属変数)

 

(3)  主成分得点の平方和

 

(4)  主成分得点の不偏分散

偏差積和行列または共分散行列を使って、

 

 

(5)  規格化された主成分得点の不偏分散

このまま係数を求めると、変数の単位を考慮していないので、係数の大小を比較できない。そこで、変数は規格化する必要がある。

 

 

規格化しておけば、n組の変数の不偏分散はそれぞれ1になる。

 

偏相関係数は次式で表されるので、

 

あらためて主成分得点の不偏分散を偏相関係数行列で表現しなおせば、

偏相関係数行列は対角行列になる。

 

結合係数の平方和が1であることを条件として、係数を求める。

 

すなわち、主成分の分散が最大となる係数を求めるにあたって、

@ 偏相関係数行列の固有値λが主成分の分散となり、

A 偏相関係数行列の固有ベクトルが係数となる。

 

 

3. 主成分の数

(1)  主成分の総数

変数がp個ならば、固有値も固有ベクトルもp個存在するので、主成分の総数もp個となる。

固有値の大きい順に、第1主成分、第2主成分…としていく。

 

(2)  累積寄与率

主成分の分散の総和は固有値の合計になるが、これは変数の数pに等しい。

したがって、第m主成分の寄与率は、次式となる。

 

通常は、目安として累積寄与率が80%になるまで、主成分を採用する。

とはいっても、2次元の平面で表現できるのは第2主成分までだが。

 

 

4. Excelによる主成分分析

(1)  マトリクス表の作成

 

X1

X2

X3

X4

 

車体重量
[kg]

排気量
[cc]

モータ
出力
[kW]

エンジン
出力
[kW]

初代プリウス

1220

1496

33

53

2代目プリウス

1250

1496

50

57

3代目プリウス

1310

1797

60

73

レクサスハイブリッド

2320

4968

165

290

2代目エスティマハイブリッド

1950

2362

155

110

ハリアーハイブリッド

1930

3310

173

155

クラウンハイブリッド

1840

3456

147

296

2代目インサイト

1190

1339

10

65

2代目シビックハイブリッド

1270

1339

15

69

 

 

(2)  規格化

 

X1

X2

X3

X4

 

車体重量
[kg]

排気量
[cc]

モータ
出力
[kW]

エンジン
出力
[kW]

初代プリウス

-0.866

-0.712

-0.826

-0.784

2代目プリウス

-0.795

-0.712

-0.579

-0.744

3代目プリウス

-0.654

-0.474

-0.433

-0.580

レクサスハイブリッド

1.732

2.034

1.095

1.637

2代目エスティマハイブリッド

0.858

-0.027

0.949

-0.202

ハリアーハイブリッド

0.811

0.723

1.211

0.258

クラウンハイブリッド

0.598

0.838

0.833

1.698

2代目インサイト

-0.937

-0.836

-1.161

-0.662

2代目シビックハイブリッド

-0.748

-0.836

-1.088

-0.621

 

 

(3)  偏差積和

 

X1X2

X1X3

X1X4

X2X3

X2X4

X3X4

初代プリウス

0.616

0.716

0.679

0.588

0.558

0.648

2代目プリウス

0.566

0.460

0.591

0.412

0.529

0.431

3代目プリウス

0.310

0.283

0.379

0.205

0.275

0.251

レクサスハイブリッド

3.524

1.897

2.836

2.227

3.330

1.792

2代目エスティマハイブリッド

-0.023

0.815

-0.173

-0.025

0.005

-0.192

ハリアーハイブリッド

0.586

0.982

0.209

0.876

0.186

0.312

クラウンハイブリッド

0.502

0.498

1.016

0.698

1.424

1.415

2代目インサイト

0.783

1.088

0.620

0.971

0.553

0.769

2代目シビックハイブリッド

0.625

0.814

0.464

0.910

0.519

0.676

合計

7.489

7.554

6.622

6.862

7.381

6.102

 

 

(4)  偏相関係数行列

偏差積和と偏差平方和から偏相関係数行列を作る

なお、規格化した場合、変数の偏差平方和は自由度(=データの数−1)に等しいので、この場合は8となる。

 

A

X1

X2

X3

X4

X1

1

0.936

0.944

0.828

X2

0.936

1

0.858

0.923

X3

0.944

0.858

1

0.763

X4

0.828

0.923

0.763

1

 

 

(5)  固有値の計算(分析ツール→ソルバー)

固有方程式から条件を満たす固有値を、変数の数(p個)だけ求める。

 

ひとまず、λには適当な仮の値を入れておく。

仮のλ

4

 

A-λE

X1

X2

X3

X4

X1

-3.000

0.936

0.944

0.828

X2

0.936

-3.000

0.858

0.923

X3

0.944

0.858

-3.000

0.763

X4

0.828

0.923

0.763

-3.000

 

|A-λE|

MDETERM(行列)

 

ソルバーのパラメータ設定→ソルバー実行

目的セル:|A-λE|

目標値:0

変化させるセル:仮のλ

制約条件の追加:|A-λE|<=4|A-λE|>=0

 

制約条件をいろいろ変えて、固有値を見つける。

ただし、求める固有値の大きさは、必ず0より大きく、変数の数pより小さい。

 

ここでは、

λ1

λ2

λ3

λ4

3.6278

0.2774

0.0701

0.0247

 

第二主成分までの累積寄与率は、97.6%なので、第二主成分までで十分説明できる。

 

 

(6)  固有ベクトルの計算(分析ツール→ソルバー)

絶対値記号の中身が0、すなわちベクトル の成分の平方和が0となる。

 

また、条件として、固有ベクトル の成分(結合係数)の平方和は1となる。

 

固有値 に対応する固有ベクトルを求める。

ひとまず、係数には適当な仮の値を入れておく。

右列で係数の平方和を計算させる。

 

仮の係数

左列平方

(A-λE)a

左列平方

a1

0.7

0.49

-0.9117

0.83126

a2

0.6

0.36

-0.5718

0.32694

a3

0.3

0.09

0.4635

0.21485

a4

0.1

0.01

1.0990

1.20785

合計

0.95

2.58090

 

行列・ベクトルの積 には、出力する複数のセルを選択・反転させた上で、数式MMURT(行列,ベクトル)を入れてctrl+shift+Enter

右列で の平方和を計算させる。

 

ソルバーのパラメータ設定→ソルバー実行

目的セル: の平方和

目標値:0

変化させるセル:仮の係数4セル

制約条件の追加:係数の平方和=1

 

ここでは、

λ1

λ2

a1

0.51161

-0.31576

a2

0.51255

0.23445

a3

0.49146

-0.60082

a4

0.48374

0.69594

 

 

(7)  主成分分析の結果を散布図に示す。

第一主成分、第二主成分それぞれについてデータを変換し、第一主成分をx軸、第二主成分をy軸に対応させる。

 

第一

第二

初代プリウス

-1.594

0.057

2代目プリウス

-1.416

-0.085

3代目プリウス

-1.071

-0.048

レクサスハイブリッド

3.259

0.411

2代目エスティマハイブリッド

0.794

-0.988

ハリアーハイブリッド

1.505

-0.635

クラウンハイブリッド

1.967

0.689

2代目インサイト

-1.799

0.337

2代目シビックハイブリッド

-1.646

0.262

 

 

第一主成分は、燃費重視かパワー重視かを表現しているものと判断し、

第二主成分は、原動力がエンジンに依存しているかモータに依存しているかを表現しているものと判断した。

 

 

 

 

 

inserted by FC2 system