主成分分析
1. 主成分
(1) 主成分分析とは
総合的指標を統計的に設定し、変数間の関係を把握すること。
複数の変数によって表現されたデータを、新変数(主成分)を作って、表現しなおすこと。
⇔重回帰分析:複数の変数で表現された、目的変数を説明するようなモデル(重回帰式)を考えること。
(2) 目的
@ 新たな指標を導入することにより、データの特徴を把握しやすくする。
A 高次元のデータを低次元のデータに変換する。変数の数が、主成分の数に減る。
(3) 主成分の設定
分散が最大となる方向に主成分を設定する。
ただし、結合係数の平方和は1であること。
2. 係数の導出
(1) 主成分得点
n組の変数・n個の主成分得点の合計はともに0であり、平均も0である。
(2) 変数の偏差平方和・偏差積和
@ xk(x1〜xp)の偏差平方和:それぞれxkのみのばらつきを表す。(独立変数)
A 異なる変数同士の偏差積和:xkxjのばらつきを表す。(従属変数)
(3) 主成分得点の平方和
(4) 主成分得点の不偏分散
偏差積和行列または共分散行列を使って、
(5) 規格化された主成分得点の不偏分散
このまま係数を求めると、変数の単位を考慮していないので、係数の大小を比較できない。そこで、変数は規格化する必要がある。
規格化しておけば、n組の変数の不偏分散はそれぞれ1になる。
偏相関係数は次式で表されるので、
あらためて主成分得点の不偏分散を偏相関係数行列で表現しなおせば、
偏相関係数行列は対角行列になる。
結合係数の平方和が1であることを条件として、係数を求める。
すなわち、主成分の分散が最大となる係数を求めるにあたって、
@ 偏相関係数行列の固有値λが主成分の分散となり、
A 偏相関係数行列の固有ベクトルが係数となる。
3. 主成分の数
(1) 主成分の総数
変数がp個ならば、固有値も固有ベクトルもp個存在するので、主成分の総数もp個となる。
固有値の大きい順に、第1主成分、第2主成分…としていく。
(2) 累積寄与率
主成分の分散の総和は固有値の合計になるが、これは変数の数pに等しい。
したがって、第m主成分の寄与率は、次式となる。
通常は、目安として累積寄与率が80%になるまで、主成分を採用する。
とはいっても、2次元の平面で表現できるのは第2主成分までだが。
4. Excelによる主成分分析
(1) マトリクス表の作成
X1 |
X2 |
X3 |
X4 |
|
|
車体重量 |
排気量 |
モータ |
エンジン |
初代プリウス |
1220 |
1496 |
33 |
53 |
2代目プリウス |
1250 |
1496 |
50 |
57 |
3代目プリウス |
1310 |
1797 |
60 |
73 |
レクサスハイブリッド |
2320 |
4968 |
165 |
290 |
2代目エスティマハイブリッド |
1950 |
2362 |
155 |
110 |
ハリアーハイブリッド |
1930 |
3310 |
173 |
155 |
クラウンハイブリッド |
1840 |
3456 |
147 |
296 |
2代目インサイト |
1190 |
1339 |
10 |
65 |
2代目シビックハイブリッド |
1270 |
1339 |
15 |
69 |
(2) 規格化
X1 |
X2 |
X3 |
X4 |
|
|
車体重量 |
排気量 |
モータ |
エンジン |
初代プリウス |
-0.866 |
-0.712 |
-0.826 |
-0.784 |
2代目プリウス |
-0.795 |
-0.712 |
-0.579 |
-0.744 |
3代目プリウス |
-0.654 |
-0.474 |
-0.433 |
-0.580 |
レクサスハイブリッド |
1.732 |
2.034 |
1.095 |
1.637 |
2代目エスティマハイブリッド |
0.858 |
-0.027 |
0.949 |
-0.202 |
ハリアーハイブリッド |
0.811 |
0.723 |
1.211 |
0.258 |
クラウンハイブリッド |
0.598 |
0.838 |
0.833 |
1.698 |
2代目インサイト |
-0.937 |
-0.836 |
-1.161 |
-0.662 |
2代目シビックハイブリッド |
-0.748 |
-0.836 |
-1.088 |
-0.621 |
(3) 偏差積和
X1X2 |
X1X3 |
X1X4 |
X2X3 |
X2X4 |
X3X4 |
|
初代プリウス |
0.616 |
0.716 |
0.679 |
0.588 |
0.558 |
0.648 |
2代目プリウス |
0.566 |
0.460 |
0.591 |
0.412 |
0.529 |
0.431 |
3代目プリウス |
0.310 |
0.283 |
0.379 |
0.205 |
0.275 |
0.251 |
レクサスハイブリッド |
3.524 |
1.897 |
2.836 |
2.227 |
3.330 |
1.792 |
2代目エスティマハイブリッド |
-0.023 |
0.815 |
-0.173 |
-0.025 |
0.005 |
-0.192 |
ハリアーハイブリッド |
0.586 |
0.982 |
0.209 |
0.876 |
0.186 |
0.312 |
クラウンハイブリッド |
0.502 |
0.498 |
1.016 |
0.698 |
1.424 |
1.415 |
2代目インサイト |
0.783 |
1.088 |
0.620 |
0.971 |
0.553 |
0.769 |
2代目シビックハイブリッド |
0.625 |
0.814 |
0.464 |
0.910 |
0.519 |
0.676 |
合計 |
7.489 |
7.554 |
6.622 |
6.862 |
7.381 |
6.102 |
(4) 偏相関係数行列
偏差積和と偏差平方和から偏相関係数行列を作る
なお、規格化した場合、変数の偏差平方和は自由度(=データの数−1)に等しいので、この場合は8となる。
A |
X1 |
X2 |
X3 |
X4 |
X1 |
1 |
0.936 |
0.944 |
0.828 |
X2 |
0.936 |
1 |
0.858 |
0.923 |
X3 |
0.944 |
0.858 |
1 |
0.763 |
X4 |
0.828 |
0.923 |
0.763 |
1 |
(5) 固有値の計算(分析ツール→ソルバー)
固有方程式から条件を満たす固有値を、変数の数(p個)だけ求める。
ひとまず、λには適当な仮の値を入れておく。
仮のλ |
4 |
A-λE |
X1 |
X2 |
X3 |
X4 |
X1 |
-3.000 |
0.936 |
0.944 |
0.828 |
X2 |
0.936 |
-3.000 |
0.858 |
0.923 |
X3 |
0.944 |
0.858 |
-3.000 |
0.763 |
X4 |
0.828 |
0.923 |
0.763 |
-3.000 |
|A-λE| |
MDETERM(行列) |
ソルバーのパラメータ設定→ソルバー実行
・ 目的セル:|A-λE|
・ 目標値:0
・ 変化させるセル:仮のλ
・ 制約条件の追加:|A-λE|<=4、|A-λE|>=0
制約条件をいろいろ変えて、固有値を見つける。
ただし、求める固有値の大きさは、必ず0より大きく、変数の数pより小さい。
ここでは、
λ1 |
λ2 |
λ3 |
λ4 |
3.6278 |
0.2774 |
0.0701 |
0.0247 |
第二主成分までの累積寄与率は、97.6%なので、第二主成分までで十分説明できる。
(6) 固有ベクトルの計算(分析ツール→ソルバー)
絶対値記号の中身が0、すなわちベクトル の成分の平方和が0となる。
また、条件として、固有ベクトル の成分(結合係数)の平方和は1となる。
固有値 に対応する固有ベクトルを求める。
ひとまず、係数には適当な仮の値を入れておく。
右列で係数の平方和を計算させる。
仮の係数 |
左列平方 |
(A-λE)a |
左列平方 |
|
a1 |
0.7 |
0.49 |
-0.9117 |
0.83126 |
a2 |
0.6 |
0.36 |
-0.5718 |
0.32694 |
a3 |
0.3 |
0.09 |
0.4635 |
0.21485 |
a4 |
0.1 |
0.01 |
1.0990 |
1.20785 |
合計 |
0.95 |
2.58090 |
行列・ベクトルの積 には、出力する複数のセルを選択・反転させた上で、数式MMURT(行列,ベクトル)を入れてctrl+shift+Enter。
右列で の平方和を計算させる。
ソルバーのパラメータ設定→ソルバー実行
・ 目的セル: の平方和
・ 目標値:0
・ 変化させるセル:仮の係数4セル
・ 制約条件の追加:係数の平方和=1
ここでは、
λ1 |
λ2 |
|
a1 |
0.51161 |
-0.31576 |
a2 |
0.51255 |
0.23445 |
a3 |
0.49146 |
-0.60082 |
a4 |
0.48374 |
0.69594 |
(7) 主成分分析の結果を散布図に示す。
第一主成分、第二主成分それぞれについてデータを変換し、第一主成分をx軸、第二主成分をy軸に対応させる。
第一 |
第二 |
|
初代プリウス |
-1.594 |
0.057 |
2代目プリウス |
-1.416 |
-0.085 |
3代目プリウス |
-1.071 |
-0.048 |
レクサスハイブリッド |
3.259 |
0.411 |
2代目エスティマハイブリッド |
0.794 |
-0.988 |
ハリアーハイブリッド |
1.505 |
-0.635 |
クラウンハイブリッド |
1.967 |
0.689 |
2代目インサイト |
-1.799 |
0.337 |
2代目シビックハイブリッド |
-1.646 |
0.262 |
第一主成分は、燃費重視かパワー重視かを表現しているものと判断し、
第二主成分は、原動力がエンジンに依存しているかモータに依存しているかを表現しているものと判断した。