現在位置 : 統計WEB統計解析事例|主成分分析

主成分分析

※ このコンテンツは「エクセル統計2008」を用いた解析事例です。

下図のデータは、2008年8月に行われた北京五輪における陸上10種競技の結果から4種目だけ抜き出したものです。26選手について10種の競技(100m、走り幅跳び、砲丸投げ、走り高跳び、400m、110m障害、円盤投げ、棒高跳び、やり投げ、1500m)のデータが得られましたが、サンプルサイズに対して変数の数が多い場合は解析に注意が必要なため、100m、400m、110m障害、1500mの4種目のデータを抜き出しました。データは各選手の競技別の得点そのもので、10種目の合計得点の高い順に並べられています。

4種目の結果

主成分分析

エクセル統計の主成分分析のダイアログを呼び出す前に、青色のフォントのセル範囲を選択します。メニューより「エクセル統計」−「多変量解析」−「主成分分析」を選択し、[OK]をクリックします。

主成分分析のダイアログ

基本統計量と相関行列

各変数の基本統計量と変数間の相関行列が出力されます。

基本統計量と相関行列

固有値表

固有値表
固有値:
主成分(合成変量)の分散。
値が1を下回る主成分は影響が少ないとみなして分析に利用しないことがあります。
寄与率:
変数全体の分散のうち各主成分で説明される割合。
値が 100 / 変数の個数 を下回る主成分は影響が少ないとみなして分析に利用しないことがあります。
累積寄与率:
寄与率の累計。
ここでは、主成分No.1とNo.2で変数全体の情報を80%以上説明できています。
固有値スクリープロット:
主成分の固有値の大きさを折れ線グラフで示したもの。
固有値の大きさや折れ線の傾きを見ることで、分析に用いる主成分を決めるのに利用できます。

固有ベクトル

ダイアログに指定した個数の固有ベクトルが出力されます。固有ベクトルは各主成分の係数です。今回の場合、主成分No.1は以下の式で表されます。

主成分No.1 = 0.477 × 100m + 0.599 × 400m + 0.584 × 110m障害 + 0.270 × 1500m

固有ベクトルの数値表
固有ベクトル1のグラフ 固有ベクトル2のグラフ

主成分負荷量

ダイアログに指定した個数の主成分負荷量が出力されます。主成分負荷量は、固有ベクトル × 固有値の平方根 / 各変数の分散の平方根 で求められます。

標準化したデータから主成分を求めた場合、主成分負荷量は固有ベクトルに固有値の平方根をかけただけなので、各変数の主成分への影響度は固有ベクトルと相違ありません。データを標準化せずに分析した場合、各変数の主成分への影響度はこの主成分負荷量を参照します。

主成分負荷量の数値表
主成分負荷量1のグラフ 主成分負荷量2のグラフ

主成分得点

個体ごとに、ダイアログに指定した個数の主成分について主成分得点が出力されます。

主成分得点

主成分得点の散布図

主成分分析の結果出力後、主成分No.1とNo.2の主成分得点の散布図をエクセル統計のラベル付き散布図で作成しました。

主成分得点の散布図

まとめ

主成分No.1とNo.2で全体の80%以上を説明していて、主成分No.3は25%(100 / 変数の個数)を大きく下回っているので、主成分No.1とNo.2で今回のデータを十分説明できそうです。

主成分No.1は400m、110m障害、100mで大きい正の値をとっていて、散布図では、10種競技の最終順位が上位の選手の多くが正の値をとっています。このことから、主成分No.1は「総合力」という意味づけができそうです。

一方主成分No.2は、1500mで大きい正の値をとり、400mも正の値なので、「筋持久力」という意味づけができそうです。

※ 掲載している画像は、エクセル統計による出力後に一部書式設定を行ったものです。

ダウンロード

この解析事例のExcel ファイルのダウンロードはこちらから → example_10.xls

参考書籍



トップに戻る

統計解析事例一覧に戻る

エクセル統計2008 製品紹介へ

最終更新日:2008.09.22

統計WEB 社会情報サービス運営

主催:社会情報サービス統計調査研究室

Google

WWW を検索
software.ssri.co.jp
を検索
エクセル統計2008