エクセル統計やMicrosoft(R)Excel を使って、実際にデータ分析を行うための知識やアイデアを紹介します。
※ このコンテンツは「エクセル統計2008」を用いた解析事例です。
下図のデータは、2008年8月に行われた北京五輪における陸上10種競技の結果から4種目だけ抜き出したものです。26選手について10種の競技(100m、走り幅跳び、砲丸投げ、走り高跳び、400m、110m障害、円盤投げ、棒高跳び、やり投げ、1500m)のデータが得られましたが、サンプルサイズに対して変数の数が多い場合は解析に注意が必要なため、100m、400m、110m障害、1500mの4種目のデータを抜き出しました。データは各選手の競技別の得点そのもので、10種目の合計得点の高い順に並べられています。

エクセル統計の主成分分析のダイアログを呼び出す前に、青色のフォントのセル範囲を選択します。メニューより「エクセル統計」−「多変量解析」−「主成分分析」を選択し、[OK]をクリックします。

各変数の基本統計量と変数間の相関行列が出力されます。


ダイアログに指定した個数の固有ベクトルが出力されます。固有ベクトルは各主成分の係数です。今回の場合、主成分No.1は以下の式で表されます。
主成分No.1 = 0.477 × 100m + 0.599 × 400m + 0.584 × 110m障害 + 0.270 × 1500m


ダイアログに指定した個数の主成分負荷量が出力されます。主成分負荷量は、固有ベクトル × 固有値の平方根 / 各変数の分散の平方根 で求められます。
標準化したデータから主成分を求めた場合、主成分負荷量は固有ベクトルに固有値の平方根をかけただけなので、各変数の主成分への影響度は固有ベクトルと相違ありません。データを標準化せずに分析した場合、各変数の主成分への影響度はこの主成分負荷量を参照します。


個体ごとに、ダイアログに指定した個数の主成分について主成分得点が出力されます。

主成分分析の結果出力後、主成分No.1とNo.2の主成分得点の散布図をエクセル統計のラベル付き散布図で作成しました。

主成分No.1とNo.2で全体の80%以上を説明していて、主成分No.3は25%(100 / 変数の個数)を大きく下回っているので、主成分No.1とNo.2で今回のデータを十分説明できそうです。
主成分No.1は400m、110m障害、100mで大きい正の値をとっていて、散布図では、10種競技の最終順位が上位の選手の多くが正の値をとっています。このことから、主成分No.1は「総合力」という意味づけができそうです。
一方主成分No.2は、1500mで大きい正の値をとり、400mも正の値なので、「筋持久力」という意味づけができそうです。
※ 掲載している画像は、エクセル統計による出力後に一部書式設定を行ったものです。
この解析事例のExcel ファイルのダウンロードはこちらから → example_10.xls
→ トップに戻る
最終更新日:2008.09.22