エクセル統計やMicrosoft(R)Excel を使って、実際にデータ分析を行うための知識やアイデアを紹介します。
※ このコンテンツは「エクセル統計2008」を用いた解析事例です。
下図のデータは、あやめ科の3種類の植物、アイリス・セトーサ、アイリス・ヴェルシコロール、アイリス・ヴィルジニカのそれぞれ50個体について、がくの長さ、がくの幅、花弁の長さ、花弁の幅を測定した値です(Fisher 1936)。判別分析を用いて、3種類のあやめの判別するための判別関数を求めます。なお、エクセル統計では、多群の判別分析に正準判別分析を用いています。

エクセル統計の判別分析のダイアログを呼び出す前に、青色のフォントのセル範囲を選択後、[Ctrl]キーを押しながら赤色のフォントのセル範囲を選択します。メニューより「エクセル統計」−「多変量解析」−「判別分析」を選択し、[ボックスのM検定]と[判別得点の出力]にチェックを入れて[OK]をクリックします。

データ全体と目的変数の各群について、基本統計量と分散共分散行列が出力されます。

線形の判別関数を用いる場合、各群の分散共分散行列が等質である必要があります。ボックスのM検定は、帰無仮説「各群の分散共分散行列は等しい」を検定します。しかしながら、帰無仮説が棄却されても、ボックスのM検定はP値が小さくなりやすいので、結果は参考程度に留めておくのがよいでしょう。

正準判別分析では、目的変数の群数−1と説明変数の数のうち小さい方の数だけ正準変量(判別関数)が出力されます。今回のデータの場合は2つの正準変量が出力され、それぞれ以下の式で表されます。
判別得点1 = - 0.829 × がくの長さ - 1.534 × がくの幅 + 2.201 × 花弁の長さ + 2.810 × 花弁の幅 - 2.105
判別得点2 = 0.024 × がくの長さ + 2.165 × がくの幅 - 0.932 × 花弁の長さ + 2.839 × 花弁の幅 - 6.661
また、標準化判別係数も出力されます。これは説明変数を基準化した場合の判別係数のことで、正準変量への影響度を説明変数どうしで比較するのに用いることができます。

a番目以降の正準変量が有効であるかどうかを検定した結果を出力します。b+1番目以降の正準変量のP値が有意水準より大きかったとき、b番目までが有効な正準変量と考えられます。

各正準変量によってどの程度判別されるかを表す指標として固有値を出力します。ここでは出力していませんが、相関比=固有値/(1+固有値)を用いることもできます。

元データの各群がどの群に判別されたかを度数表として出力します。判別的中率は、正しく判別された個体数を全体の個体数で割った値です。

正準判別空間における各群の重心を出力します。

個体ごとに、真の群(元データ)、判別群、各正準変量、各群の重心とのマハラノビスの平方距離を出力します。各個体は、マハラノビスの平方距離が最も小さい群に判別されます。

第1・第2正準変量による正準判別空間に各群の重心と各個体をプロットした散布図です。赤い丸印が各群の重心です。(エクセル統計はこの散布図を出力しません。)

第1正準変量と第2正準変量はいずれも有意であり、判別的中率も非常に高く、とてもよく判別できていると言えます。
※ 掲載している画像は、エクセル統計による出力後に一部書式設定を行ったものです。
この解析事例のExcel ファイルのダウンロードはこちらから → example_9.xls
→ トップに戻る
最終更新日:2008.09.18