エクセル統計やMicrosoft(R)Excel を使って、実際にデータ分析を行うための知識やアイデアを紹介します。
現在位置 : 統計WEB|統計解析事例|エクセル統計2010 - 箱ひげ図
※ このコンテンツは「エクセル統計2010」を用いた解析事例です。
下図は、南北アメリカ大陸の5カ国について、ワールド年鑑(1967)を元に各国上位10都市の人口を調べた結果です(単位:10万人)。エクセル統計を用いて箱ひげ図を作成し、各国上位10都市の人口の分布の違いについて分析します。(David C. Hoaglin, Frederick Mosteller, John W. Tukey, "Understanding Robust and Exploratory Data Analysis", Wiley-Interscience, 2000, P66-67. 参照)

下図のように、セル範囲「B3:F3」を選択後、メニューより[エクセル統計]−[基本統計]−[箱ひげ図]を選択します。

ダイアログが表示される際、セル範囲「B3:F13」が[データ入力範囲]に自動で指定されます。このまま[OK]を選択して分析を実行します。

各列のサンプルサイズ、平均、不偏分散、標準偏差、最小値、第1四分位数、中央値、第3四分位数、最大値、四分位範囲が出力されます。

Tukey法による箱ひげ図が出力されます。Excel のグラフで縦棒と誤差範囲を用いて作成しています。

Tukey法による箱ひげ図の各点の計算方法について解説します。
中央値は以下のように定義されます。nはサンプルサイズ、kは正の整数、x(k) はデータ内でk番目に大きい値を表します。
fourthの(最小値または最大値からの)深さは以下のように定義されます。depth of median は中央値の深さ、[x]はxを超えない最大の整数を表します。mを正の整数とすると、fourthの深さがm+0.5となった場合、fourthの値はx(m) とx(m+1) の平均値となります。
理論上のcutoff は以下のように定義されます。fourth-spread は、上側のfourthと下側のfourthとの差です。実際の上側cutoff は、理論値以下で最大のデータとなります。また、実際の下側cutoff は、理論値以上で最小のデータとなります。
箱ひげ図の各点の値が出力されます。

箱ひげ図のグラフの元データが出力されます。

※ 掲載している画像は、エクセル統計による出力後に一部書式設定を行ったものです。
この解析事例のExcel ファイルのダウンロードはこちらから → example_29.xls
→ トップに戻る
最終更新日:2011.7.15