現在位置 : 統計WEB | コラム

コラム 『統計備忘録』

統計学や統計解析、集計などに関連した様々なコラムを掲載しています。



最近のコラム:

すべてのコラム:  タイトル一覧   タイトル一覧(カテゴリー別)



第115話 「ビンの数と幅」

量的データの度数分布をグラフにしたものをヒストグラムまたは柱状グラフと言います。Excelのグラフの種類にヒストグラムはないため、Excelで作るなら棒グラフを代用することになります。Excelの分析ツールにもヒストグラムのメニューがありますが、やはり棒グラフを代用してヒストグラムを書いています(分析ツールのヒストグラムは、コラムの最後に書いた理由によりお奨めできません)。

ヒストグラムの棒のことを英語ではbin(ビン)と言います。日本語版分析ツールのダイアログでは[データ区間]となっているところも、英語版では[bin range]となっています。ヒストグラムでは、このビンの数と幅をどう設定するかで見た目がずいぶん変わってしまいます。

Excelの分析ツール

Excel分析ツールよりヒストグラムを呼び出す


まず、ビンの数(k)の決め方としては、スタージェスの公式を使ったものがよく知られています。Excelで求めるなら次の関数式を入力するだけです。n のところはデータの件数にしてください。

=LOG(n,2)+1

n が256なら k=9となります。端数がでたら切り上げてください。スタージェスの公式を使うと n が倍になるごとに1ずつ増えていくので n = 512 なら k = 10 です。スタージェスの公式以外にも n の平方根を使う方法もあります。ビンの幅( h )はデータの範囲(最大値″ナ小値)をビンの数で割った値です。

一方、ビンの幅( h )を決め、データの範囲をhで割ってビンの数( k )を求める方法もあります。スコットの選択(標準偏差の3.5倍を n の3乗根で割る)やフリードマン=ダイアコニスの選択(四分位範囲の2倍を n の3乗根で割る)などが知られています。

ビンの数と幅の決め方について、どんな場合にも有効な方法はありません。多くの統計ソフトはビンの数や幅をしなくとも自動で設定する機能がついているので、まずは、ソフトまかせでヒストグラムを作成してみてください。Excelの分析ツールでも、[データ区間]を指定しなくともヒストグラムを作成できます。

分析ツールのヒストグラム作成ダイアログ
(ヒストグラムを出力するためには[グラフ作成]のチェックが必要)

Excel分析ツールよりヒストグラムを呼び出す




分析ツールにより作成した度数分布表とヒストグラム(最初と最後の級の頻度に誤りがある)

Excel分析ツールよりヒストグラムを出力



ただし、Excel分析ツールのヒストグラムはプログラムにバグがあり、度数分布表の度数を間違えていることがあります。ざっくり分布を把握するぐらいなら問題ないのですが、正確さを必要とするときは、統計Tipsで紹介した方法を用いるか、エクセル統計など統計ソフトの利用すお奨めします。

エクセル統計2012により作成した度数分布表とヒストグラム

エクセル統計2012により作成したヒストグラム



2013.7.26


第114話 「中高の統計教育」

統計WEBのアクセスログを見ていると、「ヒストグラム」や「箱ひげ図」を検索していて統計WEBにたどり着く人が多いようです。「ヒストグラム」なんて統計学の基本中の基本ですから、何を今更調べる必要があるんだろうと思っていましたが、最近になってその一因が分かりました。2002年の指導要領改訂から、中学校でヒストグラムを教えなかったんですね。2011年の学習指導要領改訂でヒストグラムは復活しましたが、先生にもヒストグラムの教育経験がない世代がいて、教える側にも混乱があるようです。

もう一方の「箱ひげ図」については、去年から高校の数学 Iに「データの分析」が新設され、そこで教えるようになりました。箱ひげ図を教えるようになったのは今回の改定からなので、知らない人の方が多いのも当然です。以前は数学Bにあった「分散」や「標準偏差」もここに移され、さらに、散布図と相関」と2変数間の関連もここで学ぶようになりました。

数学 I までで学ぶ統計用語を列記すると次のようになります。数学 Iは必修科目ですから、ここまでが、社会で必要とする最低限の統計学と言っていいでしょう。

<中学校>
 ヒストグラム、範囲、代表値(平均値、中央値、最頻値)

<高校数学 I>
 箱ひげ図、四分位数,四分位範囲,四分位偏差,分散,標準偏差,散布図、相関係数

また同時に、それまで数学Cにあった「確率分布」と「統計処理」も「確率分布と統計的な推測」として1つにまとめられ、数学Bで教えるよう変更されています。ここでは、「確率変数」、「二項分布」、「正規分布」、「標本調査の考え方」、「母平均の区間推定」などを学びます。ここまで来れば、大学の教養課程でで教わる初等統計学の内容を、ほぼカバーしたことになります。

ここ10年ぐらいで出版された統計学入門書の多くは、「やさしい」、「誰でも」、「分かる」、「数式を使わない」などを謳ってハードルの低さを強調していましたが、中高でほとんど統計学を教えなかったので当然と言えます。これから初めて統計学を勉強するような方は、最初に中高の教科書や参考書を読むといいかもしれませんね。

2013.7.16


バックナンバー:

2007年 4月5月6月7月8月9月10月11-12月
2008年 1月2月3月4月5-8月9月10月11-12月
2009年 1-2月3月4月5月6-7月9-10月11-12月
2010年 1-2月3-4月5-9月10-11月
2011年 2-4月6-8月11月
2012年 1-6月7月

統計WEB

主催:社会情報サービス統計調査研究室

Google
ウェブ検索
サイト内検索