現在位置 : 統計WEB | コラム | 2007年9月

コラム 『統計備忘録』 バックナンバー

2007年 4月5月6月7月8月|9月|10月11月-12月2008年

第21話   「標準誤差」

統計用語の1つに標準誤差(standard error、SE)という概念があります。本によっては解説があったりなかったりしますが、覚えておくと便利ですから、簡単に触れておきます。

標準誤差は1種類ではなく幾つかの標準誤差がありますが、まず、特に何のことわりも無く標準誤差と書かれている場合、標本平均についての標準誤差(standard error of the mean、SEM*)を指しています。標準偏差(standard deviation、SD)とサンプルサイズ(n)から計算できます。


 SEM=SD/√n



母集団から標本を抽出して求めた平均を標本平均といいます。サンプルサイズを一定にして何度も無作為抽出を繰り返し、得られた標本平均をヒストグラムに描くと、中心極限定理(the central limit theorem)によって、ヒストグラムは母集団の平均(母平均、真の平均)を中心とした釣鐘状の形になります。つまり、標本平均の分布は、ほぼ正規分布になります。標準誤差(SEM)とは、この標本平均の分布の標準偏差であり、標本平均のばらつき具合の指標になります。

標本平均が正規分布するということは、無作為抽出を繰り返したて得られた標本平均の95%は、「母平均±1.96×SEM」の区間に収まるということです。母平均の区間推定は、この原理を応用しています。実際に区間推定するときは、母平均も母標準偏差も分かっていないので、標本平均と標準偏差(不偏分散の二乗根による母標準偏差の推定量としての標準偏差)を使って計算します。


 標本平均±1.96×標準偏差/√n


ExcelのCONFIDENCE関数もこの式により標本平均からの区間の幅を計算しています。

 CONFIDENCE(α, 標準偏差, n)  95%信頼区間ならαは1-0.95の0.05

標準偏差はSTDEV関数で、サンプルサイズはCOUNT関数で求められますから、例えば、Excelシートの「A1:A100」にデータがあるなら、具体的には次のように入力すればよいでしょう。

 =CONFIDENCE(0.05,STDEV(A1:A100),COUNT(A1:A100))

ただし、標本平均がきれいな正規分布になるのはnが十分に大きなときですから、一般の統計テキストや統計ソフトでは、1.96ではなくt分布から得られた値を使用します。ExcelならTINV関数を組み合わせればよいでしょう。

 =TINV(0.05, COUNT(A1:A100)-1)*STDEV(A1:A100)/SQRT(COUNT(A1:A100))

さらに、この原理を逆用して、ある誤差の範囲に収まるようにサンプルサイズを計算することもできます。この場合、誤差というのは区間推定における平均からの区間の幅と同じと考えてください。誤差を少なくしようとするなら標準誤差を小さくする必要があります。

標準誤差はnの二乗根に反比例することになりますから、サンプルサイズを4倍にすれば標準誤差は半分になります。統計Tipsの「必要なサンプルサイズの計算」で誤差を半分にすると、サンプルサイズが4倍になるのはこのためです。



2007.09.21


* SEMは構造方程式モデリング(Structural Equation Modeling、共分散構造分析ともいう)の略称としても使われている。

追記 2008.12.08

変更加筆 2010.03.24


第22話   「アンケートの質問の順序」

アンケートを作るとき注意すべきものとして「キャリーオーバー効果」があります。

キャリーオーバー効果とは、前に置かれた質問が、後の質問の回答に影響を与えることです。キャリーオーバー効果を無くすことは不可能なので、影響を最小限に止めるようアンケートの質問の順序を考えなければいけません。

(1)重要な質問は前の方に

後になるほど効果が積み重なっていきますから、重要な質問は前の方に配置します。かといって冒頭で核心をつくような質問をしてしまうと、回答者が警戒したり、先入観を植えつけることになったりしますから、最初は答えやすい質問から始めます。

(2)因果関係が成り立つような質問同士では、結果を先に

質問A.「○○○は好きですか」
質問B.「○○○が▲▲▲であることを知っていますか」
Bを先に質問した場合、「▲▲▲」がポジティブかネガティブであるかで、Aの回答が変わってくると予想されます。この配置が意図的に行われているアンケートを時折目にしますが、このようなとき、私は本音よりも質問者の意図と逆を答えたくなります。

(3)センシティブな質問は最後に

個人のプライバシーに関わるような質問は匿名のアンケートであっても最後に置きます。ほとんどのアンケートで年齢や職業などの質問(このような個人属性についての質問が並んだシートをフェイスシートといいます)が最後にあるのはこのためです。

キャリーオーバーは質問項目間に限ったことではありません。アンケートには依頼の挨拶をつけるのが常識ですが、挨拶文に調査仮説(あるいは質問者の意図)を匂わせるような文章をいれてしまうのも厳禁です。タイトルの付け方も同様です。「血液型と性格についてのアンケート」の結果を正しく評価することはできないでしょう。


2007.09.28



次のコラムへ 最新のコラムへ

統計WEB

主催:BellCurve