エクセル統計やMicrosoft(R)Excel を使って、実際にデータ分析を行うための知識やアイデアを紹介します。
現在位置 : 統計Web | コラム | 統計備忘録 2007年6月
2007年 4月|5月|6月|7月|8月|9月|10月|11月-12月|2008年
検定を行うと「*(アスタリスク)」の有無だけをチェックして、p値を調べない人がいるようだ。
エクセル統計を含めて多くの統計ソフトでは、検定結果に、検定統計量のtやFなどの値と、統計量から導かれたp値を出力する。さらに、p値が0.05未満(p<0.05,5%未満)になるとアスタリスクを1つ出力する。0.01未満になれば2つ出力する。
p値は「帰無仮説が正しいという前提において、それ以上、偏った検定統計量が得られる確率」を示している。
帰無仮説が「母集団Aと母集団Bの平均は等しい」とすると、p値は「2つの母集団AとBから、サンプリング可能なすべての組み合わせの総数を1として、その中で、今回の平均値の差以上に、平均値の差が生じるサンプルの組み合わせが占める比率」ということになる。
帰無仮説が正しいのに棄却してしまう誤りを「第1種の過誤(Type I error)」と呼び、統計的検定を行うときには、前もって棄却するときの基準(有意水準)を決めておく。有意水準をp値が下回ったときに、はじめて「統計的有意差があった」と言うことができる。
データを集めてから有意水準を決めてしまうと、自分の都合の良いように水準を上げたり下げたりしてしまいかねないので、禁じ手とされている。
p<0.05は慣習的なものだ。p<0.05を有意水準とする数学的な根拠は無くて、p<0.1でもp<0.03でも構わないが、p<0.05以外を有意水準にするときは、根拠を問われることになる。
なお、論文に書くときは、P<0.05を使っていても、有意水準を幾つに設定したのかを記述しなければいけない。英語の論文に記述するときは、次のように書く。
A p value less than 0.05 was considered statistically significant.
(p値が0.05未満を統計的に有意とみなした)
「considered」と表現をするのが重要なポイントのようだ。
また、個々の検定結果については、単に有意であったか否かだけでなく、「p=0.013」というようにp値も記載する。p値が0.001未満のときは「p<0.001」と書いておくのがよい。
p値が0.05以上のとき(アスタリスクがないとき)は、帰無仮説が棄却されなかっただけで、帰無仮説が正しいということにはならない。「AとBは等しい」とは書かずに「AとBには有意差が認められなかった」というような表現を用いる。
期待している差があったのに、「p=0.056」のように僅かなところで有意にならなかったのは、サンプルサイズが小さくて検出力が弱かった、または、少数の特異なデータが発生してしまったという事もありうる。
前者なら観測数を増やして追試をする、先行研究の結果とあわせてメタ分析に掛けるという手段が考えられる。後者なら、特異値が発生した原因を検討してみる。発生が事故によるものであればデータを外すか採りなおす。通常起こりうる範囲内の値であれば、ノンパラメトリック検定をあてはめる、対数変換などにより正規分布に近似させてから検定することが考えられる。
アスタリスクが付いてないときこそ、p値は重要な情報となる。
2007.06.04
関連コラム
追記 2012.01.17
トップに戻る
先日、「確率変数とは」というお問い合わせをいただいたので、私なりに、答えを考えてみました。
統計学の入門書を開くと、確率変数(random variable)は第2章あたりに出てきます。大概は、この後に、確率分布(probability distribution)へと解説が続きます。確率変数の章がないなら、その本に出てくる数式は少ないと予想されます。
確率変数を説明するときは、話を分かりやすくしようとして、サイコロ振りか、コイン投げの例が多く使われます。私としてはコイン投げの方が、このあと、ベルヌーイ試行、二項分布と話が繋がりやすいのではと思っています。
本によって、確率変数は、「Xのように大文字で」、「大文字のYで」、「X,Y等の大文字で」記述されます。ここを読み飛ばすと、この後出てくる数式の意味が分からなくなるので、必ずチェックしましょう。
確率変数は必ず数量が対応付けられています。コインなら表が「1」、裏が「0」といった具合です。身長が確率変数なら、「163」や「175」という数になります。前者は「0.3」、「0.5」と間を刻んでいくことができない、とびとびの数になるということから離散型確率変数といいます。これに対し、後者は幾らでも細かく刻むことができるので連続型確率変数といいます。
確率変数と「ただの変数」の違いは、変数がある値になる確率が決まっているかいないかです。コイン投げで表になる確率は、
Pr(X=1)=0.5
サイコロの目が6になる確率は、
Pr {X=6}=1/6
163cmより大きくて175cm以下の人の確率は、
Pr(163<Y≦175)=0.682
といったように書けます。なお、このPr(X)のことを確率関数といいます。
確率変数Xの値を横軸にして、Pr(X)の値を縦軸にすると確率分布のグラフになります。このグラフの形が釣鐘型になれば、確率変数Xは正規分布に従っていると言えます。
確率変数とは、推定や検定の対象そのものと考えてよいでしょう。
2007.06.15
トップに戻る
「誕生日のパラドックス」、「モンティ・ホール問題」など、統計学や確率に関した幾つかのパラドックスがあります。今週は、その中でも、皆さんが直面する可能性の高い、「シンプソンのパラドックス」について書きます。
シンプソンのパラドックスは、E.H.シンプソン(1951)*によって指摘されたことから、この名がつけられています。
まず、次の集計表を見てください。

この集計表は、男女別に、ある治療処置の有無により、その後、何人が生存していて、何人が死亡したかをまとめたものです。全体で52人分のデータになります。
枠の中の上段の数は人数、下段の数は縦列の合計人数に対するパーセンテージです。男性で、処置を受けて、生存している人数は「8人」、生存率は「61.5%」ということを表しています。
この集計表からは、次の2つの傾向を読み取ることができます。
・男女いずれも、「処置あり」の方が、「処置なし」よりも生存率が高い
・男性は処置の有無に関わらず生存率の方が高く、女性は死亡率の方が高い
それでは、もう1つの集計表を見てください。

これは、同じ52人のデータを集計したものですが、処置の有無に関わらず生存率は50%となり、処置の効果は消えてしまっています。
このように、母集団全体から得られた結論と、母集団を分割して得られた結論が異なることを、「シンプソンのパラドックス」といいます。
* Simpson, E. H., "The Interpretation of Interaction in Contingency Tables", Journal of the Royal Statistical Society, Series B(Methodological), 13, pp. 238-41.
2007.06.21
トップに戻る
数年前の12月のこと、
「数量化2類の結果がおかしい。どうしてこんな分析結果になったのか教えてほしい」
という問い合わせを受けた。問い合わせの主は、卒論の締め切り間近の学生さんで、メールにはデータと分析結果のファイルが付いていた。
ある水棲昆虫について「環境の違いが棲息の有無にどう影響しているのか」を調べたものだ。数量化2類の結果では「川底がコンクリート」が棲息の第一条件になっていた。
この昆虫は、幼虫時代、川底の石の裏や砂利の中で過ごすし、自然の豊かさの象徴ともなっている。
データを見ても、「川底が石や砂利」で「棲息している」が69ケース、「川底がコンクリート」で「棲息している」が9ケースと圧倒的に違いがある。
なのに、「川底がコンクリート」が第一条件なのは「おかしい」というのが学生さんの主張だ。
早速、送られてきたデータをクロス集計してみると次の通り。
川底の違いによる棲息の有無| 棲息の有無 | 川底が石や砂利 | 川底が コンクリート |
|---|---|---|
| 棲息している | 69 | 9 |
| 棲息していない | 29 | 1 |
「棲息しているケース数」の違いしか見ていなくて、「棲息率」の違いを見ていないということが直ぐに分かった。このデータから判断するなら「川底がコンクリートの棲息率(90%)」が、「川底が石や砂利の棲息率(70%)」よりも高い。
また、川底の違いによる棲息率のギャップ(20%)は、川のにごり具合など他の8つの環境要因のどれよりも大きかった。数量化2類の計算が正しいことも確認した。
ユーザーサポートとしては、棲息率の違いを指摘し、数量化2類に間違いが無いことを伝えるだけで良かったのだが、ついつい余計なことまでメールに書いてしまった。
「あなたは棲息地を中心にデータを集めていませんか?」
この後のメールのやり取りについて、ここには書かない。
これは特別な例と思うかもしれないが、毎年、同じような問い合わせが何件かある。
2007.06.29