現在位置 : 統計WEB | コラム | 2011年11月

コラム 『統計備忘録』 バックナンバー

2010年 | 2011年 2-4月 | 6-8月| 11月| 2012年

第106話 「エクセル統計の分散分析について」

エクセル統計では一元配置や二元配置の分散分析を行うための入り口が2つずつ用意されています。どちらの入り口から入るかはデータをどう整理しているかによります。長年使っているユーザーの方でも2つあることに気づいていらっしゃらなかったリするので、コラムに書いておきます。

エクセル統計2010の分散分析・多重比較メニュー

メニューの先頭から4つはExcelの分析ツールに入っている分散分析と同じように、要因計画の配置表に合わせてデータを整理してある場合に使用します。分散分析の解説書などによく使われているパターンです。



二元配置分散分析 要因配置表形式のデータ

例えば、3水準と4水準の2つの因子があり繰り返しが3回のデータを分散分析するなら右表のようにデータを入力しておきます。続けて、表全体をドラッグし、さきほどのメニューから「二元配置分散分析」を呼び出します。

エクセル統計とExcelの違いはといえば、エクセル統計なら繰り返しの数が不揃いな場合でも分析できる点です。多重比較もExcelの分析ツールにはありません。


二元配置分散分析 DB形式のデータ

さて、もう一つの入り口は「多元配置分散分析」になります。エクセル統計2006までは四元配置以上ができなかったので「一元〜三元配置分散分析」という名称でした。この多元配置分散分析から同じデータを分析する場合は、左表のようにデータを入力しておきます。

アンケートのようにデータ量が多いときや、被験者の属性など他の情報も一緒に記録しておきたいときは、このように整理してある方が多いと思います。SPSSなど多くの統計ソフトもこのパターンでデータを入力しておくことになります。

この例では、水準が分かり易いように水準を文字で入力してありますが、1、2、3と数字で入力しておいても構いません。

今回は二元配置分散分析を例にしましたが、一元配置などその他の例についても、例題データと操作手順がサンプル・ファイルに収録されています。エクセル統計2010なら、「ヘルプ」メニューから「サンプル・ファイル」を選択するとサンプル・ファイルを開くことができます。分散分析の例題は、すべて「ex10_006.xls」に入っていますから覘いてみてください。

2011.11.4



第107話 「検定の多重性」

ここ10年ぐらいで、分散分析の結果が有意となった場合に、続けて多重比較を行い、どの水準間に有意差があるか検定をすることが当たり前のようになっています。教科書によっては多重比較が分散分析の下位検定(post-hoc test)でしかないような書き方をしているものもありますが、これは誤解です。分散分析の結果が有意であることを前提としているのは、FisherのLSD(最少有意差法)やScheffeの方法などで、すべてが下位検定という訳ではなく分散分析の結果を無視して利用できるものも多々あります。

エクセル統計も含め多くの統計ソフトはの分散分析の機能と同じ場所にオプションとして多重比較を備えていますす。これは分散分析とセットで使われることが多いことと、分散分析にかける場合も多重比較にかける場合も扱うデータのまとめ方も入力の仕方に区別が無いということもあります。エクセル統計ではノンパラメトリック版の多重比較も搭載していますが、こちらは、クラスカル・ウォリス検定の中のオプションになっています。



さて、多重比較とは「検定の多重性」という問題に対処するため考案されたものですが、検定の多重性の問題とはどんな問題なのか簡単にふれておきます。

例えば、A、B、Cと3つの薬剤があったとします。A−B、A−C、B−Cと2薬ずつ 3組を有意水準 5%で t検定などで比較検定したとします。元々、この「3剤に薬効の差は無かった」としても、それぞれの検定で、標本誤差によりたまたま有意になってしまう確率が 5%あります。3つのうち 1つでも有意になってしまう確率はというと 14.2625%まで上がってしまいます。

なぜ、14.2625%に上がってしまうかは次の計算によります。まず、それぞれの検定で正しい結果(有意にならない。P>0.05)が出る確率は 95%(=0.95)ですが、3つとも正しい結果が出るとなると 0.95 の 3乗で 0.857375 となります。逆に、3つの検定で 1つ以上有意になる確率はというと 1-0.857375 で 14.2625%ということになります。

このように複数回の検定を重ねることによって、本来設定していた有意水準でより誤判定してしまう確率が高まってしまうことを検定の多重性の問題と呼びます。

検定の多重性の問題は、多水準間の平均値の差の検定のような場合も含めて、次のような幾つかの場面で生じます。



(a).水準間比較の検定の多重性の問題

(b).多項目検定の多重性の問題

(c).多時点比較の多重性の問題

(d).多種検定適用の多重性の問題

(e).解析対象(サブグループ解析)の多重性の問題

(f).分割表による検定の区切り直し検定の問題

(g).中間解析の問題

  永田 靖,吉田 道弘『統計的多重比較法の基礎』(サイエンティスト社,1997)より


(a)は皆さんがおなじみのケースです。(b)の多項目検定とは血液検査で複数の項目を測定しそれぞれ検定してしまうような場合に生じます。アンケート調査でも沢山質問して検定を幾つも行えば、偶然だけで有意になるということは十分起こりえます。(c)は時系列データで何時点も測定して順次比較検定するようなときに生じえます。(d)は同一のデータに対しt検定とマン・ホイットニー検定を適用するなど複数の検定を適用する場合です。(e)は疫学調査や社会調査などで性や年齢、職業などで分類してサブグループを幾つも作り検定を繰り返すような場合、(f)は分割表(クロス集計表)に対し一部のカテゴリを統合するなどして集計し直し、その都度、検定を行う際の問題です。(g)の中間解析というのは大規模臨床試験などですべてのデータが集まっていない段階で収集済みのデータだけを使ってデータ解析することを指します。

これらの問題の対処法の1つが多重比較であって、多重比較以外にも、有意水準を厳しく設定する、類似の結果が得られるそうな測定項目を幾つかデータ収集しておいて検定結果が一致するかを検証するなど色々なアイデアがあります。

2011.11.24




次のコラムへ

最新のコラムへ

タイトル一覧へ  タイトル一覧(カテゴリー別)へ

統計WEB

主催:社会情報サービス統計調査研究室

Google
ウェブ検索
サイト内検索