現在位置 : 統計WEB | コラム | 2010年10-11月

コラム 『統計備忘録』 バックナンバー

2009年 | 2010年 1-2月 | 3-4月 | 5-9月 | 10-11月 | 2011年 

第94話 「クロス集計表から分析する」

クロス集計表の分析というと、カイ二乗検定しか思い浮かばない人も多いかと思いますが、私が知っているだけでも、20種類を超える統計量や多変量解析があります。この統計WEBのメインページにも、2×2のクロス集計表から計算可能な各種の検定や統計量が全部で12個載っており、入力フォームの集計表の各セルに任意の数字を入れ、計算ボタンを押すと、計算結果が表示されます。



エクセル統計2010 集計表の作成と分析メニュー

最新のエクセル統計(エクセル統計2012より、「クロス集計表の作成」は「クロス集計表の作成と分析」に変わり、集計と同時に以下の分析も同時に行うことができます。また、3重クロスの機能も追加されています)では、クロス集計表から分析するための機能が13個あります。左の「集計表の作成と分析」メニューの「独立性の検定」以下のものです。各機能の使用目的について、ざっと説明しておきます。


独立性の検定
独立性の検定」は、多くの方が「カイ二乗検定」として覚えてしまっているものです。「カイ二乗検定」とはカイ二乗分布を利用した検定手法の総称で、クロス集計表から2変数間に関連があるかどうかを検定する場合を独立性の検定と言います。帰無仮説が「2変数が独立している(関連が無いということ)」なので、独立性の検定といいます。ここでは、2変数間の関連性の強さの指標となるCremerのVYuleのQ(2×2の場合のみ)も同時に出力します。



フィッシャーの直接確率
これも独立性の検定の一種ですが、カイ二乗分布による近似的な有意確率ではなく、すべての考えられうる組合せを数えて、その中で、観測された以上の差がつく組合せの比率を有意確率としたものです。サンプルサイズやクロス集計表のサイズが大きくなると、組合せが膨大になり計算が困難になるので、エクセル統計では2×2のクロス集計表で、かつ、桁あふれを起こさない場合にのみ利用できます。「正確確率」とも呼ばれるように、カイ二乗検定よりも正確な有意確率が求められます。


クロス集計表の残差分析
クロス集計表の独立性の検定を行い有意だったときに、続けて、セル単位の分析を行う場合に利用します。各セルの比率が、全体的な比率に比べて統計的に有意に大きい、または、小さいのかを検定できます。



リスク比・オッズ比
エクセル統計では2×2のクロス集計表からリスク比(相対リスク)とオッズ比の区間推定を行います。2変数間の因果関係を調べるときに用います。臨床試験やコホート研究など前向き研究のときはリスク比を用い、ケースコントロール研究など後ろ向き研究のときに用います。



コクラン・アーミテージ検定
k行2列で、かつ、kのカテゴリーに順序があるクロス集計表から検定を行います。喫煙本数が増えるにつれて肺がんの発生が増えるかどうか、薬の用量を増やすと治癒率が高まるかどうかなどを検定したい場合に用います。

次回に続く



2010.10.6

加筆 2012.7.17



第95話 「クロス集計表から分析する 2」

前回に続き、今回もエクセル統計を用いてクロス集計表からどのような分析ができるか、簡単に説明します。



今回の2つは「多層の」と頭についていますが、どちらも、複数の研究結果を統合して評価する「メタ・アナリシス」でも用いられます。これは3重クロス(3元クロスなどともいう3変数による集計)のクロス集計結果に対する検定方法です。2変数のクロス集計であればエクセル統計の同一メニュー内にある「クロス集計表の作成(エクセル等統計2010まで)」で簡単にできますが、3重クロスの機能はエクセル統計2012から搭載されています(「クロス集計表の作成と分析」を使用)。Excelだけで3重クロスを行うならピボットテーブルを使ってください。もしくは、秀吉のような集計ソフトを使うのが便利です。


多層の2x2表の検定
ここでは、「コクラン・マンテル・ヘンツェル(Cochran-Mantel-Haenstzel)法による検定」ができます。
まず、層別のクロス集計結果より、層ごとに4種類の検定(カイ二乗、尤度比カイ二乗、マンテル・ヘンツェルのカイ二乗、Fisherの直接確率)を行います。クラメールの連関係数(CremerのV)、オッズ比・リスク比の区間推定も算出します。続けて、層別要因となる第3の変数の影響を調節したコクラン・マンテル・ヘンツェル法による検定の結果(CMHの相関統計量とその有意確率)と、調整済みリスク比・オッズ比の区間推定も行います。なお、Breslow-Day検定によって、層が異なってもオッズ比が等しいかどうかも同時に検定します。

多層の2x2表の例

多層のkx2表の検定
ここでは、「マンテル・エクステンション(Mantel-extension)法による検定」ができます。「拡張Mantel検定」とも呼ばれるもので、コクラン・アーミテージ検定の3重クロス版と言えます。
多層の2x2表の検定のときと同じく、層別のクロス集計結果より、層ごとに4種類の検定を行い、クラメールの連関係数(CremerのV)を算出します。その次に、マンテル・エクステンション法による検定結果(CMHの相関統計量とその有意確率)を出力します。

多層のkx2表の例


次回に続く


2010.10.25
追記 2010.11.16
追記 2010.11.19
変更・加筆 2012.7.17



第96話 「クロス集計表から分析する 3」

続けて紹介するのは、マクネマー検定、グッドマン・クラスカルのγ(ガンマ)、グッドマン・クラスカルのτ(タウ)、カッパ係数です。



エクセル統計2010 集計表の作成と分析メニュー


マクネマー検定
マクネマー検定は2×2のクロス集計表に対して用いることができます。独立性の検定は2変数間に関連があるかどうかを有意判定するために用いますが、投薬の前後である症状の有無が変化したかどうかというように、変化の有無を調べるための検定です。コラムの第20話でも説明しています。



グッドマン・クラスカルのγ(ガンマ)
クロス集計表の表頭、表側の変数ともに、カテゴリーに順序があれば、この機能を用いて2変数間の順位相関係数を計算することができます。
クロス集計表から計算できる順位相関係数は、グッドマン・クラスカルのγ、ケンドールのτb(タウ・ビー)とτc(タウ・シー)の3つです。順位相関係数はピアソンの積率相関係数と同じように-1から1までの値をとり、0は無相関です。




グッドマン・クラスカルのτ(タウ)
クロス集計表の表頭、表側いずれかの変数を独立変数(原因)、残る片方の変数を従属変数(結果)と見なし、グッドマン・クラスカルのτ(誤差減少率)を求めます。
τが1なら、独立変数の値によって従属変数の値を100%推定できます。τが0なら独立変数と従属変数は独立しており因果関係は認められないということになります。
表頭を独立変数とした場合、表側を独立変数とした場合の2通りのτが出力されます。




カッパ係数
カッパ係数は、2つの検査法による検査結果が一致しているか、2人の評価者の評価が一致しているかといったように、同一の対象について2通りの測定を行った結果から、2つの測定の一致度を表す係数です。したがって、クロス集計表は表頭、表側ともに同じカテゴリーの配置になります。カッパ係数の有意性の検定も行います。
コラムの第53話第54話で説明しています。



次回は、残る2つ、クロス集計表からできる多変量解析について書きます。


2010.11.16



第97話 「クロス集計表から分析する 4」

今回は、残る2つ、コレスポンデンス分析と双対尺度法(そうついしゃくどほう)について触れます。コレスポンデンス分析はフランス人のベンゼクリ(Benzecri,J,P.)が1970年代に、双対尺度法は日本人の西里静彦氏が1980年に提案しました。

この2つの解析手法は、クロス集計表の行の要素と列の要素を、1枚のマップ上にレイアウトするために用います。西里静彦氏の『質的データの数量化』(朝倉書店,1982)に載っていたデータを利用して、それぞれのマップを比べてみましょう。



ガーマイズとリラクラが行ったロールシャッハ・テストによる実験結果

データとなるクロス集計表は、ガーマイズとリラクラが行ったロールシャッハ・テスト(心理テストの1つ。インクのシミのような模様を見せて、何に見えたかを聞き取るテスト)による実験の結果です。列は被験者がロールシャッハ図版を眺めていた時の気分、行が図版が何に見えたかです。



枠線で囲んだ範囲をエクセル統計に読み込ませて分析します。どちらの手法を利用しても、アウトプットの末尾に1枚のマップが出力されます。次の(1)がコレスポンデンス分析を使って、(2)が双対尺度法を使って分析し得られたマップです。



2つのマップ

一見すると異なるマップのようですが、(2)のマップを180度回転させると、(1)のマップと同じになることが分かります。つまり、この2つの解析手法により得られる座標の値は異なりますが、結論としては等質です。つまり、要素間の相対的位置関係は等しくなります。

マップ上の要素間の距離の近さは、出現の仕方が似ているということを意味するので、どちらのマップを見ても、安心して眺めていた人は山に見えた人が多く、蝶や血に見えた人は少なかったということです。同じ集計表から得たマップですから、異なる配置になったら困ってしまいますね。



さて、この2つ解析手法を用いる場合、分析する集計表は3行×3列以上でなければいけません。2行或いは2列のクロス集計表をマッピングしたいなら、集計表からではなく元となったデータから、数量化3類を使って分析するとマップが得られます。



なお、エクセル統計のコレスポンデンス分析では、%表や平均値表からもマップを作成することも可能です。


2010.11.30



次のコラムへ

最新のコラムへ

タイトル一覧へ  タイトル一覧(カテゴリー別)へ

統計WEB

主催:BellCurve