現在位置 : 統計WEB | コラム | 2010年3-4月

コラム 『統計備忘録』 バックナンバー

2009年 | 2010年 1-2月 | 3-4月 | 5-9月 | 10-11月 | 2011年 

第87話 「単変量解析とは」

エクセル統計のサポートをしていると、「単変量解析をするにはどうしたらよいのか」という問い合わせを受けることがあります。単変量解析が説明変数(=独立変数)が1つだけの解析という意味なら、ほとんどの場合は多変量解析のツールをそのまま使うことができます。多変量解析の入門書を読むと、説明変数が複数あるときだけしか適用事例を挙げていないので、このような誤解を生むのだと思います。

Excelだと、「単回帰分析」も「重回帰分析」もなく、「回帰分析」があるだけです。そのため、Excelでは、単回帰分析ができないと思っている人もいれば、重回帰分析ができないと思っている人もかなりの数でいらっしゃるようです。まれに、どちらもできないと思っている方もいらっしゃいます。Excelの「回帰分析」は16個までの変数が扱える重回帰分析のツールです。当然、単回帰分析も可能です(回帰分析は分析ツール・アドインの中に入っています。関数ならLINESTです。単回帰係数を調べたいだけなら、散布図グラフを作って近似曲線を追加するという方法もあります)。

さて、本によっては、単変量解析を「変数一つ一つについて、単独で分布を確認する」という意味で使っていることもあります。このような書き方をしている本であれば、説明変数と目的変数がそれぞれ1個の場合を2変量解析としています。こちらの2変量解析も多変量解析のツールで行えます。







2010.3.16



第88話 「交絡因子とは」

医学研究の本を読むと「交絡因子があれば、多変量解析を使って調整する」という記述をよく目にします。交絡因子とは、要因と結果の両方の変数と関連がある第3の変数のことです。交絡因子がある場合に、ある要因と結果の関係を単変量解析によって評価しようとすると、交絡因子バイアスが発生して正しい評価ができなくなります。

次の例は、ウォナコットの『回帰分析とその応用』に載っていたものです。

降雨量と収量

このデータから、春の総降雨量 r が農作物の収量 Y に及ぼす影響について単回帰を求めると、次の回帰式が得られました。

 Y=76.67-1.67r

回帰係数が -1.67 ですから、降雨量が増えると収量が減少するという結果です。水は植物の生長に欠かせないはずですから意外な気もします。そこで、平均気温 t を説明変数に加えて重回帰の問題として解いてみました。そうすると、次の重回帰式が得られました。

 Y=-144.76+5.71r+2.95t

降雨量の偏回帰係数は 5.71 となり、単回帰の場合とは逆に、降雨量が増えると収量も増加します。一方、平均気温については 1度上がると収量を 2.95 増加させます。なぜ、このように降雨量の影響が異なったのかというと、平均気温が降雨量と収量に交絡しているからです。降雨量と平均気温の関係を回帰式にしてみると次のようになりました。

 t=75-2.5r

単位降雨量あたり平均気温が2.5度低くなるという負の関連が見られます。このため、降雨量が 1 増えると、直接的には収量を 5.71 増加させますが、平均気温が2.5度下がってしまうため、間接的には収量を 7.38 減少させてしまいます。

 -7.38=-2.5×2.95

単回帰のときの、降雨量が収量にあたえる影響、-1.67 は、平均気温という交絡因子によるバイアスを含んだものだったのです。

 -1.67=5.71-7.38

交絡因子を説明変数に加えて多変量解析(この例では重回帰分析)を解くこと、これが多変量解析による調整です。観察や調査による研究では、計画段階で交絡因子を予想しておき、交絡因子のデータも集めておかなければいけません。



2010.3.19

重回帰式の定数項を訂正しました。間違いをご指摘いただきありがとうございました。

2010.6.1



第89話 「層別分析とは」

飲酒の量と肺がんの発症率は、今のところ直接関係が無いとされています。しかしながら、お酒をよく飲む人と、あまり飲まない人に分けて肺がんの発症率を調べると、お酒をよく飲む人の方が発症率が高くなる傾向があります。これは、お酒をよく飲む人に喫煙者が多いからと考えられます。そこで、調査対象者を、非喫煙グループと喫煙グループに分け、それぞれのグループで飲酒量の違いによる肺がんの発症率を調べてみると、非喫煙グループでは飲酒量が異なっても肺がんの発症率に違いは出なくなります。喫煙の有無が交絡因子として作用していたために、飲酒と肺がんに関係があるように見えていたのです。

層別分析とは、収集したデータをグループ分けして、グループごとに分析することです。この例のように、交絡因子で層別分析をすると、交絡因子の影響をある程度除くことができます。

以前紹介したシンプソンのパラドックスの例では、性別が交絡因子になっていました。そのため、3重クロスで性別による層別分析をしないと、処置の効果が見えてきません。



さて、飲酒と肺がんに話を戻しますが、喫煙者では飲酒量が多いほど肺がんの発症率が高いという研究結果もあります。お酒に含まれているエタノールは体内で分解されてアセトアルデヒドになりますが、アセトアルデヒドに分解する酵素がたばこの煙に含まれる発がん物質の働きを同時に活性化させているのではないかと考えられるそうです。*1


2010.4.7

*1国立がんセンター がん予防・検診研究センター予防研究部のホームページより
飲酒と肺がんの発生率との関係について



第90話 「交互作用とは」

私が「交絡」という言葉に初めてお目にかかったときのことですが、「交互作用」と勘違いしてしまった覚えがあります。でも、両者は別物です。英語にすれば、前者が confunding、後者が interaction ですね。今回は後者について書きます。

交互作用とは、2つ以上の要因が考えられるとき、要因が組み合わさったときにだけ現れる作用のことです。例えば、前回、喫煙と飲酒と肺がんの話をしましたが、その中で、非喫煙グループでは飲酒の量と肺がんの発症には関連が無いけれど、喫煙者は非喫煙者よりも肺がんのリスクが高く、その中でも飲酒量の多い人の方がリスクが高くなるようだと書きました。これは、交互作用の中でも、交互作用がさらに作用を強めてしまう例ですね。

交互作用には作用を強めてしまうものだけでなく、作用を弱めてしまったり、反対の作用をもたらしたりというものもあります。二元配置分散分析をすると分散分析表に交互作用の検定の結果も出力されますが、分散分析表だけを見ていても、交互作用が有意になったからといって、交互作用がプラスに働いていたのかマイナスに働いていたのかは分かりません。交互作用の出方をグラフなどにして確認する必要があります。

多重ロジスティック回帰分析で交互作用の有無を確認したいのなら、説明変数の中に交互作用項を加えて分析します。飲酒と喫煙の例で説明すると、交互作用項のデータは、喫煙者でよくお酒を飲む人は1、それ以外の人は0となるようにします。Excelなら次のようにすると簡単に加工できます。

交互作用項を作る



交互作用項は説明変数同士の積になっているので、「積項」とも言います。交互作用項を作ったら、喫煙の有無、飲酒量、交互作用項を説明変数(独立変数)に、肺がんの発症の有無を目的変数(従属変数、アウトカム変数)にして多重ロジスティック回帰分析にかけます。交互作用項のオッズ比が1より大きければ、肺がんのリスクを高める交互作用があるのではということになります。

さて、私が交絡を交互作用と勘違いした原因ですが、私が実験から統計学の世界に入ったことが大きいと思います。実験では、原則として、要因同士が直交するよう(独立するよう。無相関になるよう)すべての実験条件の例数を等しくします。したがって、要因間の相関係数は0が当然なので交絡とは無縁です。私が交絡の意味を理解したのは医学統計を勉強するようになってからですね。


2010.4.30


交絡と交互作用について理解するなら
ミッチェル H.カッツ(木原 雅子,木原 正博訳), 2008, 『医学的研究のための多変量解析』, メディカル・サイエンス・インターナショナル


追記 2010.5.21


次のコラムへ

最新のコラムへ

タイトル一覧へ  タイトル一覧(カテゴリー別)へ

統計WEB

主催:社会情報サービス統計調査研究室

Google
ウェブ検索
サイト内検索