現在位置 : 統計WEB | コラム | 2007年11-12月

コラム 『統計備忘録』 バックナンバー

2007年 4月5月6月7月8月9月10月|11-12月|2008年

第27話   「ロジステッィク回帰分析」

エクセル統計が誕生したのは1995年です。その翌年、朝倉書店から丹後俊郎氏らが書かれた「ロジスティック回帰分析」が出版されました。エクセル統計にロジスティック回帰分析が搭載されたのは、それから10年後の2006年になります。

今では、ロジスティック回帰分析を知らないと医学論文が読めないぐらい、メジャーな手法になりつつありますが、解説している書籍が少ないので、使用法に戸惑う人も多いようです。

ロジスティック回帰分析を使うと、いくつかの条件が重なったときに、あることが起こる確率を予測することができます。例えば、50歳の男性で、喫煙、飲酒を続けている人の肝硬変になる確率がどれくらいかといったようなことです。「タバコを吸う人は、吸わない人人の○○倍、発症リスクがある」といったようなコメントをよく目にしますが、多くは、ロジスティック回帰分析の結果によるものではないでしょうか。

医学分野で発展してきた手法ですが、応用範囲が広いので、ダイレクトメールによって商品が購入される確率を予想するとか、ある企業が倒産する可能性を評価するとか、色々な場面で使われるようになっています。

類似の手法としては判別分析がありますが、判別分析との違いとして、1つには、説明変数量的尺度だけでなく名義尺度を混在させて分析できるというのがあります。また、判別分析では、群の違いがライオンとトラというように確定的であるものと見なしている(目的変数に誤差はないが、説明変数は誤差を持つ確率変数)のに対し、ロジスティック回帰分析では、病気の発症の有無というように、人によって同じ条件でも発症したりしなかったりとか、時間的に群が変化してしまう可能性があるケースにも適用できます(目的変数は誤差があってもよく、確率変数ではない説明変数でもよい)。

ロジスティック回帰分析を理解するには、対数と指数が分かること、ダミー変数への変換ルールを知っていること、重回帰分析カイ二乗検定について一通りの知識があることが最低限必要かと思います。書籍では、このあたりの知識はあるものとして、ロジスティック変換やオッズ比の説明から始まり、結果の読み方、モデルの評価へと進んでいきます。


ロジステック回帰分析を理解するために

論文が読める!早わかり統計学―臨床研究データを理解するためのエッセンス

学会・論文発表のための統計学―統計パッケージを誤用しないために

カテゴリカルデータ解析入門

2007.11.09

人文・社会科学のためのカテゴリカル・データ解析入門

追記 2009.1.29



第28話   「後ろ向きな研究」

後ろ向き研究というのは疫学調査の方法の1つです。消極的な研究という意味ではありません。英語では retrospective study です。一時期流行ったレトロブームのレトロと同じで、過去に遡ってという意味になります。後ろ向きがあれば、当然、前向き研究もあります。こちらは prospective study です。

例えば、喫煙と肺がんの関係を研究するときに、現在、肺がんの人とそうではない人、それぞれの集団について、喫煙暦の有無を調査するのが後ろ向き研究です。

前向き研究では、今、喫煙している人と喫煙経験の無い人の集団について、その後、肺がんになるかどうかを追跡していきます。前向き研究は時間もコストも掛かるし、場合によっては倫理的な問題も起こりうるので(喫煙者に禁煙を許さないなど)、疫学調査というと後ろ向き研究が多くなるようです。

前向き研究なら、リスク要因以外の条件を統制すれば良いので、単純にリスク要因を抱えている人と(医学では曝露という言葉を使います)、ない人の発症率の差(リスク差)や発症率の比(リスク比、相対リスク)から、リスク要因の影響を評価できます。これに対し、後ろ向き研究ではリスク差やリスク比を使わず、オッズ比(odds ratio、OR)というものを求めます。

オッズ比を求めるには、まず、曝露している人(曝露+)の発症者の人数を、未発症の人数で割り、これを odds1とします。続いて、曝露していない人(曝露-)についても同様に計算して odds2とします。例えば、曝露+の発症者が200人、未発症が1000人であればodds1は0.2です。odds2が0.01だったとすると、オッズ比は0.2/0.01=20。よって曝露+は曝露-に対して20倍発症しているという事になります。

オッズ比はロジスティック回帰分析の重要なアウトプットの1つです。次回以降、例題を使って説明します。

2007.11.16




第29話   「統計WEBの効果」

統計WEBを訪れたことで統計学の実力が上がるかどうか未知数ですが、ある統計学のテストの結果から統計WEBの効果を推測してみたいと思います。テストを受けた人から、26人を抜き出し、統計WEBの閲覧経験と試験勉強に費やした時間を聞いてみました。

統計WEB閲覧経験と勉強時間

統計学の試験結果







まずリスク比を計算してみますと、閲覧経験がある人の合格率は53.3%、ない人の合格率は27.3% ですからリスク比は1.96です。統計WEBを見た人の方が2倍近く合格するリスクが高い(妙な表現ですが)ということになります。

ただし、このデータは後ろ向きに収集したものですから、リスク比よりもオッズ比で比較してみましょう。まず、閲覧経験がある人の合格オッズは1.14(8 / 7)。これに対して見てない人の合格オッズは0.38(3 / 8)です。両者の比をとった3.05がオッズ比になり、リスク比よりも大きな値になっています。

このオッズ比がどれくらい信頼できるものなのかは、オッズ比の信頼区間を求めればよいのですが、その前に、オッズ比の性質について触れておきます。

まず、オッズ比はマイナスになることはありません。2つの事象XとYが独立であるときオッズ比は1になります。オッズ比が1よりも大きくなればなるほど、事象X(今回の例であれば閲覧経験あり)であれば事象Y(試験に合格)である確率が高くなります。逆に1よりも小さくなるほど、XであればYでない確率(試験に不合格の確率)が高くなります。

次に、オッズ比の逆数(1/オッズ比)を求めるとYの背反事象のオッズ比になります。今回の例ですと、閲覧経験のある人がない人に比べて、試験に不合格になるリスクということになります。不合格のオッズ比は0.33( = 1 / 3.05 )ですから、統計WEBを見ていると不合格になる確率は3分の1と小さくなります。リスク比に、このような性質はありません。

さて、オッズ比の信頼区間に話を戻しますが、オッズ比の信頼区間はロジスティック回帰分析を使って推定できます。推定するためにはデータのダミー変数化など幾つか手順が必要なのですが、それは、次回に廻すことにして、今回は結果だけ載せておきます。


オッズ比の推定


ロジスティック回帰分析によるオッズ比の信頼区間は0.57から16.19を示しています。区間の下限が1を下回っていますので、データを取り直すと、今回とは逆に、統計WEBを見た人の方が合格率は低くなる可能性もあれば、今回以上に合格率が高くなるかもしれません。残念ながら、オッズ比の信頼区間が1をまたいでしまったので、今回の結果(オッズ比=3.05)からは、統計WEBを見たことで統計学の実力が上がるかどうかは未知数のままです。

2007.11.22




第30話   「ダミー変数」

ロジスティック回帰分析を進めようとする場合、「合格/不合格」、「成功/失敗」というような名義尺度の変数はダミー変数(dummy variable)に変換する必要があります。ダミー変数は「1か0(ゼロ)」の2つの値しかとりません。「1」は「○○である」、「0」は「○○でない」ということを表します。「○○」を「合格」とすれば「1=合格/0=不合格」、「不合格」とすれば「1=不合格/0=合格」ということになります。数学的には「1」は「0」よりも大きな値ですが、「合格」と「不合格」の間に大小関係はありませんから、どちらを「1」にするかは分析者の自由です。もともと量的な意味の無い変数に見せかけの量を持たせることからダミー変数と呼びます。

「合格/不合格」というような2つのカテゴリーしか持たない変数であれば1個のダミー変数で表現できます。それでは、カテゴリー数が3つ以上になったらどうしたらよいのでしょうか。その場合は「カテゴリー数-1」のダミー変数を作ります。例えば、A、B、C、3つのカテゴリーがあれば、「Aならば1」とする変数A、「Bならば1」とする変数Bの2つのダミー変数を作ってしまえば、変数A、変数Bが共に「0」のケースはCのカテゴリーに属すということになります。

ダミー変数化したデータ

さて、左の表は、前回の統計学のテストのデータについて、統計WEBの閲覧経験と試験結果の列をダミー変数に変換したものです。

このデータから、まず試験結果(Y)の合計を求めてみます。これをNで割ってYの平均(E)を計算します。

ダミー変数の平均

つまり、試験結果(Y)の平均(E)は、合格者の比率(P)ということになります。

次に、Yの分散(V)を求めてみますと、結果はP(1-P)になります(ExcelのVARP関数の結果と比べてください)。式の展開は省略しますが、分子の式の展開については、Yが1のケースと、0のケースに分けて考えてみてください。

ダミー変数の分散

これにより、ダミー変数の分散はPが0.5(確率が50%)のとき、最大(0.25)になることが分かります。

エクセル統計でロジスティック回帰分析を行うと、最初に各変数の平均と分散が出力されます。値の意味するところはこの通りです。

2007.11.30



第31話   「ロジステッィク変換の逆変換」

ロジステッィク回帰分析も、重回帰分析も、モデル式の右辺は同じです。最初のβ(ベータ)が定数項、その後に続くβが偏回帰係数、xが説明変数を表します。

回帰モデルの右辺

重回帰分析の場合、このモデル式によって得られるのは目的変数Yを推定した値ですが、ロジスティック回帰分析の場合、得られるのはロジット(logit)とよばれる値です。このロジットについて「ロジスティック変換の逆変換」というものを行うと、その値は0から1の間になります。

逆変換の式は次のとおり。

逆変換

expは指数変換の関数です。Excelを使えば指数変換を忘れてしまった人でも簡単に計算できます。

 =exp(logit値)/(1+exp(logit値))

この逆変換で得られた値が何かというと、それはロジスティック回帰分析で目的変数に設定した事象が起こる確率(p)です。



ある事象が起こる確率(p)を起こらない確率(1-p)で割ったものをオッズとよびます。このオッズの対数をとったものをロジットとよび、この確率からロジットを求める過程をロジスティック変換とよびます。これとは逆に、ロジットから確率を求めることを「ロジスティック変換の逆変換」とよぶのです。ちなみにexp(logit値)がオッズになります。



次の式がロジスティック回帰分析のモデル式です。最初の式の左辺にロジットを加えています。

ロジスティック回帰モデル

ロジット(logit)を横軸に確率(p)を縦軸にしてグラフに描くと次のとおりです。

ロジスティック関数

ロジットが0(ゼロ)のとき確率(p)は0.5、つまり五分五分です。ロジットの0前後はpの変化が大きく、ロジットが0から離れていくに従ってpの変化は緩やかになります。ロジットがどんなに大きくともpが1を超えることはありませんし、ロジットをどんどん小さくしていくとpは0に近づきます。


2007.12.07


第32話   「ロジステッィク回帰分析の結果」

統計ソフトを使ってロジスティック回帰分析を行うと、ほとんどのソフトでは以下の数値が出力されます。

(1)分析に用いた変数の基本統計量
(2)回帰式の偏回帰係数と信頼区間
(3)偏回帰係数のカイ二乗検定結果
(4)オッズ比と信頼区間
(5)回帰モデルの対数尤度

第30話のデータをエクセル統計(正確にはエクセル統計2006からですが)で分析すると出力は次のとおりです。

エクセル統計2006のロジスティック回帰分析出力* ロジスティック回帰分析出力

(1)の平均や分散については第30話を参考にしてください。(2)の偏回帰係数は前回書いたようにロジットを求めるためのものですから、重回帰分析とは解釈の仕方が異なります。偏回帰係数がちょうどゼロだとロジットに影響を与えない、最終的に確率を上げも下げもしません。係数がプラスの場合は確率を上げ、マイナスだと確率を下げる方向に働きます。この例では、統計WEBの閲覧経験も試験勉強の時間も係数がプラスなので、試験を合格させる効果があるということになります。

(3)は偏回帰係数の検定ですが、これは「偏回帰係数 = 0」という帰無仮説を検定しています。各偏回帰係数のWald統計量(検定のための統計量。カイ二乗分布します)についてのP値が有意水準を下回れば、有意な偏回帰係数と言えます。この例では、試験勉強の時間(X2)がP=0.0314と5%未満で有意です。残念ながら統計WEBの閲覧経験はP=0.2544で5%を超えて有意とは言えません。

(4)のオッズ比については第29話に書いた通りです。ここには95%信頼限界の出力がありますが、下限と上限の間に1を含むかどうかのチェックを忘れないでください。なお、(2)のところにも95%信頼限界の出力がありますが、これは偏回帰係数の信頼区間です。こちらは、信頼区間にゼロを含む(下限と上限の符号が異なる)かどうかをチェックします。2つの信頼区間は対応しています。

(5)の対数尤度ですが、これは回帰モデルの式の尤(もっと)もらしさの指標になります。幾つかの説明変数の候補がある場合、説明変数の組み合わせを変えて幾つかの分析をすることになると思います。その結果得られた対数尤度同士を比較して、値の高いほうがより尤もらしいということになります。重回帰分析の決定係数のように1に近ければ良いというような見方はしませんので、説明変数の候補が1組しかないのなら対数尤度は見ません。

なお、ロジスティック回帰分析で変数を絞り込む場合、p<0.05の変数だけにすると重要な変数を落としてしまう危険があるため、P<0.15かP<0.2まで条件を緩めて分析することが多いようです。

さて、(4)のオッズ比に話を戻します。試験勉強の時間(X2)はカテゴリー変数ではないので、色々な値をとります。しかし、(4)のオッズ比は1時間勉強を増やすと、どれだけ合格の確率が上がるかを示しているだけです。10時間勉強した場合の効果を知りたければ、このオッズ比を10乗してください。10時間の効果は勉強を全くしなかった人の5.27倍ということになります。

エクセル統計の出力にはシミュレーションのセクションがあります。ここには、オッズ比やロジット、そして、ロジットを逆変換して確率を求める計算式が埋め込んであります。各説明変数の値を自由に入力して、どのような値が得られるか、ソフトをお持ちの方は試してみてください。

シミュレーション・セクション シミュレーション
※閲覧経験あり、10時間勉強の場合



2007.12.21



*エクセル統計2008では、「偏回帰係数がゼロ」を帰無仮説とした尤度比検定の結果が出力されます。

追記 2008.9.24



次のコラムへ 最新のコラムへ

統計WEB

主催:BellCurve