現在位置 : 統計Web | コラム | 統計備忘録 2008年10月

コラム  『統計備忘録』   バックナンバー

2007年|2008年 1月2月 3月4月5-8月9月| 10月| 11-12月2009年 

第51話   「病気である確率」

今年になって人間ドックを受けたところリウマチ因子の検査で陽性反応が出た。リウマチ因子についての説明には「陽性の人の約 40% が関節リウマチである」と書いてある。人間ドックの医師も、掛かりつけの医師も「今のところ心配しなくていいですよ」と言っているが、本当に心配ないのだろうか。気になって仕方が無いので、関節リウマチである確率をベイズの定理を用いて計算してみることにした。

ベイズの定理とは、事前確率と既知の条件付き確率から事後確率を求める公式で、今回の場合、事前確率を日本人の関節リウマチの有病率とすると、事後確率は検査で陽性反応を示した人が関節リウマチである確率となる。

まず、関節リウマチの有病率については、リウマチ情報センターのホームページによると日本全国の患者数は 70万人と書いてある。他の幾つかの情報を調べてみたが多めに見て約 1%というところらしい。

続いて、「関節リウマチの人が検査で陽性になる確率(真陽性率※)」と「関節リウマチでない人が検査で陽性になる確率(偽陽性率)」の2つの条件付き確率を知る必要がある。リウマチ因子の検査の真陽性率は、どのホームページを調べても 80% 前後と書いてある。偽陽性率については、少ないところで 2%、多いところでは 10〜15% という数字もあった。どの数字を使うか判断が付かないので 2% と 5% の2通りのケースを求めてみることにする。

事後確率を求める式は次の通りだ。パーセンテージは 100 で割ってから代入してほしい。

事後確率の計算式


この式がピンと来ない時は、人数に換算してみると分かりやすい。仮に 1万人の人が検査を受けたとして、検査結果が陽性で、かつ関節リウマチを患っている人は 80人( = 0.8 × 0.01 × 1万人)。陽性になったけれども関節リウマチでない人は、偽陽性率が 2% の検査なら 198人( = 0.02 × 0.99 × 1万人)である。2つの人数を合わせた 278人が陽性反応を示した人数になる。このうちの関節リウマチの人の割合を求めれば事後確率となる。



 有病率 1%, 真陽性率 80%, 偽陽性率 2% の場合の1万人内訳
実際に病気に
かかっている
実際は病気に
かかっていない
検査結果が陽性 真陽性
80人
偽陽性
198人
検査結果が陰性 偽陰性
20人
真陰性
9,702人


さて、計算の結果であるが、偽陽性率が 2% だとすると事後確率は 28.8%、偽陽性率が 5% だとすると 13.9% だった。どうやら説明書きにあった 40% という数字は高すぎるようである。どのようなカラクリで 40% になったのかは分からないが、私としては、医師の言葉を信じて来年の検査まで様子見にしようと思っている。



2008.10.01


※真陽性率は「感度」とも呼ぶ。感度に対し「特異度」という言葉がある。これは、健康な人が陰性になる確率、真陰性率だ。感度も特異度も高いのが優れた検査法と言える。感度を上げるために検査の判定基準を甘くしすぎると、検査法によっては偽陽性が増え特異度が下がる。逆に判定基準を厳しくしすぎると病気にかかっている人まで見逃され検査としての意味を成さなくなる。適切な判定基準を検討するための手法の1つにROC曲線がある。



第52話   「二項検定」

日本人の左利きの割合は 10%程度と言われています。ある小学校のクラスを調べたところ 30人中 6人が左利きでした。このクラスの左利きの子供の出現率が、10%より有意に大きいといえるか検定してみましょう。Excelなら次のように式を入力するだけです。

=1-BINOMDIST(5,30,0.1,TRUE)

式中の BINOMDIST(5,30,0.1,TRUE) は、左利きの割合が 0.1(10%)の母集団から 30人を抽出して、左利きが 5人以下の組み合わせになる確率です。1からこの確率を引いた残りは、左利きが 10%の集団から 30人を調べて偶然で 6人以上になる確率を意味し、そのまま片側二項検定の p値になります。結果は 0.07319。有意水準を 0.05 としていたなら有意に大きいとはいえません。

二項検定を利用できるのは、この例のような左利きと右利きとか、コインの表か裏かとかいうような二項分布に従うケースです。F分布や正規分布を用いた母比率の検定と異なり正確な確率を計算できるので、n が大きくないときは二項検定を利用した方が賢明です。



2008.10.20




第53話   「2人の鑑定結果 − カッパ係数による一致度の計算」

2人の鑑定家 A と B が、ゴッホの作品と思われている 100枚の絵画を鑑定しました。Aは 40枚が真作で 60枚が贋作、Bは真作も贋作も半々の 50枚ずつであるとの鑑定を下しました。2人の鑑定が一致したのは真作が 30枚と贋作が 40枚で合わせて 70枚です。

2人の鑑定結果

このような場合、2人の鑑定が、どの程度一致していると考えればよいのでしょうか。一致の度合いを 0 から 1 の数値で表すことはできないでしょうか。一致度を計算してみたいと思います。

まず、何を 0 とするかです。2人の鑑定結果がまったく異なる根拠によるものであるなら、2人の鑑定結果が一致するのは偶然によってのみということも考えられます。偶然に鑑定が一致する絵の枚数の期待値は、次の表のように 2人が同じ判断になる確率を求め、さらに全体の絵の枚数を掛ければ推測できます。

期待値の計算

一致度が 0 でも(偶然だけでも)、 真作 20枚と贋作 30枚 の合わせて 50枚は、鑑定が一致する可能性が高いだろうと言えます。この計算は、独立性の検定で完全に帰無仮説の期待度数を求めるのと同じですが、利用するのはクロス集計表の対角要素、色のついたところだけです。

続いて、何を 1 とするかは、当然、100枚すべての真贋が一致したときということになります。この 100枚と 50枚の差である 50枚を一致度を計算するときの分母にします。

さて、2人の鑑定が一致した絵の枚数は 70枚でしたから、ここからも偶然だけで一致する場合の期待値 50枚を引きます。残りの 20枚が偶然以外で鑑定が一致した絵の枚数ということになります。最後に、この 20枚を先ほどの分母の50枚で割ってやります。20 / 50 = 0.4 が 2人の鑑定の一致度と言えそうです。この一致度のことをカッパ係数(Cohen's kappa coefficient)と呼びます。



2008.10.27





第54話   「重み付きカッパ係数 − 順序尺度の場合のカッパ係数」

カッパ係数は名義尺度か順序尺度かで計算方法が異なります。前回説明したのは名義尺度のカッパ係数(simple kappa coefficient)です。順序尺度に用いるカッパ係数のことを重み付きカッパ係数(weighted kappa coefficient)と呼びます。

例えば、2人の医師AとBが同じ 100人の患者さんについて、疾患の重症度を 1点から 5点で評価するような場合を考えてみます。ある患者さんについてAが 2点でBが 3点と評価するのと、Aが 1点でBが 5点と評価するのでは、前者の方が評価は似通っていると言えます。完全に評価が一致している場合を 1、最も評価が隔たっている場合を 0とするような重みをつけ、完全に評価が一致しないケースも考慮して一致度を計算したのが、重み付けカッパ係数です。

重みの計算方法は1次の重みと2次の重みの2種類があります。1次の重み(linear weights)の計算式*1は次の通り。5段階評価なら Cc は 5になります。2人の評価が 2点と 3点なら重みは 1 - |2-3| / (5-1) = 0.75 になります。

1次の重みの式

 各セルの1次の重み(5段階評価の場合)
1次の重み


2次の重み(quadratic weights)の計算式*2は次の通りです。2人の評価が 2点と 3点なら重みは 1 - (2-3)2 / (5-1)2 = 0.9375 になります。

1次の重みの式

 各セルの2次の重み(5段階評価の場合)
1次の重み


単に重み付きカッパ係数といった場合、後者の2次の重み付けをしていることが多いようです。なお、エクセル統計によりカッパ係数を求めると 3種のカッパ係数を無条件に同時に算出します。尺度水準に合わせて使い分けください*3

2008.10.31

*1 Cicchetti and Alisonによる(1971)
*2 Fleiss and Cohenによる(1973)
*3 カッパ係数に対応するバージョンはエクセル統計2008より


次のコラムへ 最新のコラムへ

統計WEB

主催:社会情報サービス統計調査研究室

Google
ウェブ検索
サイト内検索