現在位置 : 統計WEB | コラム | 2009年9-10月

コラム 『統計備忘録』 バックナンバー

2008年 | 2009年 1-2月3月4月5月6-7月|9-10月|11-12月 | 2010年  

第76話 「外れ値と相関係数」

外れ値の影響を受けやすいものの1つに相関係数があります。このことを確認するために簡単な実験をやってみましょう。

実験を行うにあたっては、Excelの分析ツールを使って乱数を発生させ、20個のデータを持つ 2つの変数、XとYを用意します。

実験用データと散布図

Correl関数を使って 2変数間の相関係数を求めると、-0.02 とかなりゼロに近い値になりました。続いて、Excelのグラフ機能を利用して散布図を描きます。2変数が無相関であることが分かります。ついでに、グラフ・オプションの「近似曲線の追加」を利用して「直線」をあてはめ、視覚効果を高めておきましょう。

それでは、実験を始めます。最初に、散布図にプロットされた点を適当に1個選んでマウスのポインタを合わせクリックをします。そうすると次の図のように幾つかの点が反転した状態になります。

点を選択

そのままポインタを動かさずにもう1回クリックすると、ポインタが十字の矢印に変わります。そうなったらクリックボタンを押したままグラフの端のほうにポインタを動かしましょう。端まで動かしたらクリックボタンから指を離してください。次の図のように、選択した1点だけが移動し、直線の傾きも点を移動した側へ偏っているはずです。

点を移動

元のデータを見てみると、動かした点の座標データ(B17とC17のセル)もグラフに合わせて変わっています。この移動させた点が外れ値です。

外れ値の影響

外れ値の影響で、相関係数は、ほとんどゼロだったものが 0.37 まで上がっています。私はほぼ真上に点を移動させましたが、もし、右斜め上の方向へ点を移動させたなら(X,Yの両方とも外れ値であれば)、相関係数はさらに高くなっているはずです。

相関分析をする場合、相関係数だけを見ていると、外れ値によって相関が高くなっていても気がつきません。相関係数について無相関の検定をしても見破ることはできません。外れ値の影響をうけているかどうかは、このように散布図を作って視覚的に確認するのが一番です。

グラフを作らずに数字だけで判断したいというなら統計ソフトを利用して順位相関係数を求めてみましょう。このデータについて、エクセル統計を利用し、スピアマンの順位相関係数を求めてみると値は -0.04 となりXとYは無相関のままです。



2009.9.1



第77話 「外れ値と異常値」

外れ値と異常値、どちらも英語の outlier の訳語として用いられています。外れ値とは、実験や調査で観測された値の中で、真の値の推定値*1からの残差*2が異常に大きい観測値のことです。同じ本の中で、外れ値と異常値を使い分けていることがありますが、この場合、外れ値の中でも外れ値となった理由があるものを異常値としています。例えば、子供の平熱を調べていたら風邪で熱を出している子が紛れ込んでしまったような場合です。

さて、どれくらいだと異常に大きいとみなすのかというと、正規分布するような値であれば、残差が標準偏差の 2倍から3倍以上あるときとすることが多いですね。確率的には、残差が標準偏差の 2倍以上とするなら4.6%程度、3倍以上とするなら 0.3%程度の出現率ということになります。エクセル統計ではスミルノフ・グラブス検定という手法を使って外れ値を検出できます。スミルノフ・グラブス検定では平均値から最も離れた観測値を選び、その残差をσで割った値を検定統計量とします。外れ値が見つかったら、これを除外して検定をやり直すということを続けていくと、外れ値の無いデータセットを作ることができます。ただし、スミルノフ・グラブス検定は正規分布を前提とした方法なので、正規分布からかけ離れた分布のデータに利用すると、観測値の殆どが外れ値になってしまうこともあるので注意してください。

残差の大きさを気にせず、無条件にデータの分布の両端から 5%とか 10%をカットして外れ値の混入を防ぐという方法もあります。この両端をカットして求めた平均値をトリム平均とか○○%調整平均と言います。トリム平均はExcelのTRIMMEAN関数を使って求めることができます。

以上の2つは機械的に外れ値を除くテクニックですが、外れ値を見つける最もポピュラーな方法としては、ヒストグラムによる判断があります。ヒストグラムの利点はデータの分布も同時に確認できることです。分布の中心が平均値よりも左側に偏り右裾の長い分布なら、外れ値を除外せず、すべてのデータを対数変換してみましょう。対数変換後のデータが正規分布になり外れ値も無いようであれば、対数変換したデータを使って推定や検定を行うことで分析の精度が上がります。

どの方法を使うにしても、外れ値を除くときは外れ値が異常値 abnormal value でないかチェックしておきましょう。計測の失敗や風邪による高熱など異常値であることが明らかなら、除外することに問題はありません。外れ値を異常値と判断する根拠が見つからないときは、安易に除外せず、平均値の代わりに中央値、ピアソンの相関係数の代わりに順位相関係数、検定ならノンパラメトリックな方法を利用するということも考えましょう。



*1 多くは平均値を指す
*2 真の値の推定値との差



2009.9.18


変更 2009.10.16



第78話 「外れ値の見つけ方」

外れ値を見つける方法としてスミルノフ・グラブス検定があると前回書きましたが、スミルノフ・グラブス検定は正規分布にしか適さない方法です。もう少し汎用性がある方法として、IQRを利用した方法があります。

IQRは第三四分位数(=75パーセンタイル)から第一四分位数(=25パーセンタイル)を引いた値です。日本語では四分位範囲と訳されています。箱ひげ図の箱の長さにあたる部分です。

Excelを使ってIQRを求めるならQUARTILE関数を使って簡単に計算できます。

 =QUARTILE(データの範囲,3)-QUARTILE(データの範囲,1)

次に、第三四分位数にIQRの1.5倍を足した値を求めます。この値以上のデータを外れ値とします。

また、第一四分位数からIQRの1.5倍を引いた値を求めます。この値以下のデータも外れ値とします。

データが完全に正規分布をしている場合、IQRは標準偏差(SD)×1.35です。第三四分位数は平均値+SD×0.67ですから、これにIQRの1.5倍を足した平均値+SD×2.70が上側の外れ値の分かれ目となります。


2009.10.7


エクセル統計2010から箱ひげ図作成の機能が追加されました。箱ひげ図上では、外れ値は×印で表示されます。

エクセル統計2010による箱ひげ図

追記 2010.9.28



第79話 「まだまだ外れ値が気になる」

前回までに単変量での外れ値の見つけ方を幾つか紹介しましたが、多変量における外れ値を確認する方法もあります。一番単純な方法としては、主成分分析を行って主成分得点を求め、主成分得点を散布図にプロットするなどして視覚化し、探索的に判断するといったテクニックがあります。数値化による判断としては、主成分得点や重回帰分析を利用して「てこ比」を求める、標本マハラノビス汎距離を求めカイ二乗分布から検定を行うなどがあります。


外れ値を見つけたときの対処は、外れ値が、測定の誤りやデータの入力ミス、被験者の特殊性などによる異常値でないか確認することから始めます。異常値であると確信が持てるようであれば、データから除いてしまっても許されるでしょう。異常値の確信を持てないとき、幾つかの対処法がありますが決定打はありません。ケースバイケースです。

探索的な研究であれば、中央値や順位相関係数を求める、検定ならマンホイットニーのU検定やクラスカル・ウォリス検定などのノンパラメトリック手法を用いるなどロバストな統計手法を利用するといった選択があります。

仮説検証的、実験的な研究であれば実験計画から見直す必要があるかもしれません。実験の場合、必要なサンプルサイズや検定の手法まで決めてから実験を行うのが正しい手続きですから、外れ値があったからといって安易にデータを除いたり検定手法を変更してしまったりすると、結果を自分に都合よく改竄したととられかねません。


明確にどこからが外れ値ということは決まっていませんから、外れ値の見つけ方も対処も様々です。とてもコラムでは書ききれないので、まだまだ外れ値が気になる方へ外れ値について書かれている本を二冊紹介します。

1冊はルイ・パストゥール医学研究センターの奥田千恵子氏が書かれた『医学研究者のためのケース別統計手法の学び方』です。「第5章 目障りな外れ値 ―棄却検定法と箱ひげ図」が参考になります。

もう1冊は心理学テキストライブラリーの第3巻、『Q&Aで知るデータ解析 第2版』です。「外れ値の扱い」、「多変量解析と外れ値」、「外れ値とてこ比」の3つのQ&Aが設けられています。どちらの本も入門書の次に買う本としてお薦めします。



2009.10.28




次のコラムへ 最新のコラムへ

タイトル一覧へ  タイトル一覧(カテゴリー別)へ

統計WEB

主催:BellCurve