現在位置 : 統計WEB | コラム | 2008年5月

コラム 『統計備忘録』 バックナンバー

2007年|2008年 1月2月 3月4月|5-8月| 9月 10月 11-12月2009年 

第46話   「反復の原則 ―フィッシャーの3原則(1)」

実験計画法や分散分析の本を読むと、必ずといってよいほど「フィッシャーの3原則」について書かれています。実験の精度を高めるために、どのように実験計画を組むべきかを説いたものです。実験系以外の人も覚えておいて損はないので簡単に触れておきます。

第1の原則 : 反復 replication
第2の原則 : 無作為化 randomization
第3の原則 : 局所管理 local control

なお、今回のコラムには確率誤差と系統誤差という2つの誤差が出てきます。2つの誤差の意味が分からない方は、第8話に書いていますので事前にお読みください。


反復 replication
1つ目は反復の原則です。1つの処理(分散分析の「水準」のこと)について2つ以上の測定を行うことです。それぞれの処理において1回の測定では、測定値に違いがあっても、系統誤差(処理の違いによる差)なのか、それとも確率誤差なのかは判断できません。そこで各処理ごとに複数回測定をして確率誤差のばらつきを調べます。確率誤差のばらつきが分かれば真の平均のとりうる範囲を推測でき、この範囲よりも系統誤差が大きければ、処理によって違いがあるという判断をくだせます。反復の原則とは確率誤差を知るためのものです。

この反復のことを分散分析では「繰り返し」と言います。1つの処理について測定を繰り返した回数を「繰り返し数」と言います。

Excelの分析ツールには「分散分析:繰り返しのない二元配置」と「分散分析:繰り返しのある二元配置」があります。例えば3品種の稲と2種類の肥料という2要因による収量の比較実験を行う場合、6通りの水準の組み合わせがあります。この6通りの組み合わせについて1つずつしか測定しないときは、「分散分析:繰り返しのない二元配置」を使用します。各品種については繰り返し数が2(肥料の種類)、各肥料については繰り返し数が3(稲の品種)になるので、それぞれの要因効果(主効果)を検出できます。しかし、品種と肥料の組み合わせから生じる効果(交互作用)は検出できません。

繰り返しのない二元配置分散分析


すべての組み合わせで繰り返し数が2以上であれば「分散分析:繰り返しのある二元配置」を利用できます。交互作用も検出できます。このとき気をつけることは、すべての繰り返し数を揃えることです。繰り返し数(分析ツールでは1標本あたりの行数)が不揃いになると要因間に相関が生じ(これを直交性が失われると言います)、実験の結果がどちらの要因の影響によるものか判断ができなくなります。統計ソフトの多くは繰り返し数が不揃いな場合に対応した計算方法を備えていますが、Excelの分析ツールでは繰り返し数の不揃いは不可です。

繰り返しのある二元配置分散分析

繰り返し不揃い


ちなみに「繰り返しのない二元配置分散分析」を英語にすると two-way factorial ANOVA without replication 、もしくは、two-way ANOVA without replicationとなります。「繰り返しのある二元配置分散分析」は without 以下を外します。紛らわしいことに「反復測定(重複測定) repeated measurement」による分散分析というのもありますが、この場合の反復は別の意味です。ご注意ください。

さて、次回は無作為化の原則について書く予定です。

2008.05.07


第47話   「無作為化の原則 ―フィッシャーの3原則(2)」

前回の続きです。第2の原則、無作為化について書きます。



無作為化 randomization
反復が多くなれば検出力は高まりますが、実験回数が増えて、実験期間が長引くか、期間を縮めるために複数の実験室や複数の人で実験をするということになります。そうすると、実験したときの気温や湿度の違い、実験者の癖など、実験結果を歪めるかもしれない予測不能な系統誤差を生じる可能性があります。

これらの予測不可能な系統誤差を確率誤差に取り込んでしまう方法があります。その方法が無作為化です。

フィッシャーの実験計画法の本には、紅茶を飲んで、その紅茶が紅茶を先に注いだのかミルクを先に注いだのかを当てられる、婦人の話が出てきます。本では、婦人が味の違いを分かっているのかを確かめるには、どう実験計画を組むかという話へ繋がっていきます。

さて、1杯ずつ試すだけなら偶々ということもありますから、まず、反復が必要です。かといって、何杯も飲むとなると、最後のほうでは、冷めてしまって味が変わるかもしれませんし、婦人の味覚が鈍っているかもしれません。ここまで思い至った人なら、できるだけ2種類の紅茶が試される条件を平等にするよう交互に飲ませることを思いつくかもしれません。しかし、この方法にもリスクがあります。婦人も交互に答えていただけで、偶然、順序が一致したというケースです。

紅茶を飲む順序によって生じる問題から逃れるにはどうしたらよいか。簡単な解決策があります。飲む順序を出鱈目にすることです。紅茶のカップに番号をつけ、同じ番号の札を用意し、札をよくシャッフルして飲む順番を決めればよいのです。順序をランダムにすることで順序の影響を確率的な誤差に転化できます。

無作為化は順序に限りません。例えば、新薬の治療効果を試す場合、被験者を2グループに分けて、一方のグループには新薬を投与し、もう一方のグループには何の効果も無い偽の薬(プラセボと言います)を投与し、2グループの変化を比較します。このとき、被験者がどちらのグループになるか、当然、無作為に決めるのですが、それだけでなく、医師もどちらの薬を投与しているか分からないようにします。これを二重盲検法 double blind test と言います。医師に教えないのは、被験者にどちらの薬を飲んでいるか覚らせないということの他に、「薬を飲ませているから効くはずだ」、「偽薬だから効くはずがない」といった医師の思い込みを避ける目的があります。

さて、サルツブルグの「統計学を拓いた異才たち」を読むと、紅茶の違いが分かる婦人は実在の人物で、実際に試してみたそうです。結果がどうなったかも、この本に書かれています。



2008.05.14


第48話   「局所管理の原則 ―フィッシャーの3原則(3)」

3ヶ月も更新を休んでごめんなさい。今回は、フィッシャーの3原則の最後、局所管理について書きます。



局所管理 local control
1919年、フィッシャーは、ピアソンからゴールトン生物測定研究室の主任統計学者としての採用の申し出を受けましたが、ピアソンに反発していたフィッシャーは申し出を断り、ロンドン郊外にあるロザムステッド農事試験場の研究員になりました。1933年にピアソンの後任としてロンドン大学の優生学の教授になるまで、この農事試験場で研究を続け、その研究成果が「実験計画法」としてまとめられて1935年に出版されました。

さて、フィッシャーが着任するまで、ロザムステッド農事試験場では、肥料の効果を調べるために、広い農地いっぱいに1つの肥料を撒いて小麦やジャガイモなどの収量を測っていました。肥料の種類の数だけ農地を必要としていました。そこで、フィッシャーは農地を小区画(これをブロックと呼びます)に分けて、区画内では列ごとに異なる肥料を与えるよう実験方法を改めます。ブロック内のどの列にどの肥料を与えるかはランダムに割り付けます。こうすることで、1つの農地から、複数の肥料について反復のあるデータが得られるようになり、実験の効率も精度も上がりました。この実験方法は「乱塊法」と名づけられています。




<乱塊法による3肥料・3ブロックの割り付け例>
乱塊法による割付



乱塊法によって、データの反復を得ることに成功しましたが、もう1つ問題が残っています。広い農地のことですから、ブロックによって土壌や空気の流れが異なり、収量に影響するかもしれません。ブロックによる誤差(収量のばらつき)が大きくなってしまうと、一元配置分散分析では肥料間の差を検出できなくなる可能性があります。そこでフィッシャーはブロックも分散分析の要因に加えることで、ブロックによる誤差を全体の誤差から分離し、分析の精度を上げることにしました。この分析手順を追ってみましょう。




まず、肥料ごとに1列にまとまるように収量のデータを次のように整理します。

分析用データ

このデータを肥料の違いだけを要因とした一元配置分散分析にかけてしまうと、結果は次の通りです。



Excelの分析ツールによる一元配置分散分析の結果
一元配置分散分析




「グループ間(肥料の違い)」の行の「P-値」は「0.119864」で5%の有意水準で判断すると、肥料間の収量の差は有意ではないという結論になってしましいます。グループ内(普通の統計ソフトなら、ここは誤差と表示されます)の変動にブロックによる収量のばらつきが含まれ、誤差変動が大きくなってしまっているからです。




それでは、同じデータを「繰り返しのない二元配置分散分析」にかけてみます。分析結果は次の通りです。




Excelの分析ツールによる繰り返しのない二元配置分散分析の結果
繰り返しのない二元配置分散分析



変動要因の「列」が肥料の違いになります。変動要因の分散を誤差の分散で割った分散比(F値)の「P-値」は「0.025895」ですから、5%の有意水準で「肥料により収量が異なった」と判定できます。一元配置分散分析とは異なる結論です。

なぜ、結論が変わったかというと、一元配置分散分析のときの誤差の変動からブロック(「行」のところです)による変動が取り除かれたことで(47.33333 - 38=9.33333)、誤差の分散が小さくなったからです。肥料の分散は一元配置分散分析と同じで、誤差の分散だけ小さくなったため、分散比としては二元配置分散分析の方が大きくなり有意判定が変わったのです。

話が長くなりましたが、局所管理とは「データのブロック化とブロックを要因に加えた分散分析」のことです。例えば、人間を対象にした実験であれば、実験要因の違いよりも、被験者の個人差の方が大きくなることがままあります。このような場合は、被験者をブロックとして実験計画を組み、分散分析で被験者も要因に加えて分析すればよいのです。



2008.08.29



次のコラムへ 最新のコラムへ

統計WEB

主催:BellCurve