現在位置 : 統計WEB | コラム | 2007年10月

コラム 『統計備忘録』 バックナンバー

2007年 4月5月6月7月8月9月|10月|11月-12月2008年

第23話   「順列と組み合わせ」

順列と組み合わせは高校の数学で学びますが、統計学を理解する上で必須の知識と言えます。Excelにも順列と組み合わせを求めるための関数が用意されています。

PERMUT:順列、permutation
COMBIN:組み合わせ、combination

Excelでは不思議なことに、PERMUTは統計関数、COMBINは数学/三角関数に分類されています。そのため、私もCOMBIN関数は以前から使っていましたが、PERMUT関数には、つい最近まで気がつきませんでした。分類の違いは引数の説明に影響していて、次のような奇妙なことになっています。

PERMUT(標本数,抜き取り数)
COMBIN(総数,抜き取り数)

統計学で標本とは母集団から抜き取ったものですから、「標本数、抜き取り数」と並べられると、いたずらに混乱を招くだけです。

さて、大きさが100個の集団から順番に5個を取り出す場合の並び、順列の数は、

順列の式

5個をまとめて取り出す場合の組み合わせの数は、

組み合わせの式

となります。

は階乗を意味しますが、階乗計算についてもExcelの関数があります。FACT関数です。したがって、Excelに次の2通りの入力した場合、どちらも同じ組み合わせの結果です。

 =COMBIN(100,5)
 =FACT(100)/(FACT(5)*FACT(100-5))

FACT関数があれば、PERMUもCOMBINも要らないように思えますが、試しに次の式を入力してみてください。

 =FACT(200)/(FACT(5)*FACT(200-5))

結果は「#NUM!」になります。計算できない理由は、FACT関数で計算できるのは170の階乗までで、それより大きくなるとExcelの扱える数値の上限を超えて、桁あふれを起こしてしまうからです。COMBIN関数を使って計算すれば「2535650040」と正しい結果を得ることができます。

しかしながら、COMBIN関数にも上限はあります。これをクリアしていくために、統計学では、正規分布やカイ2乗分布などの確率分布を利用します。


2007.10.5


第24話   「z得点とZ得点」

統計用語というのは似たような言葉のオンパレードで、間違って覚えてしまうこともしばしばですが、「z 得点(z-score)」と「Z 得点(Z-score)」は音も同じ、綴りも同じ、紛らわしい事この上無しです。殆どの人は「ゼット得点」が2つあることを知らないのではないでしょうか。

新曜社の統計用語辞典では、この2つの用語は「標準得点(standard score)」の項で説明されていて、次の共通の式で求められます。

標準得点の式

z 得点は、S=1、M=0とすることで、Z 得点は、S=10、M=50とすることで求められます。つまり、Z 得点は偏差値(deviation score)ということです。偏差値についてはT 得点という順位情報を使って求めるものもあるのですが、これ以上の混乱は避けたいので説明しません。

多くの場合、ゼットが小文字であっても大文字であっても「ゼット得点」は「z 得点」の意味で使われることが殆どです。「z 値」という書かれ方もします。どちらか分からなければ、得点の整数部の桁数を見ましょう。1桁ならz 得点、2桁ならZ 得点とみて間違いありません。

Excelではz 得点をSTANDARDIZE関数により求めます。関数のヘルプには「標準化変量」を求めるための関数と説明されていて、z 得点という表現はありませんが、ヘルプの計算式を見るとz 得点を求めるための関数です。関数の書式は次の通りです。

=STANDARDIZE(素得点,平均,標準偏差)

なお、Excelで平均を求めるにはAVERAGE関数、標準偏差を求めるにはSTDEVかSTDEVP関数を使います。Excelで偏差値を計算したいなら次のように入力してください。

=STANDARDIZE(素得点,AVERAGE(素得点の範囲),STDEVP(素得点の範囲))*10+50

エクセル統計なら、ユーティリティーのメニューから「基準値と偏差値*」を選択すれば複数の変数でもまとめて変換できます。ここでは、基準値がz 得点、偏差値がZ 得点です。



2007.10.12

*エクセル統計2008から、「基準値と偏差値」へ変換する機能は、「データ変換」に統合されました。

追記 2008.9.24




第25話   「知能指数」

前回、標準得点の例としてz値とZ値(偏差値)を取り上げましたが、他にも皆さんが良く目にするものとしては知能指数があります。

知能指数は標準偏差(S)が15か16、平均(M)は100です。知能指数というと精神年齢を実際の年齢で割って100を掛けたものと思っている方が多いかもしれませんが、現在では、標準得点化された知能指数が主流です。標準得点化された知能指数のことを厳密には偏差IQ(deviation IQ)と言い、DIQと略します。

標準偏差が15であるか16であるかは、知能検査の種類の違いによるもので、15がウェクスラー式知能検査(幼児用のWPPSI、子供用のWISC、大人用のWAISがある)、16が田中ビネー式知能検査です。

ウェクスラー式はS=15 ですから、DIQが70から130までに95.45%の人が含まれることになります。ExcelのNORMDIST関数を使えば、この比率を簡単に求められます。

=NORMDIST(130,100,15,TRUE)-NORMDIST(70,100,15,TRUE)
=0.9545

知能検査の多くは言語知識や絵画完成など10個前後の検査によって構成されています。知識量や常識的判断が絡む検査では、文化や時代の違いによって平均像も変わってきます。例えば、今の子供にダイヤル式の固定電話の絵を見せたとしても、それが電話だとは分かりません。そのため、平均や標準偏差が維持されるよう時々改定を行っています。


2007.10.22


第26話   「標準偏回帰係数」

Excelの分析ツールを使った重回帰分析で、結果が出てこなくて不便に思うものに標準偏回帰係数があります。英語ではstandardized partial regression coefficientですから、標準化偏回帰係数としたほうが良いかもしれませんね。統計ソフトで重回帰分析を行えば必ず出力されます(エクセル統計も勿論出力します)。


Excel分析ツールの出力結果(標準偏回帰係数の出力は無い)

回帰分析の結果

Excelで標準偏回帰係数を計算したいのなら2つの方法が考えられます。1番目の方法は、全部の変数の値をz得点に変換してから重回帰分析を行います。こうすると、偏回帰係数(下図の係数の箇所)の値は標準偏回帰係数に一致します。


z得点に変換して重回帰分析をした結果

z得点による回帰分析の結果



2番目は、偏回帰係数、説明変数の標準偏差、目的変数の標準偏差を使って計算します。計算式は次のとおりです。

標準偏回帰係数=偏回帰係数×説明変数の標準偏差÷目的変数の標準偏差


さて、偏回帰係数と標準偏回帰係数の違いについて見てみましょう。偏回帰係数の大きさは説明変数と目的変数の関係性より、各変数の標準偏差の大きさや単位に影響を受けます。どういうことかは、次の2つのグラフを見比べてください。2つのグラフはデータの散らばりも回帰直線の傾きもそっくりに見えます。しかし、よく見ると回帰係数(説明変数が1つの時は単に回帰係数と言います)も座標軸の目盛も全く異なります。

身長と体重 2つのグラフ

種を明かすと、どちらも同じ20人の身長と体重を測定したものですが、左のグラフAがセンチメートルとキログラム、右のグラフBがフィートとポンドによる結果です。単位を変えてしまったことで、身長と体重の関係性は同じでも回帰係数は大きく異なってしまいました。

次のグラフCは身長、体重ともにをz 得点に変換したものです。X軸もY軸も1目盛が1標準偏差に相当します。回帰直線の回帰係数を見ると0.807になっていますね。この0.807が標準回帰係数です。

標準化した身長と体重

標準(偏)回帰係数は、説明変数の1標準偏差あたりの増減が、目的変数の1標準偏差あたりにどの程度影響しているかを示しています。例えば、身長以外に腹部の皮下脂肪の厚さを説明変数に加えたとしたら、身長と皮下脂肪のどちらが体重への影響が大きいかは、偏回帰係数を比べるよりも標準偏回帰係数を比べた方が適切です(ダイエット効果を評価するためなら偏回帰係数しか要りませんが)。


説明変数間の比較をするだけなら、説明変数だけ標準化すれば事足りますが、目的変数も標準化することで標準偏回帰係数の値は、ほとんどが1から-1の間に入ります。この間に値が収まらないときは多重共線性を疑ってみるとよいでしょう。


2007.10.30

◆重回帰分析関連のコラム

次のコラムへ   最新のコラムへ



統計WEB

主催:BellCurve