現在位置 : 統計WEB | コラム | 2008年1月

コラム 『統計備忘録』 バックナンバー

2007年|2008年 1月| 2月 3月 4月 5-8月 9月 10月 11-12月2009年 

第33話   「STDEVとSTDEVP」

Excelのヘルプから標準偏差を計算する関数を調べると、6つもの関数が見つかります。
 STDEV、DSTDEV、STDEVA、
 STDEVP、DSTDEVP、STDEVPA

頭にDが付く2つの関数はデータベース関数、末尾にAが付くのは文字列や論理値を含むデータを計算するための関数です。したがって、この6つの関数はSTDEV系とSTDEVP系の2組に分けられます。

STDEV、STDEVPのそれぞれの説明によると、最初の1文だけが異なっていて、「標準偏差とは」から後ろは同じです。

STDEVの説明
 「引数を標本と見なし、標本に基づいて母集団の標準偏差の推定値を返します。標準偏差とは・・・」

STDEVPの説明
 「引数を母集団全体であると見なして、母集団の標準偏差を返します。標準偏差とは・・・」

両者の違いは、引数(計算対象となるデータ)が「標本」か「母集団全体」なのかという点にあり、「標本」ならば「母集団の標準偏差の推定値」を、「母集団全体」ならば「母集団の標準偏差そのもの」を計算するということのようです。

母集団全体を調査することを全数調査もしくは悉皆(しっかい)調査といいます。例えば、ある小学校の6年生全員の身長であれば全数調査が可能です。STDEVPとは、このような全数調査によって得られたデータから真の標準偏差を計算するための関数です。

母集団が大きいときや、実験のように繰り返せば幾らでもデータがとれるときは、母集団全体を調べることが難しくなります。こうなると真の標準偏差は求められないので、母集団の部分集合である「標本」のデータを使って標準偏差を「推定」するしかありません。このとき使う関数がSTDEVになります。こちらの標準偏差の方が大きく、標本が小さくなるほど(データ個数が少なくなるほど)、このSTDEVPとSTDEVの差は大きくなります。

なお、当サイトの統計用語集ではSTDEVによって求められる標準偏差の推定値を「標本標準偏差」と表していますが、通常、論文や報告書に記述する場合、「標本」を省略して単に「標準偏差」とするのが一般的です。推測統計学(統計的推定や検定のこと)では、標本から得られたデータしか扱わないので使い分ける必要が無いのです。


2008.01.07


第34話   「sample, population, universe」

ジーニアス英和大辞典によると sample の語源は、中世にイングランドを征服したノルマン人が使っていたアングロノルマン語の assample (見本 = example)。のちに、頭の as が消えて sample になったそうです。さらに遡ると、ラテン語の exemplum に行き着きます。example の原義は、「ex(外へ)+ample(広い)」、「多数の中から取り出されたもの」で、統計学の標本の概念そのものです。

標本( sample )は、母集団の中の1つずつの個体ではなく、母集団の中から抽出した個体の集まりです。Excelの分析ツールを開くとメニューの中に「・・・2標本による検定」というのがありますが、2標本の意味するところは、2個体ということではなく2群(集合)ということです。

Excel分析ツールのメニュー

また、標本に含まれる個体の数のことをサンプル数と言うのは、厳密には誤りということになります。標本の大きさ、もしくは、サンプルサイズ(sample size)とするのが正しい表現です。エクセル統計でも幾つかの箇所でサンプル数を使ってしまっていますが、次のバージョンで訂正するつもりです。

さて、母集団の英語表現はというと population になります。本来の意味は「人々を住まわせた結果の住民数」です。ラテン語の populare(住まわせる)に由来します。population の一般的な訳は「人口、住民数」ですが、生態学では「個体群」、天文学では「種族」という意味になります。Excelの関数 STDEVP の末尾の P は、population の頭の p ではないかと思います。

さらに、辞典を見ていると母集団の英訳とし て population だけでなく universe (ユニバース。the universe は「宇宙、全人類」という意味)もあります。統計学上の population と universe の違いは、前者が、検定や推定の対象であるところの個体から観測される値(小学校6年生のお小遣い) の集まりであるのに対して、後者は個体(小学校6年生)の集まりという点です。


2008.01.15


第35話   「相関係数を視覚化する」

相関係数を視覚的に理解しておくと、統計学を勉強するときにとても役に立ちます。コンパスと三角定規があれば簡単にできますから、みなさんも試してみてください。

それでは、相関係数(r)が 0.8 の状態を絵にしてみます。まず、最初に半径 10cm の円を1つ描いて、円の中心から縁に向かって1本の矢印を引きます。

円と1本の矢印を描く

続いて、矢印の先に向かって8cmのところに、直角に交わる1本の線を引きます。

8cmのところに垂線を描く

最後に、引いた線と円が交わるところに向かって、円の中心から、もう1本の矢印を引きます。

2本目の矢印を描く

この2本の矢印の交わる角度が相関係数を表します。r=0.8 の角度は 36.8699度です。

r=0.8の角度

次のExcelの関数を使っても相関係数の角度を簡単に求められます。

 =DEGREES(ACOS(0.8))

2本の矢印は相関をなす2つの変数をベクトルとして表現したものです。片方の矢印の先端から、もう片方の矢印に対して垂直に交わるように線を引き、この交わったところまでの長さを射影と言います。この図では射影は8cmですね。矢印全体は 10cm ですから、8cmはベクトル全体の 8/10 (= 0.8)ということになります。2本の矢印の長さ(ベクトルの大きさ)を一緒にして射影を求めた場合、矢印の長さに対する射影の比が相関係数と一致します。

したがって、ある角度が相関係数にすると幾つになるかは、三角関数のコサイン(cosine)で求められます。60度の相関係数を知りたければExcelに次のように入力してください。

 =COS(RADIANS(60))

相関係数が 0(ゼロ) ということは角度にすると 90度、直角に交わります。統計学を勉強していると直交という言葉が良く出てきますが、直交とは r=0 のこと、無相関ということです。

r=0.5とr=0


2008.01.22


第36話   「回帰係数と相関係数」

XからYへの回帰の回帰係数と、XとYの相関係数の間には次のような関係があります。

 回帰係数=相関係数×(Yの標準偏差/Xの標準偏差)

前回と同じようにベクトルを使って回帰係数と相関係数の関係を描いてみましょう。今回は次の身長(X)と体重(Y)のデータを使います。

身長と体重

最初は前回の方法で、相関係数(r)が0.80の2本のベクトルを描きます。2つのベクトルの内角は約37度になります。続いて、1本のベクトル(青色)を身長の標準偏差に合わせて10.06cmに伸ばします。もう1本のベクトル(赤色)を体重の標準偏差に合わせて7.12cmに縮めます。2つのベクトルの長さの比は身長を1とすると体重は0.71倍、体重を1とすると身長は1.41倍です。

標準偏差を反映した2本のベクトル

続いて、体重のベクトルの先端から身長と垂直に交わる1本の線をおろします。

身長に向かって垂線を引く

この身長と交点までの長さを測ると5.72cmになります。これは、身長の標準偏差10.06cmにXからYへの回帰係数0.57を掛けた長さになります。逆に、身長のベクトルの先端から、体重のベクトルと垂直に交わる線を引くと、ベクトルの交点までの長さは体重の標準偏差7.12cmにYからXへの回帰係数1.14を掛けた長さになります。

回帰係数のベクトル上の表現


2008.01.31



次のコラムへ 最新のコラムへ

統計WEB

主催:BellCurve