現在位置 : 統計WEB | コラム | 2007年4月

コラム 『統計備忘録』 バックナンバー

2007年 4月|5月6月7月8月9月10月11月-12月2008年

第1話   「はじめは平均から」

英語には平均値を表す言葉としてaverageとmeanの2つがあります。一般に、averageも mean も特にことわりがなければ「算術平均(Arithmetic mean)」を意味します。

統計学の世界では average と mean を使い分けており、いわゆる平均値には mean を用いるのが常識です。

average には mean よりも広い意味を持たせていて、「代表値」という訳語をあてます。代表値とは「分布の中心的位置を表す数値(measure of central tendency)」を意味し、平均値以外に、中央値(median、50パーセンタイル値)や最頻値(mode)も含まれます。平均値であることを明確にするために、統計学ではmeanを使うようになったのではと思います。

ところで、Microsoft(R) Excel で平均値を求める関数の名前は AVERAGE です。MEDIAN や MODE と同じく統計関数に分類されています。一般的な馴染み度や、統計学や数学から離れるとmeanにも色々な意味があることから AVERAGE に決めたものと思いますが、統計関数の括りに入れるのなら MEAN が妥当だったのではないでしょうか。

さて、Excel の統計関数を眺めていると、ほかにも mean と名がつく関数があります。

 GEOMEAN(Geometric mean、幾何平均、相乗平均)
 HARMEAN(Harmonic mean、調和平均
 TRIMEAN(Trimmed mean、調整平均)

幾何平均は、n個の変数の積を求めて、n乗根をとったものです。比率の平均をもとめるときなどに、よく利用します。

過去3年の売上高の対前年比、120%、110%、130%の幾何平均を求めるなら Excel には次のように入力します。

 =GEOMEAN(1.2,1.1,1.3)
次のように入力したのと同じ結果です。
 =(1.2*1.1*1.3)^(1/3)
 =EXP(AVERAGE(LN(1.2),LN(1.1),LN(1.3)))

結果は1.19725になります。3年間の売上のトータルの伸びは、毎年19.7%ずつ売上が伸びたのに等しいということですね。

このほかに、幾何平均が あてはまる例として、

XとYの2つの変数について、
XからYへの回帰式と、
 Y = a + bX
YからXへの回帰式を求めて、
 X = a' + b'Y

それぞれの回帰係数bとb'の 幾何平均を求めると、 相関係数に一致するというのがあります。

 r = √bb'

調和平均は、速度の平均などに用いることができます。例えば、山頂まで6kmの道のりを往きは時速2kmで帰りは時速6kmで歩いたときの平均時速を、Excel では次のように入力して解くことができます。

 =HARMEAN(2,6)

結果は3になります。往復で12kmを4時間かけて歩いたので時速3kmと いうことです。

調和平均は 逆数の算術平均を求め、 結果の逆数をとったものなので、次の式を入力しても解くことができます。

 =AVERAGE(1/2,1/6)^-1

最後の調整平均は、最初にデータを値の大きさで並び替え、 次に、両端を除いて算術平均を 求めたものです。

 2,2,3,4,6,7,9,10,12,13
という10個の値があるときに、
 =TRIMMEAN(データの範囲,0.2)
と入力すると、両端から10%ずつということで、2と13を除いた8個(80%)から平均を求めるので、結果は6.625になります。これを10%調整平均といいます。

Excel のTRIMMEAN関数では、10%調整平均なら、片側分の「0.1」ではなく「0.2」と指定します。両側分の割合を指定することに要注意です。

調整平均は、外れ値(極端な値)の影響を避けるために使います。25%調整平均のことを中央平均(Midmean、Interquartile mean)とも言います。

Excel を離れると、一般化平均(Generalized mean)など、他にもまだまだ平均と名の付くものがあります。次回は、特殊な平均について取り上げてみたいと思います。

2007.03.30



トップに戻る

第2話   「平年より早く」

深沢 呑川緑道桜横

先日、桜の開花予想に計算間違いが見つかってニュースになりましたが、結局、東京は平年より8日早く3月20日に開花して、月末には満開になりました。今週、花冷えで4月4日に雪が降りましたが、何とか入学式まで花は残っていそうです。

桜は、秋に花芽(かが)を作って冬の間は休眠しています。花芽は低温に一定期間さらされることで冬の終わりを感じ取り、休眠から目覚めて花を咲かせる準備を始めます。これを休眠打破といいます。鹿児島の桜が平年より4日遅く開花したのは、暖かすぎて休眠打破が遅れたからです。

ところで、天気予報でもおなじみの「平年」ですが、「平年」とは、いったい何を指しているのでしょうか。気象庁のホームページを調べてみました。

気象庁では全国のアメダスから気象データを収集しています。1日の平均気温は深夜1時から24時までの1時間ごと、24回の測定気温を平均したものです。

ちなみに、最高気温や最低気温は、2003年から10分毎に測定した気温から決めるようになりました。10分毎にしたことで最高気温は平均して0.3℃上がり、最低気温は0.2℃下がったそうです。

続いて、月の平均気温は1日の平均気温を1か月分合計して、1ヶ月の日数で割ります。1ヶ月間の毎時の気温を合計して日数×24で割った値と月平均気温は一致します。

年平均気温については、1月から12月の月平均気温を合計して12で割ります。月によって日数が異なるので、1年間の毎日の平均気温を合計して1年間の日数で割った値と、年平均気温は僅かに異なる可能性があります。2月のある日の気温は8月のある日の気温よりも、年平均気温に与える影響が若干大きいということですね。

本題の「平年」ですが、これは「過去30年間」の平均です。ただし、直近の過去30年ではありません。平年気温は10年に1回しか計算しません。計算しなおすのは西暦の末尾が1の年です。最新の平年気温は、2001年に計算され、1971年から2000年までの平均になります。

次のグラフは、1876年からの東京の年平均気温です。

東京の平均気温

不規則に上下動を繰り返しますが、上昇傾向をはっきりと読み取ることができます。移動平均Aは単年の不規則変動を除去した30年移動平均線です(30年移動平均では前後に15年ずつのデータを必要とするので、両端の15年は計算できません)。こちらを見ると大正時代(1912-1926)に線が上向きに転じ、以後、着実に温暖化が進んでいるのが分かります。

深沢呑川緑道桜縦

移動平均Bは直近30年の気温を平均して折れ線にしたものです(株価チャートの移動平均もこのパターンです)。移動平均Aの線を右へ15年ずらしたものにほぼ一致します。

この移動平均値を、10年単位に階段状に刻んでいった緑の線が、平年気温ということになります。この20年間で平年気温を下回った年は1993年だけです。1993年は暖冬から一転して記録的な冷夏となり深刻な米不足に陥りました。

2001年から2010年までの東京の平年気温は15.9℃です。30年前の平均気温から0.9℃上がっています。2011年からの平年気温は、よほどのことが無い限り、0.3℃ほど上昇することになりそうです。その時、桜はいつ咲くことになるのでしょうか。

2007.04.06
















トップに戻る

第3話   「平均寿命」

平均寿命をどうやって計算しているか考えたことはありますか?

平均寿命とは、1年間に亡くなった方の死亡時年齢を平均したものではありません。
人口の多い世代は、死亡率が低くとも死亡者数は前後の世代よりも多くなりますから、この方法では、団塊の世代が平均寿命を左右してしまいます。ちなみに、終戦前後(1945-1946年生まれ)の世代の年齢あたりの人口は平均140万人ですが、団塊の世代(1947-1949年生まれ)になると220万人を超えます。

人口ピラミッド

それでは、平均寿命は一体どのように計算されているのでしょうか。

平均寿命の定義を調べてみると、0歳児の平均余命(へいきんよめい)と出てきます。「今年生まれた子が何歳まで生きるか」を予想した値です。厳密には平均値ではなく期待値です。

0歳児の平均余命を計算するには、年齢ごとに生きている人と亡くなった人の人数を調べて、各年齢の死亡率を調べます。この死亡率を使って10万人の0歳児が何歳まで生きられるのかシミュレーションします。

平成17年の資料では、0歳の男の子の死亡率は0.00298(0.298%)です。したがって1歳を迎えられるのは99,764人。1歳では0.00045なので2歳を迎えられるのは99,680人になります。こうやって最後の1人になるまで計算を繰り返し、最後に、各年齢の生存者数をすべて足し上げて、10万で割ったものが0歳児の平均余命です。

このシミュレーション結果を載せたものが、厚生労働省が公表している生命表です。生命表には毎年発表される簡易生命表と5年ごとに作られる完全生命表があります。生命保険会社にとって、生命表は、生命保険の料率を決める上で重要な資料となります。

平成17年の簡易生命表によると、女性の平均寿命は85.49歳、20年以上世界一です。男性は78.53歳でアイスランドに次いで2位につけています。

日本人の平均余命(2005年)
年齢男性女性
0歳
平均寿命
78.5385.49
20歳 59.0565.90
40歳 39.8246.35
65歳 18.1123.16
80歳 8.2311.11

簡易生命表には、各年齢での平均余命も載っていて、平均寿命と同じ79歳男性の平均余命は8.76年です。平均寿命を超えた方のうち、45%の方は米寿を迎えることができそうです。

詳しくは厚生労働省が発表している生命表を見てください。
Googleで「平均寿命」を検索すればトップページに出てきます。

2007.04.13





トップに戻る

第4話   「平均人」

平均の概念を人間にあてはめたのはベルギーの数学者で天文学者であったアドルフ・ケトレー(Lambert Adolphe Jacques Quetelet、1796-1874)です。ケトレーは近代統計学の祖と云われています。ケトレーは数々の業績を残していますが、肥満度の指標として使われているBMI(Body Mass Index、体重を身長の2乗で割った値)も彼が考案したものです。

19世紀になると近代化が進み、数々の統計資料が出回るようになります。そんな中、ケトレーは、「エジンバラ・メディカル・ジャーナル」に掲載されたスコットランド兵士5738人の胸囲を集計して、胸囲が40インチ弱の値を中心とした正規分布を描くことに気づきました。

それまで、正規分布は、天体観測における観測誤差の分布として応用されていましたが、ケトレーは、人間の身体的データだけでなく、出生、結婚、死亡、犯罪などの発生率という社会的データについても平均値を測定し、正規分布をあてはめることに熱中します。

ケトレーは、自著「人間について」の中で、人間社会における標準としての「平均人(l'homme moyen)」という概念を提出しました。ケトレーにしてみれば、個人の自由な振る舞いさえも、平均人を中心とした正規分布の範囲内のばらつきの一つに過ぎません。

ケトレーによって、統計学は人間社会を記述し、分析するための有効なツールとなりました。クリミアの天使と言われた、ナイチンゲール(Florence Nightingale、1820-1910)も、そんなケトレーの影響を受けた人物の一人です。

ナイチンゲールは、クリミア戦争が起こると黒海のトルコ側、スクタリの英国陸軍病院に赴きました。病院では、戦死した兵士の多くが戦場で受けた傷ではなく、病院内でコレラ、やチフス、赤痢に感染し死亡していました。病院内は、ひどく不衛生な状況でしたが、ナイチンゲールの働きにより、まもなく状態は改善され、病院での死亡率は最悪時の42%から2%にまで下がります。

ナイチンゲールは、帰国後、"Notes on Matters Affecting the Health, Efficiency and Hospital Administration of the British Army"という1000ページにも及ぶ覚え書きを残しています。ここには、彼女が収集した軍の衛生管理に関する様々な統計データと彼女の考察が記されています。この中にある1枚のグラフ(Polar-Area Diagram)は、陸軍病院での死因が戦闘ではなく、病気であったことを鋭く物語っています。

ナイチンゲールは英国人の健康のため、統計学で理論武装して改革に臨みました。彼女の考案したグラフの有効性が評価され、後に英国統計学会の会員になり、米国統計学会の名誉会員にもなっています。イギリスでは、ナイチンゲールを統計学の先駆者として位置づけています。

2007.04.20



次のコラムへ 最新のコラムへ

統計WEB

主催:社会情報サービス統計調査研究室

Google
ウェブ検索
サイト内検索