現在位置 : 統計Web | コラム

コラム  『統計備忘録』

統計に絡んだ、様々な話題を取り上げます。




最近のコラム

すべてのコラム タイトル一覧  タイトル一覧(カテゴリー別)

第111話 「Excelの分析ツール (2)」

今回のコラムを書いていて不思議に思ったのは分析ツールのリストの並びです。リストは分散分析に始まって t検定、z検定で終わります。「分散分析も、t検定と z検定も、平均が同じかどうかを検定するためにあるのに、何故、リストの両端に分かれているの?」、「時系列データの平滑化に使う指数平滑と移動平均の間にF検定やヒストグラムが入るのはどうして!」といったところです。英語版を見れば一目瞭然ですが、この並びは ANOVA から z test までと分析手法の英語名によるアルファベット順なのです。Descriptive Statistics が「記述統計量」でなく「基本統計量」と訳されているので、謎解きに手間取ってしまいました。

さて、前回の続きです。

分析ツールのウィンドウ

分析ツールのウィンドウ2




指数平滑

指数平滑という手法を使って、時系列データの平滑化を行います。ダイアログでは「減衰率」を設定するようになっていますが、この減衰率には(1-平滑化係数)の値を設定します。

F検定:2標本を使った分散の検定

2変数のデータ範囲を指定し、「変数1の分散>変数2の分散(観測された分散比が 1 より大きい)」ならF分布の上側による片側検定を、「変数1の分散<変数2の分散(観測された分散比が 1 より小さい)」なら下側による片側検定を行います。2変数のどちらの分散が大きいかによって対立仮説が変更されてしまうので注意が必要です。なお、ここで出力される P値を 2倍すると両側検定の P値となり、FTEST関数による P値と等しくなります。

フーリエ解析

高速フーリエ変換(FFT)と逆変換を行います。フーリエ解析については、ほとんど知識がありませんのでコメントは控えさせていただきます。

ヒストグラム

量的データを読み込んでヒストグラムを作るためにあるんですが、オプションの「グラフ」をチェックしないと度数分布表しか出力しないので要注意です。度数分布表の作り方も一般的じゃありません。度数分布表の各階級は「○○以上〜◇◇未満」とするのが普通ですが、Excelの分析ツールは「○○より大きい〜◇◇以下」となっています。それから、出力されるグラフはただの棒グラフですヒストグラムらしくするにはグラフの書式設定で「棒の間隔」に「0」を入力します。分析ツールによりヒストグラムの作成することはお奨めしません。COUNTIF関数グラフの編集の仕方をマスターした方が良いでしょう。

移動平均定

移動平均という手法を使って、時系列データの平滑化を行います。分析ツールの移動平均は株価チャートで使われる移動平均と同じ計算原理です。「区間(N)」に5を指定した場合、ある時点tの移動平均は、t-4、t-3、t-2、t-1、t の5時点のデータの平均になります。本来の移動平均では、ある時点tの移動平均は、t-2、t-1、t、t+1、t+2 とその前後の時点のデータを使って求めます。そのため、区間が奇数か偶数かでも計算方法が異なります

乱数発生

ExcelにはRAND関数とRANBETWEEN関数の2種類の乱数を発生させる関数がありますが、一様分布の乱数しか作れない、シードを設定できないので再現性が無いといった弱点があります。また、ワークシートに何か入力するたびに乱数の値が変わってしまうという点もやっかいです。分析ツールでは、均一、正規、ベルヌーイ、二項、ポワソン、離散の6種類の分布から乱数を選ぶことができます(分布のリストにはパターンというのがありますが、これは乱数ではありません)。

順位と百分位数

RANK関数とPERCENTRANK関数が使えれば必要ありません。

回帰分析

重回帰分析もできます。標準偏回帰係数が出力されない、説明変数が16個までしか分析できない、変数選択ができない、欠損値があると分析できない用語が一般的ではないといった使用上の注意点が幾つかあります。


<次回に続く>

2012.1.31


第110話 「Excelの分析ツール (1)」

Microsoft Excelには、CORRELやTTESTといった様々な「関数」、「ピボットテーブル」、「分析ツール」や「ソルバー」などのアドインが用意されています。Excelだけでも、簡単な検定から、多大な手間は要するものの、かなり高度な多変量解析までこなせます。「相関係数を求めたい」とか「t検定をしたい」ぐらいで、わざわざ統計ソフトを買う必要はありません。Excelを利用して統計学を学ぶテキストも毎年のように出版されていますから、統計ソフトを買う前に一度読んでみてください。

ソルバーと分析ツールを組み込んだExcel2010(データのリボンの右端にボタンが表示される)

ソルバーと分析ツールを組み込んだリボン


さて、前置きが長くなりましたが、今回はExcelの分析ツールを取り上げたいと思います。Excelが初期設定のままでは、メニューにもリボンにも分析ツールが表示されないので、分析ツールの存在を知らない人がほとんどではないかと思います。以前に、コラム「Excelで重回帰分析(1)」で分析ツールを使用して重回帰分析を解いてみましたが、分析ツールには重回帰分析以外にも幾つかの統計解析機能が備わっています。

分析ツールのウィンドウと搭載されている解析手法

分析ツールのウィンドウ
分散分析:一元配置
分散分析:繰り返しのある二元配置
分散分析:繰り返しのない二元配置
相関
共分散
基本統計量
指数平滑
F検定:2標本を使った分散の検定
フーリエ解析
ヒストグラム
移動平均
順位と百分位数
回帰分析
サンプリング
t検定:一対の標本による平均の検定
t検定:等分散を仮定した2標本による検定
t検定:分散が等しくないと仮定した2標本による検定
z検定:2標本による平均の検定



このリストを見て「エクセル統計買わずに済んだ」と後悔している方がいるかもしれませんね。そういった方のために、また、これから統計ソフトの購入を検討されている方のために、Excelの分析ツールの限界、統計ソフトとの違いなどについて書いておきます。

分散分析(3種)

まず、最初に並んでいる分散分析ですが、Excelの分散分析には多重比較の機能がありません。それから「繰り返しのある二元配置」の場合、繰り返しの数が不揃いな場合に対応していません。第106話で書いたように要因計画の配置表に合わせた書式のデータしか分析できないため使い勝手を悪くしています。

相関、共分散

次に相関と共分散ですが、これは、共に複数の変数(複数列)のデータからすべての組み合わせで相関係数や共分散を求め、相関行列や分散共分散行列にまとめることができます。ただし、欠損値があるデータでは注意が必要です。分析ツールには欠損値を含むケースを行ごと分析対象から除く機能がありません。一般の統計ソフトの多くについている機能ですが、この機能が無いため、欠損値を含む場合は事前に分析対象からケースを除いておく必要があります。また、無相関の検定(相関係数の有意性の検定)もありません。

基本統計量

基本統計量は、複数の変数(複数列)のデータより、
平均、標準誤差、中央値、最頻値、分散、尖度、歪度、範囲、最小、最大、合計、標本数、
k番目に大きな値、k番目に小さな値、信頼区間

をまとめて計算できます。Excelには標準誤差を直接求める関数が無いので、計算式が分からない人は分析ツールを使用してください。
Excelの欠点として用語の間違いが多いということが挙げられます。それはここでも見られます。標本数に出力されているのはサンプルサイズ(データ数)です。また、「k番目に大きな値」の出力の見出しは「最大値(k)」となり、何を意味するのか分からなくなっています(「k番目に小さな値」は「最小値(k)」)。信頼区間の出力は平均から信頼限界までの幅を出力しているだけで、区間の上限や下限は出てきません。CONFIDENCE関数の値を貼り付けているだけです。


<次回に続く>

2012.1.23



第109話 「出生率の計算」

前回、厚生労働省の『平成 23 年(2011) 人口動態統計の年間推計』より人口減少を話題に取り上げました。日本の場合、人口減少の最大の要因は出生率の低下ですが、この出生率には何通りかの計算方法があります。この厚労省のレポートにも出生率と合計特殊出生率の2つの出生率が出てきます。

人口動態調査の出生率は「普通出生率」と言われるものです。粗出生率とも言い、英語はCBR(Crude Birth Rate)です。普通出生率は次のように計算します。


 普通出生率(‰)=1年間の出生数/当該年の人口×1000



「‰」は「パーミル」と読みます。人口動態など人口関連で率というと、単位は「パーセント」ではなく「パーミル」、人口千人あたりの数が多く使われます。2010年の普通出生率の確定値は8.5、2011年の推計値は8.4です。

もう1つの「合計特殊出生率」ですが、普段メディアで「出生率」として取り上げられるのは、こちらの出生率です。英語ではTFR(Total Fertility Rate)です。合計特殊出生率とは、調査した年における15歳から49歳までの女性の各年齢ごとの出生率を合計したものです。調査年のような出産のスタイルが生涯に亘るとしたら、15歳から49歳までに1人の女性が平均して何人子供を産むかを表します。



 合計特殊出生率(人)=15歳女子から生まれた1年間の出生数/当該年の15歳女子人口+
                16歳女子から生まれた1年間の出生数/当該年の16歳女子人口+
                ・・・+49歳女子から生まれた1年間の出生数/当該年の49歳女子人口



日本では、合計特殊出生率は2005年に過去最低の1.26を記録して、その後、徐々に増えて2010年に1.39まで戻しています。合計特殊出生率が2を超えないと少子化が進むわけですから、まだまだ少子化が続くものと思われます。厚労省のレポートによると日本より合計特殊出生率が低いのはお隣の韓国の1.23、シンガポールの1.15です。


各国の合計特殊出生率
国名合計特殊出生率
日本 1.39 (2010年)
韓国 1.23 (2010年)
シンガポール 1.15 (2010年)
アメリカ 2.01 (2009年暫定値)
フランス 2.00 (2010年暫定値)
ドイツ 1.38 (2008年)
イタリア 1.41 (2009年)
スウェーデン 1.94 (2009年)
イギリス 1.96 (2008年)


また、このレポートには出てきませんが、普通出生率、合計特殊出生率以外では「総出生率(GFR:General Fertility Rate)」という出生率もあります。これは、1年間の出生数を当該年の15歳から49歳の女子人口で割り1000を掛けて求めます。他にも、標準化出生率、有配偶出生率など幾つかあります。

2012.1.12



第108話 「日本の人口」

読者のみなさん、あけましておめでとうございます。

昨年、日本は、東日本大震災により未曽有の災害を被りました。弊社ソフトのユーザーの方にも、津波で事務所が流されたり、校舎が立ち入り禁止になったりと被災された方がいらっしゃいました。私としましては2012年が復興元年として記憶される1年になってほしいと願うばかりです。

さて、2012年の最初のコラムは日本の人口についてです。毎年、1月1日に厚生労働省から前年の人口動態統計の年間推計が発表されます。人口動態統計とは出生数、死亡数、婚姻件数、離婚件数及び死産数についての統計です。1月1日の推計値は前年1月から10月までの調査結果を利用したもので、確定値は9月に公表されます。

昨年は東日本大震災の影響で推計値と確定値は開きがあるかもしれませんが、昨年の出生数が1,057,000人に対し死亡数は1,197,012人です。204,000人の人口減ということになります。2005年と2010年の国勢調査の比較では5年間で37万人の人口減でしたから、過大推計になっていなければ、戦後最大の人口減少ということになりそうです。東日本大震災の死者・行方不明者が2万人いらしたということを考慮しても戦後最大の減少です。

厚労省のレポートでは1947年以降の人口動態総覧の年次推移の表も載っています。この表を見ると、出生数のピークは1949年(昭和24年)の2,696,638人で、この年の死亡数は945,000人、出生が175万人も上回っていました。ちなみに、この年の出生率は33.0(人口千人に対する出生数)で、2011年の8.4と比べると4倍にもなります。

なお、婚姻件数の推計値は670,000組(2010年は700,214組)、離婚件数235,000組(2010年は235,000組)です。震災後、結婚に踏み切るカップルが増えたという報道がありましたが、この数字を観る限りそのような様子は窺えません。1947年以降、婚姻率が10を超えたのは、1947年から49年の3年間と1970年から72年の3年間の合わせて6年間です。確定値ベースで最も低い婚姻率は2010年の5.5ですから、2011年が推計値どおりの5.3となれば、こちらも過去最小を更新することになりそうです。一方、離婚率は2003年の2.30がピークです。2011年の推計値は1.86でピークから緩やかに下がってきているようです。

このレポートには、このほかに国際比較の数値も載っています。厚労省のホームページからPDFをダウンロードできますから、是非、一度読んでみてください。『平成 23 年(2011) 人口動態統計の年間推計』で検索すればすぐに見つかります。

2012.1.5



バックナンバー
2007年 4月5月6月7月8月9月10月11-12月
2008年 1月2月3月4月5-8月9月10月11-12月
2009年 1-2月3月4月5月6-7月9-10月11-12月
2010年 1-2月3-4月5-9月10-11月
2011年 2-4月6-8月11月

統計WEB

主催:社会情報サービス統計調査研究室

Google
ウェブ検索
サイト内検索