エクセル統計やMicrosoft(R)Excel を使って、実際にデータ分析を行うための知識やアイデアを紹介します。
現在位置 : 統計Web | コラム | 統計備忘録 2008年9月
2007年|2008年 1月|2月| 3月|4月|5-8月| 9月| 10月| 11-12月|2009年
Zipf はジップ、または、ジフと読みます。アメリカの言語学者のジョージ・キングズリー・ジフが発見した経験則です。サイズの大きさで順位(k)を付けた場合、k番目のサイズは、1番目のサイズの 1/k になるというものです。ウィキペディアにもう少し詳しい説明があります。
さて、私自身は、那須川哲哉氏の「テキストマイニングを使う技術/作る技術」を読むまでこの法則を知らなかったのですが、那須川氏によるとテキストマイニングの過程で形態素解析を行うと、対象テキストにおける語の出現頻度が法則に従うとのことでした。そこで、手持ちのアンケートの自由回答をトレンドサーチにかけて調べてみたら、かなり法則に近い分布になるものがありました。それ以来、つい、数字が並んでいるのを見ると、法則があてはまるかどうか気になってしまいます。
気にしていると色々とみつかるのですが、最もよくあてはまった例を1つ紹介します。それは、検索サイトから、当サイト(http://software.ssri.co.jp/)のホームページへアクセスする際に用いられた、検索キーワードの頻度です。
最近1ヶ月の検索キーワード| 順位 | キーワード | 頻度 |
|---|---|---|
| 1位 | エクセル | 6,415 |
| 2位 | 統計 | 3,355 |
| 3位 | 正規分布 | 1,928 |
| 10位 | アンケート | 772 |
| 100位 | SD | 60 |
| 1000位 | 30年前 | 5 |
2位の「統計」を1位の「エクセル」の頻度で割ると0.53、3位の「正規分布」は0.30、100位の「SD」で0.01と、法則の 1/k に近い値です。ちなみに、法則から予想される出現回数と実際の出現回数との相関係数は0.998と非常に強い相関を示しました。ページ単位に調べてみるとかなりばらつきがあるので、法則があてはまるにはページ数や文書量がある程度必要なのかもしれません。
ジップの法則以外にも、パレートの法則や、80:20の法則などが知られています。皆さんも、身近な数字にあてはめてみてはどうでしょうか。
2008.09.18
◆テキストマイニング関連のコラム
第39話 「ぼくはうなぎだ」へ
エクセル統計2008から重回帰分析の出力にトレランスと VIF を加えました。この2つの数値は多重共線性をチェックするために用います。
多重共線性には正確多重共線性と準多重共線性があります。正確多重共線性とは、相関行列の逆行列が求められないことを言います。逆行列を計算できない原因は、変数の個数がデータの数より多いか、変数間に1次結合があるかのどちらかです。逆行列を求められないので重回帰分析は途中で打ち切られます。
さて、本来、変数間には1次結合があるはずなのに、測定誤差などによる僅かな誤差があって1次結合が崩れ、逆行列が求まることがあります。これが準多重共線性の起こっている状況です。重回帰分析の結果もでてきますが、結果の信頼性は低く、データが少しでも増えたり減ったりする度に、偏回帰係数が大きく変化してしまう可能性があります。
通常、トレランスが 0.1以下の場合に準多重共線性があると考えます。トレランスの計算方法は統計用語集に難しそうに書いてありますが、単純にすると次の通りです。
トレランス=1−決定係数
この決定係数は、重回帰分析に用いようとした説明変数の中から、変数1個を目的変数にし、残りの変数を説明変数にして重回帰分析を行うと得られます。決定係数が 0.9(重相関係数に直すと約 0.95)以上と変数間が強い相関を示すとき、トレランスは 0.1 以下になります。
VIFの訳語は分散拡大係数です。トレランスが分かれば VIF の計算は簡単です。VIF が 10 以上なら、準多重共線性を疑うということになります。
VIF=1/トレランス
エクセル統計2008では、多重共線性に対しもう1つ機能を加えています。重回帰分析のダイアログに「線形結合をしている変数を除いて分析する」というオプションがあり、これをチェックしていると、1次結合による正確多重共線性がある場合、1次結合している変数の片方をプログラムが勝手に除いて重回帰分析を行います。

このオプションをチェックしておけば、「逆行列が求められません」というメッセージは表示されません。
2008.09.25
2011年2月から5月29日までコラムの内容と異なる画像を表示していました。読者の方からご指摘をいただき訂正しています。ご指摘ありがとうございました。
なお、エクセル統計2010では重回帰分析のダイアログを変更しています。「線形結合をしている変数を除いて分析する」は[オプション]タブより設定できます(下図参照)。

追記2011.05.30
◆重回帰分析関連のコラム