現在位置 : 統計Web | コラム | 統計備忘録 2008年2月

コラム  『統計備忘録』   バックナンバー

2007年|2008年 1月|2月| 3月 4月 | 5-8月 9月 10月 11-12月2009年 

第37話   「チョコレートと相関」

バレンタインデーの季節なので、チョコレートでトピックを書いてみようとGoogleで「チョコレート 相関」を検索してみました。ヒット件数は103,000件。占いから、イギリスの製菓会社の調査結果、鼻血との関係など話題は様々でしたが、この数字が多いのか少ないのか判断しかねますので、他にも幾つかチョコレート絡みで調べてみました。

まずやってみたのは英語による検索です。「chocolate correlation」を検索してみると245,000件のヒット。日本語の2倍以上です。しかし、英語圏の人口は15億人と謂われていますから、予想していたよりも少ない件数です。ちなみに、日本チョコレート・ココア協会というホームページを見つけたので、ここに掲載されていた2004年の世界主要国のチョコレート消費量の数字を見たところ、イギリスの1人あたりの年間消費量は9.4s(19ヵ国中5位)、アメリカが5.3s(10位)でした。日本の消費量は2.2kg(18位)しかありませんので、もっと英語でヒットしても良さそうですが。

続いて、他のお菓子と比べてみようと「クッキー 相関」を検索してみたら、143,000件のヒット。でも検索結果をよく見てみると、インターネットのクッキーなど、お菓子以外のクッキーの方が多そうです。そこで、協会のホームページをもう一度見ていたら、日本の菓子の小売金額の統計もありました。平成18年の数字を見ると、チョコレートは「和生菓子 4,944億円」、「洋生菓子 4,670億円」についで第3位(4,138億円)となっています。早速、「ケーキ 相関」も調べてみたところ151,000件のヒットです。ネット上では金額の差以上にケーキの話題の方が多いようです。これは、ケーキが年中話題になるのに対して、チョコレートはバレンタインデーの時期に集中することの表れでしょうか。

協会のホームページには1981年から2005年までのバレンタインデーシーズン(いつからいつまでか書いてないのですが)の販売推定額の数字もありました。チョコレート全体の国内消費額の前年比は、幾何平均を計算すると年1%程度の伸びなのに対して、バレンタインデーシーズンの販売推定額は平均して2.7%も伸びています。そのため、シーズンの販売額は、1981年には全体の8%だったのが2005年には12%になっています。最近は1月になるとデパートから予約販売のDMが届き、有名なショコラティエのチョコはあっという間に完売してしまうようですから、傾向はもっと顕著になっているかもしれませんね。


2008.02.12


第38話   「重相関係数と決定係数」

単回帰分析と重回帰分析を別々のものと思い込んでいる人もいますが、Excelの分析ツールでは両者を「回帰分析」と一纏めにしているように、説明変数1個だけの重回帰分析が単回帰分析ということになります。しかし、単回帰分析で求めた重相関係数と(単)相関係数は必ずしも一致しません。

重相関係数は、実際に観測された目的変数の値と、重回帰式をあてはめて計算した推定値(理論値)との相関係数です。重相関係数の二乗を決定係数、もしくは、寄与率と言います。Excelの分析ツールでは「重決定 R2」と出力されますが、「重決定係数」はExcelだけの用語表現じゃないでしょうか。一般的ではないので論文に使わないようにしましょう。

回帰分析の結果

決定係数は、重回帰分析を行うとセットで出力される分散分析表からも、簡単に計算できます。分散分析表の一番下の行に「合計の変動」の欄がありますが、この値が示すものは、目的変数の平均値と観測された値との差の二乗の和(偏差平方和)です。目的変数のデータ全体のばらつきの大きさを示していて、総変動(St)という言い方もします。

総変動

合計の一つ上の行の変動を誤差変動(Se)と言います。誤差変動は観測値と重回帰式による推定値の差(残差)の二乗の和です。回帰式で説明できなかった目的変数の変動(ばらつき)の大きさを示しています。

誤差変動

この総変動(St)と誤差変動(Se)を次の式にあてはめると決定係数(R2)が求められます。

決定係数

決定係数の意味するところは、目的変数の総変動のうち、重回帰式で説明できる変動の割合です。

決定係数(R2)は重相関係数(R)の二乗なので、逆に、決定係数を計算しておいて、そのルート(二乗根)を求めると重相関係数ということになります。

重相関係数

単相関係数と違って、重相関係数は二乗根で求めた値なので、マイナスになることはありません。そのため、説明変数が1個の回帰分析の場合、回帰係数の符号がマイナスの時は重相関係数に−1を掛けて単相関係数を求めます。


2008.02.18


◆重回帰分析関連のコラム



第39話   「ぼくはうなぎだ」

もうすぐトレンドサーチ2008が発売されるのでテキストマイニングの本を読んでいたら、「うなぎ文」なるものと出会いました。うなぎ文の代表例がタイトルの「ぼくはうなぎだ」です。

うなぎ文は、「何を注文する?」、「君の好物は?」と、何を受けての発言かが分かれば解釈できるのですが、単独ではまったく意味が通じません。翻訳ソフトを使って英訳したら「I am an eel」と誤訳されることになります。

そこで、トレンドサーチがうなぎ文をどう処理するのか試してみると、次のように「うなぎ」だけが出てきました。「私はうなぎです」を試してみても結果は同じです。

キーワードアソシエーター1

多くのテキストマイニング・ツールは最初に形態素解析という作業を行います。形態素解析は、文法と辞書を利用して、文章を意味のある最小単位に分割して品詞を判別することです。トレンドサーチも次のように解析しているはずです。

「ぼく は うなぎ だ」
「私 は うなぎ です」

そこで、トレンドサーチが基本設定では代名詞や助詞、助動詞を表示しなかったのを思い出し、すべての品詞を表示するようにしたら、つぎのようになりました。

キーワードアソシエーター2

トレンドサーチの形態素解析では、「ぼく」、「僕」、「ボク」は、すべて代名詞の「ボク」として解析します。また、「です」は「だ」の丁寧表現ですが、こういった動詞や助動詞の活用による表現の揺らぎにも対応しています。

さて、うなぎ文は、人間が読んでも文脈が分からなければ理解できません。当然、コンピューターにも理解不能です。したがって、テキストマイニング・ツールを使う場合は、「注文」とか「好物」というような文脈が分かるキーワードをテキストに追加して分析するか、「好物」について書かれた文章というように、テーマにより分析対象を絞り込んでおく必要があります。


2008.02.27



次のコラムへ 最新のコラムへ

統計WEB

主催:社会情報サービス統計調査研究室

Google
ウェブ検索
サイト内検索