>
エクセル統計やMicrosoft(R)Excel を使って、実際にデータ分析を行うための知識やアイデアを紹介します。
以下の索引をクリックするとその行の用語とその説明が表示されます。
:このマークは、Excel に用意された関数により計算できることを示しています。
:このマークは、エクセル統計2006以降に解析手法が搭載されていることを示しています。
:このマークは、秀吉Dplusに解析手法が搭載されていることを示しています。
※「エクセル統計」、「秀吉Dplus」は株式会社社会情報サービスのソフトウェア製品です
分析対象の変数(目的変数/従属変数)を他の1つまたは複数の変数(説明変数/独立変数)により説明し予測しようとする手法。
FORECAST, INTERCEPT, LINEST, SLOPE, STEYX, TREND
重回帰分析, 多重ロジスティック回帰分析(2010以前) / 二項ロジスティック回帰分析(2012)
多項ロジスティック回帰分析(2012), 条件付きロジスティック回帰分析(2012), 判別分析
FORECAST, INTERCEPT, LINEST, SLOPE, STEYX, TREND
重回帰分析, 多重ロジスティック回帰分析(2010以前) / 二項ロジスティック回帰分析(2012)
多項ロジスティック回帰分析(2012), 条件付きロジスティック回帰分析(2012), 判別分析
統計的仮説検定のうち、カイ二乗分布を用いる検定の総称。ただし、一般的にはクロス集計表における行要素と列要素が独立かどうかを評価する検定(独立性の検定)を指すことが多い。
CHIDIST, CHITEST
クロス集計表の作成と分析(2012), 独立性の検定
正規分布に従ういくつかの変数があるとき、それらの二乗和が従う分布である。自由度mのカイ二乗分布は以下の式で表される。Γ( )はガンマ関数。

CHIDIST, CHIINV
階層型クラスター分析の結果は樹形図(デンドログラム)によって表されることが多い。個体(枝)から幹(クラスター)へ階層構造を成すため階層型クラスター分析という。幾つかの手法がある。凝集的方法では、個体間の類似度行列(距離行列を用いることが多い)からスタートし類似度の高いもの同士を順に結合していく。結合後の類似度の計算方法により結合過程が異なる。エクセル統計の凝集法は、最短距離法、最長距離法、メディアン法、重心法、ウォード法をまとめたものとなっている。
→ 平方根変換
SQRT
データ変換(2008以降)
比率pに対して以下の式の値を求めることを角変換という。角変換により、比率pの分布を正規分布に近付け、分散を安定化することができる。
ASIN, SQRT, DEGREES
データ変換(2008以降)
ある現象がいろいろな値を取り得るとき、取り得る値全体を確率変数Xとして表す。どのような値をとるかは決まっていないが、とりうる値の範囲とその値をとる確率が決まっている数のこと。例えば、ひとつのさいころを振って偶数の目が出る確率は、P(X=2,4,6)=1/2と表される。
ある現象を2人の観察者が観察した場合の結果がどの程度一致しているかを表す統計量。カッパ統計量や一致率とも言う。
クロス集計表の作成と分析(2012), カッパ係数(2008以降)
→ 質的データ
生存分析の手法のひとつで、生存率曲線を描くことで生存時間の推定を行う。
名義尺度、順序尺度の性質に加えて、等間隔性の性質も併せ持つ尺度。例えば、温度で0度、1度、2度には大小関係があり、かつ等間隔でもある。しかし、摂氏と華氏の2種類の温度があるように、原点と単位の大きさの取り方は自由であり、間隔尺度同士の掛け算や割り算は意味をなさない。
ある統計的手法が、必要としている条件または仮定を少々満たしていないようなデータにおいてもほぼ妥当な結果を与えるとき、この統計的手法は頑健性があると言う。
ローレンツ曲線における対角線の直線のこと。分配が完全に均等な場合、曲線は完全平等線に一致する。

ローレンツ曲線とジニ係数(2010以降)
検査の性能を表す指標のひとつ。検査で検出したい信号や疾患を有するもののうち、検査が正しく陽性と判断したものの割合。真陽性率のこと。
| 疾患 | 合計 | |||
| あり | なし | |||
| 検査 | 陽性 | a (真陽性) | b (偽陽性) | a+b |
| 陰性 | c (偽陰性) | d (真陰性) | c+d | |
| 合計 | a+c | b+d | a+b+c+d | |
cf. 特異度
クロス集計表の作成と分析(2012)
カイ二乗分布、t分布、F分布の確率密度関数の定義に利用される関数。以下の式で表される。
GAMMALN
工場、事務、販売、営業などにおける作業工程が安定な状態にあるかどうかを調べるため、または工程を安定な状態に保持するために用いる図。

cf. 管理線, 管理特性, x-R管理図, x-s管理図, Me-R管理図, X-Rs管理図, np管理図, p管理図, c管理図, u管理図
Xbar-R管理図, Xbar-s管理図, Me-R管理図, X-Rs管理図, np管理図, p管理図, c管理図, u管理図
管理特性が安定な状態にあるかどうかを判断するために管理図の上に引かれる線のこと。中心線(CL)、上部管理限界(UCL)、下部管理限界(LCL)がある。

Xbar-R管理図, Xbar-s管理図, Me-R管理図, X-Rs管理図, np管理図, p管理図, c管理図, u管理図
管理の対象が安定な状態にあるかどうかを判断するために選んだ特性を数値で表したもの。例えば健康を管理する場合、管理特性として体重や体脂肪率を選ぶことができるが、健康状態に左右されない身長は管理特性にはならない。
Xbar-R管理図, Xbar-s管理図, Me-R管理図, X-Rs管理図, np管理図, p管理図, c管理図, u管理図
→ 連関
検査の性能を表す指標のひとつ。検査で検出したい信号や疾患を有するもののうち、検査が誤って陰性と判断したものの割合。FNFと表すこともある。
| 疾患 | 合計 | |||
| あり | なし | |||
| 検査 | 陽性 | a (真陽性) | b (偽陽性) | a+b |
| 陰性 | c (偽陰性) | d (真陰性) | c+d | |
| 合計 | a+c | b+d | a+b+c+d | |
n個の正数の観測値の積のn乗根。相乗平均とも言う。比率を平均する場合に有用である。
GEOMEAN
記述統計量(2012)
データを整理し、そのデータの持つ特徴をできるだけ簡潔で明確に記述する方法を研究するもの。推測統計と対比して用いられることが多い。数値や表、グラフ、図などを用いてデータの特徴を表現する。
→ 標準化
STANDARDIZE
基準値と偏差値(2006) / データ変換(2008以降)
→ 標準得点
STANDARDIZE
基準値と偏差値(2006) / データ変換(2008以降)
→ 目的変数
時系列データにおける周期変動のうち、12ヶ月間で繰り返す周期変動のこと。
確率論において期待値とは、確率変数のとりうる値にそれが起こる確率を掛けた値の総和である。平均値とは(相加平均の場合)観測値全体の和を観測度数で割った値を指すが、期待値は1回の観測で期待される値のことを指す。
クロス集計表における期待度数とは、行要素の合計や列要素の合計の比率から逆算して期待される度数のことを指す。期待度数に対し、実験、調査、観察などによって得られたデータに基づく度数を、実測度数、観測度数、観察度数などという。
クロス集計表の作成と分析(2012), 独立性の検定, カッパ係数
時系列データの季節指数を計算する最も簡単な手法。
⇒ 期別平均法の計算方法(Excel ファイルのダウンロード)
統計的仮説検定の際にとりあえず立てる仮説のことで、対立仮説の方が重要であることが多い。記号「H0」として表されることが多い。例えば、帰無仮説として「差がない」という仮説が立てられた場合、これが棄却されることにより、対立仮説の「差がある」を結論とする。
正方行列Aに対して、AX=XA=Iを満たす行列Xが存在するとき、XはAの逆行列であると言う。このときIは単位行列である。
MINVERSE
→ 角変換
データ変換(2008以降)
検査の性能を表す指標のひとつ。検査で検出したい信号や疾患を有さないもののうち、検査が誤って陽性と判断したものの割合。FPFと表すこともある。
| 疾患 | 合計 | |||
| あり | なし | |||
| 検査 | 陽性 | a (真陽性) | b (偽陽性) | a+b |
| 陰性 | c (偽陰性) | d (真陰性) | c+d | |
| 合計 | a+c | b+d | a+b+c+d | |
ROC曲線(2008以降)
2変数の関係の強さを表す指標のひとつ。データの単位の影響を受けるので値の大きさで単純に比較できない。共分散は2変数の積和をサンプルサイズ-1で割った値で、以下の式で表される。共分散を各変数の標準偏差で割った値は相関係数である。

COVAR
分散分析において要因間の差を探るとき、量的データを持つ補助的な変数(体重や年齢など)の影響も考慮した分析手法。なお、このとき分析に加えた補助的な変数のことを共変量という。分散分析と回帰分析を合わせたような分析手法と考えられる。
共分散分析(2008以降)
m×n個の数字を縦にm行、横にn列並べたもの。下図の例は2行3列の行列。
平均値などの統計量の母数をある程度の幅を持たせて推定する方法。
順位相関係数の一種。対応する2つの変量(xi, yi)(ただし、i=1,2,・・・,n)があるとき、その中から取り出した(xs, ys)と(xt, yt)(ただし、s<t)において、
P = (xsとxt、ysとytの大小関係が同じ向きである組の数)
Q = (xsとxt、ysとytの大小関係が異なる向きである組の数)
とおくと、グッドマン・クラスカルのガンマ(γ)は以下の式で表される。
xs=xtやys=ytがない(同順位がない)場合はケンドールの順位相関係数のτaおよびτbに等しい。また、行のカテゴリーと列のカテゴリーのいずれにも順序が存在するようなクロス集計表においてもガンマを定義することができる。2×2クロス集計表の場合のガンマをユールのQと呼ぶこともある。
クロス集計表の作成と分析(2012), グッドマン・クラスカルのγ
r×cのクロス集計表における行要素と列要素の関連の強さを示す指標。0≤τ≤1の値をとり、1に近いほど関連が強い。行を従属変数、列を独立変数としたとき、クロス集計表にない新しい観測値が行のどの水準に属するかを予測した場合の誤差が、その観測値の列の水準がわかることによってどの程度減少するかを求めたもの。行を従属変数とした場合と列を従属変数とした場合の2種類定義できる。
クロス集計表の作成と分析(2012), グッドマン・クラスカルのτ
順位を用いたノンパラメトリック検定のひとつで、対応のない3つ以上のグループ間の差の有無を調べたいときに用いられる。H検定ともいう。
クラスター分析には複数の手法があり、大きくは階層型と非階層型の2種類に分かれる。
階層型では、得られた標本において、距離や相関係数によってケース間の類似度を求め、類似度の近いものから順にクラスターに結合していく。最初はケースの数だけクラスターがあるが、結合するたびにクラスターの数は1つずつ減っていく。この結合の過程をグラフにしたものがデンドログラムである。
非階層型な代表的手法にk-means法があり、この手法では、あらかじめ幾つのクラスターに分類するかを指定し、クラスター内では分散が小さく、クラスター間では分散が大きくなるように各ケースをクラスターに振り分けていく。k-means法のkはクラスターの個数を意味する。サンプルサイズの大きな標本を分類するときによく利用される。
多変量解析 | クラスター分析(凝集法), 多変量解析 | クラスター分析(K-means法)
r×cのクロス集計表における行要素と列要素の関連の強さを示す指標。0≤V≤1の値をとり、1に近いほど関連が強い。クラメールの連関係数(Cramer's coefficient of association)とも言う。サンプルサイズをn、カイ二乗値をχ2とすると、以下の式で表される。

独立性の検定, フィッシャーの直接確率, コクラン・アーミテージ検定
クロス集計表の作成と分析(2012)
→ 集団面接法
特定の対象者にのみ実施されるアンケートのこと。クローズド調査も同意。
cf. オープンアンケート
n個のデータをr個とc個のカテゴリーを持つ2つの属性により分類し、次のような度数表が得られたとき、この度数表をクロス集計表という。

クロス集計表の作成(2010以前) / クロス集計表の作成と分析(2012)
各変数が全体として同じ概念や対象を測定したかどうか(内的整合性)を評価する信頼係数。1に近いほど信頼性が高いと言える。
⇒ クロンバックのαの計算方法(Excel ファイルのダウンロード)
回帰分析において、誤差項(残差、実測値と理論値の差)に自己相関がある場合、系列相関が認められる、または自己相関が認められると言う。
cf. ダービン・ワトソン比
回帰分析において、目的変数の観測値に対する目的変数の予測値の説明力を表す指標。寄与率とも言う。0から1までの値をとり、1に近いほど分析が有効である。
LINEST
重回帰分析, 多重ロジスティック回帰分析(2010以前) / 二項ロジスティック回帰分析(2012)
多項ロジスティック回帰分析(2012), 条件付きロジスティック回帰分析(2012), 曲線のあてはめ
検査の対象となる人のなかで非患者に対する患者の比。
| 疾患 | 合計 | |||
| あり | なし | |||
| 検査 | 陽性 | a (真陽性) | b (偽陽性) | a+b |
| 陰性 | c (偽陰性) | d (真陰性) | c+d | |
| 合計 | a+c | b+d | a+b+c+d | |
cf. 検査前オッズ
検査結果が陽性と出た人の中で非患者に対する患者の比。
| 疾患 | 合計 | |||
| あり | なし | |||
| 検査 | 陽性 | a (真陽性) | b (偽陽性) | a+b |
| 陰性 | c (偽陰性) | d (真陰性) | c+d | |
| 合計 | a+c | b+d | a+b+c+d | |
cf. 検査後オッズ
検査後確率には陽性的中度と陰性的中度のふたつがあるが、主に陽性的中度を指す。
cf. 検査前確率
検査の対象となる人のうち疾患を有する人の割合。有病率とも言う。
| 疾患 | 合計 | |||
| あり | なし | |||
| 検査 | 陽性 | a (真陽性) | b (偽陽性) | a+b |
| 陰性 | c (偽陰性) | d (真陰性) | c+d | |
| 合計 | a+c | b+d | a+b+c+d | |
cf. 検査後確率
統計的仮説検定において、帰無仮説が偽であるときに誤らずに帰無仮説を棄却する確率のこと。第二種の過誤を犯す確率をβ(ベータ)とおくと、検出力は1-βで表される。
2群の母平均の差の検定, 2群の母平均の差の検定(対応あり), 2群の等分散性の検定
順位相関係数の一種で、τa、τb、τcの3種類が定義される。対応する2つの変量(xi, yi)(ただし、i=1,2,・・・,n)があるとき、その中から取り出した(xs, ys)と(xt, yt)(ただし、s<t)において、
P = (xsとxt、ysとytの大小関係が同じ向きである組の数)
Q = (xsとxt、ysとytの大小関係が異なる向きである組の数)
Tx = (xs=xtである組の数)
Ty = (ys=ytである組の数)
N = (組の総数) = n(n-1)/2
とおくと、ケンドールの順位相関係数τaとτbは以下の式で表される。

TxとTyがともに0である(同順位がない)場合、τaとτbとグッドマン・クラスカルのガンマは同じ値をとる。また、行のカテゴリーと列のカテゴリーのいずれにも順序が存在するr×cクロス集計表があるとき、m=min(r, c)とおくと、ケンドールの順位相関係数τcは以下の式で表される。
なお、エクセル統計により出力されるケンドールの順位相関係数はτbである。
クロス集計表の作成と分析(2012), グッドマン・クラスカルのγ, ケンドールの順位相関係数
2組の時系列データにおいて、データを1期、2期、…とずらしたときに求める個々の相関を交差相関と言う。またこのときのデータのずれのことをラグ(lag)と言う。2組のデータにおいて、どちらがのデータが、何期、先行しているかを検討する際に用いる。
ある結果について2つ以上の原因が考えられ、それぞれの原因が、どの程度、結果に影響しているか区別できないとき、交絡しているという。
交絡を発生させる要因のこと。
例えば、飲酒者と非飲酒者では飲酒者の肺癌発生率が高くなる。これは交絡因子である喫煙の影響によるもので、飲酒者に喫煙者が多いことによる。喫煙の有無で分けてから、飲酒者と非飲酒者の肺癌発生率を比べると違いは無くなり、飲酒は肺癌の発症と関連の無いことが分かる。
r×2のクロス集計表において、行要素のr種類の水準が薬剤の投与量のような順序尺度で、列要素の2水準はある現象が起こるか起こらないかを定義しているとき、行要素のr種類の水準に応じた傾向性があるかどうかの検定を行う。
クロス集計表の作成と分析(2012), コクラン・アーミテージ検定
ノンパラメトリック検定のひとつ。0か1の2値型で対応のあるデータがあるとき、処理間の比率の差を検定する。対応のある2群の比率の差の検定(マクネマー検定)を拡張したもの。
異なる特性を持つ複数の患者群(コホート)を時間の流れに沿って観察し、その特性と疾患との関係を調べようとする研究方法のこと。例えば喫煙群と非喫煙群を一定期間観察し、喫煙と肺癌の関係を調べる場合など。前向きコホート研究と後向きコホート研究とがある。
n次の正方行列Aにおいて、Ax=λxを満たす定数λ(ラムダ)とn次ベクトルx(≠0)が存在するとき、λを行列Aの固有値、xを固有ベクトルと言う。固有値はn次の正方行列の場合、重複を含めてn個存在する。
→ 固有値
Aをn次の正方行列、λを固有値、xを固有ベクトルとしたとき、Ax=λxという式ができ、変形して(A-λI)x=0とできる。さらに、x≠0であるので、|A-λI|=0と言える。この式を固有方程式と言う。Iは単位行列である。
2つの標本についてそれぞれの母集団の確率分布が一致しているかどうか、またはある標本の母集団の確率分布が帰無仮説で提示した確率分布と一致しているかどうかを検定する。正規性の検定に用いることができる。KS検定ともいう。
⇒ 統計解析事例 | 正規確率プロットと正規性の検定・度数分布とヒストグラム
正規確率プロットと正規性の検定(2008以降)
クロス集計表の行要素と列要素の2変数の全てのカテゴリーの中から似かよったカテゴリーをまとめることなどを目的とする。対応分析とも言う。1960年代にベンゼクリ(Benzecri)によって提案。数量化3類、双対尺度法、コレスポンデンス分析、最適尺度法、等質性分析はほぼ同じ内容の統計手法である。
被験者に商品やサービスのスペックを複数呈示して、スペックに対する選好を尋ねる。その結果からスペックを構成する各要素(機能、デザイン、価格など)が選好にどの程度影響しているかを調べる。スペック組み、スペックの呈示と選好度の計測、部分効用(各要素の選好への影響度合い)の推定の3つのステップからなる。各ステップにおいて様々な方法が考案されており、コンジョイント分析専用のソフトウェアも開発されている。Sawtooth社のACAのように、実験から部分効用の推定、部分効用を用いたマインドシェアのシミュレーションまでパッケージ化されたソフトウェアもある。