エクセル統計やMicrosoft(R)Excel を使って、実際にデータ分析を行うための知識やアイデアを紹介します。
以下の索引をクリックするとその行の用語とその説明が表示されます。
:このマークは、Excel に用意された関数により計算できることを示しています。
:このマークは、エクセル統計2006以降に解析手法が搭載されていることを示しています。
:このマークは、秀吉Dplusに解析手法が搭載されていることを示しています。
※「エクセル統計」、「秀吉Dplus」は株式会社社会情報サービスのソフトウェア製品です
データを小さい順に並べたとき、初めから数えて全体の100α%に位置する値を100αパーセンタイルという(0≦α≦1)。65パーセンタイルであれば、最小値から数えて65%に位置する値を指す。第一四分位数は25パーセンタイル、中央値は50パーセンタイル、第三四分位数は75%パーセンタイルである。
PERCENTILE, QUARTILE
データを小さい順に並べたとき、値の順位を百分率で表したもの。最小値の順位を0、最大値の順位をデータ数-1としたとき、パーセンタイル順位は(その値の順位)/(データ数-1)で求めることができる。
PERCENTRANK
データ変換(2008以降)
等分散性の検定のひとつ。帰無仮説「複数の正規母集団のグループの母分散が互いに等しい」を検定する。
一元配置分散分析・多重比較(2006) / 分散分析・多重比較(2008以降)
母集団から抽出した標本の分布が、母集団の分布と比べて偶然ではないずれを起こしているとき、バイアスがあるという。バイアスは標本抽出の方法や測定の方法によって生じることが多く、前者は選択バイアスに、後者は情報バイアスに分類される。
データの分布やばらつきをわかりやすく表現するためのグラフ。長方形の箱とその両端から伸びるひげで表現される。分布上の5つの統計量を示すことができ、一般的には最小値、第一四分位数、中央値、第三四分位数、最大値を表すことが多い。

得られた観測値の中で、真の値の推定値からの残差が異常に大きい値のこと。外れ値の原因や理由が分かっている場合はその外れ値を異常値と言うことがある。
度数の多い項目から順に並べた縦棒グラフに累積相対度数を表した折れ線グラフを図示した複合グラフ。品質管理や在庫管理等で用いられる。

数量データ 度数分布(2006/2008) / 度数分布とヒストグラム(2010)
レンジ。観測値の最大値と最小値の差。
数量データ 記述統計量(2006/2008) / 記述統計量(2010)
あらかじめどのサンプルがどの群に属すのかというデータをもとに、どの群に属すのかわからないサンプルがどの群に属すのかを判別する関数を求める手法。
⇒ 統計解析事例 | 2群の判別分析
⇒ 統計解析事例 | 多群の判別分析
判別分析
いわゆる相関係数のこと。2つの量的変数間の直線的関連の程度を表す係数で、以下の式で定義される。

ここでsx2はxの分散を、sy2はyの分散を、sxyは共分散を表す。
CORREL, PEARSON, RSQ
相関分析
名義尺度、順序尺度、間隔尺度の性質に加えて、絶対原点が存在する尺度。比例尺度とも言う。身長や体重、時間、速度などは比尺度である。比尺度では、比尺度間の比になんらかの意味が存在する。(例:距離÷時間=速度)
数量データの度数分布をグラフで表したもの。縦軸は度数、横軸は階級を表した縦棒グラフで、各棒の間隔は詰めて表現される。

数量データ 度数分布(2006/2008) / 度数分布とヒストグラム(2010)
→ 目的変数
平均が0、分散が1となるようにデータを変換すること。正規化、基準化とも言う。サンプルデータの任意の値xに対して標準化とは、サンプルの平均値(x)と標準偏差(s)を用いて以下の式で表される。
STANDARDIZE
基準値・偏差値(2006) / データ変換(2008以降)
標本から測定された統計量の標準偏差であり、標本統計量の精度を表す。その中でも特に標本平均の標準偏差を指すことが多い。この標本平均の標準誤差(standard error of the mean/SEM)は、標準偏差をサンプルサイズの平方根で割ることで求まる。
数量データ 記述統計量(2006/2008) / 記述統計量(2010)
平均が0、分散が1の正規分布のこと。標準正規分布は以下の式で表される。
NORMSDIST, NORMSINV
標準化した値のこと。z得点、基準値ともいう。
STANDARDIZE
基準値と偏差値(2006) / データ変換(2008以降)
分布の拡がりを表す統計量のひとつで、分散の正の平方根に等しい。標準偏差は以下の式で表され、その単位は観測値の単位に等しいので、観測値と同じ単位で分布の拡がりを見積もりたい場合に用いられる。

STDEVP, STDEVPA
数量データ 記述統計量(2006/2008) / 記述統計量(2010)
母集団から抽出したデータの集まりのこと。サンプルともいう。
→ サンプルサイズ
母集団の標準偏差の不偏推定量。不偏分散の正の平方根で、以下の式で定義される。

STDEV, STDEVA
数量データ 記述統計量(2006/2008) / 記述統計量(2010)
Cox比例ハザードモデル(2008以降)
r×cのクロス集計表における行要素と列要素の関連の強さを示す指標。0≤φ≤1の値をとり、1に近いほど関連が強い。サンプルサイズをn、カイ二乗値をχ2とすると、以下の式で表される。
ピアソンの積率相関係数を2×2のクロス集計表に適用したものとしてのファイ係数も定義されており、これを特に四分点相関係数(four-fold point correlation coefficient)とも言う。-1≤φ≤1の値をとり、以下の式で表される。
| B1 | B2 | 計 | |
| A1 | a | b | r1 |
| A2 | c | d | r2 |
| 計 | c1 | c2 | n |
最も簡便な多重比較検定。要因の水準が3水準で、各水準のサンプルサイズが等しい場合にのみ有効である。
⇒ フィッシャーの最小有意差法の計算方法(Excel ファイルのダウンロード)
一元配置分散分析・多重比較(2006) / 分散分析・多重比較(2008以降)
2×2のクロス集計表における行要素と列要素の関連の強さを示す指標。行の合計と列の合計を一定とみなし、起こりうる全てのケースのうち観測度数より稀なケースが発生する確率を直接計算して求める。
標本から測定した推定量の期待値が母集団のそれに等しいとき、その推定量を不偏推定量と言う。例えば、標本の平均の期待値は母平均に等しいので、標本平均は不偏推定量である。

VAR, VARA
数量データ 記述統計量(2006/2008) / 記述統計量(2010)
ノンパラメトリック検定のひとつで、対応のある2群以上の多群の差を検定する。
フリードマン検定
標準正規分布の累積確率密度がpとなるようなxのことをpのプロビットという。ただし、0<p<1である。

データ変換(2008以降)
因子分析の因子軸の回転における斜交回転の方法の1つ。
分布のひろがりを表す統計量のひとつで、標準偏差の二乗に等しい。分散は以下の式で表され、その単位は観測値の単位の二乗である。

また、比率pの分散は以下の式で表される。
VARP, VARPA
数量データ 記述統計量(2006/2008) / 記述統計量(2010)
→ VIF
重回帰分析(2008以降)
多変数データから求めた各変数の分散と2変数間の共分散を要素とする行列。
複数の群において、帰無仮説「全ての群の母平均は等しい」が成り立つかどうかを検定する。この仮説が棄却されてもどの2群間にに差があるのかということまではわからないので、それを知りたい場合は多重比較検定を行う。一元配置分散分析、二元配置分散分析、反復測定による分散分析、共分散分析、多変量分散分析など、多くの分散分析が存在する。「ANOVA(アノバまたはアノーバ)」と呼ばれることもある。
量的データの代表値のひとつ。平均値(mean)としては、算術平均(相加平均)、幾何平均(相乗平均)、調和平均の3種類がある。一般に、調和平均≦幾何平均≦算術平均という関係がある。
AVERAGE, AVERAGEA, GEOMEAN, HARMEAN
数量データ 記述統計量(2006/2008) / 記述統計量(2010)
平方根を求めること。開平変換とも言う。ポアソン分布に従う変数に対し平方根変換を行うことで、変換後の分布を正規分布に近付け、分散を安定化することができる。
SQRT
データ変換(2008以降)
コイン投げのように結果が2通りにしかならない確率実験のこと。試行を繰り返したとき、どの試行においても2つの結果が起こる確率は同じであり、各試行の結果は互いに独立である。
ベルヌーイ試行によって得られる確率分布。n=1 の場合の 二項分布に等しい。
重回帰分析において得られる予測式(回帰方程式)の各説明変数の係数。
重回帰分析
「○○からの偏差」という言い方で用いられ、「○○との差」を表す。例えば、観測値と平均値との差は「平均値からの偏差」と言う。「平均値からの偏差」を単に「偏差」と言うこともある。
AVEDEV, DEVSQ
平均が50、標準偏差が10となるように変換した値のこと。基準値を10倍して50を足すことで求められる。分布の形状が異なる2つのデータがあるとき、Z得点が同じであるからといって順位も同じであるとは限らない。
STANDARDIZE
基準値と偏差値(2006) / データ変換(2008以降)
平均が50、標準偏差が10の正規分布に近似するように変換した値のこと。パーセンタイル順位の基準値を10倍して50を足すことで求められる。分布の形状が異なる2つのデータがあるとき、T得点が同じであれば順位も同じである。
PERCENTRANK, STANDARDIZE
データ変換(2008以降)
2つの変数の相関が第3の変数によって高められる、または低められる場合に、2変数から第3の変数の影響を取り除いて求めた相関係数。
相関分析
標準偏差を平均値で割った値。この値に100をかけてパーセントで表すこともある。ピアソンの変動係数とも言う。キリンの身長のばらつきと猫の身長のばらつきを比較するときのように、スケールの異なるデータのバラツキを絶対値ではなく相対値で比較しようとする場合に用いられる。

数量データ 記述統計量(2006/2008) / 記述統計量(2010)
調査や研究の対象となるものの全体。標本を抽出するための母体となる統計量の集まり。
母平均や母分散など、母集団が持つ固有の統計量のことを母数、またはパラメータと言う。一般に未知であり、点推定や区間推定によってその値を推定することが多い。
データの分布を正規分布に近づけるための変換。べき正規変換とも言う。ボックス・コックス変換は以下の式で表される。ただし、xは正である。

複数の正規母集団のグループにおける分散共分散行列の同質性・相等性を検定する方法のひとつ。帰無仮説は「各グループの分散共分散行列は等しい。」である。
多変量分散分析(2008以降), 判別分析
母集団の比率のこと。
母集団の分散のこと。一般的にσ2(シグマ2乗)として表されることが多い。
VAR, VARA
母集団の平均のこと。一般的にμ(ミュー)で表されることが多い。
AVERAGE, AVERAGEA
多重比較検定のひとつで、すべての対比較を行う。対比較の数に応じて有意水準を調整するため、対比較の数が多くなると検出力が低くなる。また、各群のサンプルサイズは等しくなければならない。
一元配置分散分析・多重比較(2006) / 分散分析・多重比較(2008以降)