単変量解析では「度数分布」「代表値」「分散、標準偏差」の視点を持つ

gruffuna

9年前

マーケティングリサーチのスクールの記録です。定量基礎知識編が最終段階に入り、集計・統計のパートです。このパートでは「分布」「分散」「検定」「相関係数」などの用語が当然のように飛び交い、ドキドキしながら講義を聞いています。

集計は単純集計（単変量解析）→クロス集計（2変量解析）→多変量解析と進めていきますが、その第一段階の「単変量解析」も、基礎を学ぶと奥深いものがあります。

単変量解析の代表的な変数は以下の3つです。

度数分布
代表値
分散、標準偏差

それぞれ、印象的だった学びをまとめます。

度数分布

変数（設問）のカテゴリー（選択肢）別の個数の分布のことです。いわゆる単純集計（GT）で確認します。統計学では正規分布（平均を中心に左右対象）を基本としますが、マーケティングリサーチでは、完全な正規分布を示すデータはほぼありません。

代表値

平均値、中央値、最頻値など、変数の中心値を説明するための統計量です。平均値が使われることが多いですが、日本の平均年収が出たときによく騒がれますが、「外れ値」の影響を受けやすいことが欠点です。真ん中や周辺に多くのデータが存在するとは限らない値です。ここを見逃さないためにも、度数分布を頭に入れておく必要があります。

分散と標準偏差

この辺りのワードから拒否反応が出てきますが。。分散とは、平均値を中心としてデータがどれぐらい散らばっているのかの指標であり。標準偏差はバラツキを数値で現すための値です。

ここまで自分でまとめてみて、改めてこんがらがってきましたが。。以下のような具体例を教えてもらい腹に落ちたので、混乱してきたときの拠り所にしようと思います。

商品の満足度を5段階で聞いて、加重平均を出して評価した場合の考え方です。

平均値が高く、標準偏差は小さい→多くの人が満足している良い商品
平均値が高く、標準偏差は大きい→満足している人が多いが、不満足な人も多い
平均値が低く、標準偏差は大きい→不満足な人が多いが、満足している人も多い
平均値が低く、標準偏差は小さい→多くの人が不満足している課題がある商品

平均値の軸だけでは同じ評価に見られてしまう商品ですが、標準偏差の軸を加えることで、機会や課題が見えてくることがあります。

一歩踏み込んだ集計が必要な場合に活用します。