マーケティングリサーチのスクールの記録です。定量基礎知識編が最終段階に入り、集計・統計のパートです。このパートでは「分布」「分散」「検定」「相関係数」などの用語が当然のように飛び交い、ドキドキしながら講義を聞いています。
集計は単純集計(単変量解析)→クロス集計(2変量解析)→多変量解析と進めていきますが、その第一段階の「単変量解析」も、基礎を学ぶと奥深いものがあります。
単変量解析の代表的な変数は以下の3つです。
- 度数分布
- 代表値
- 分散、標準偏差
それぞれ、印象的だった学びをまとめます。
度数分布
変数(設問)のカテゴリー(選択肢)別の個数の分布のことです。いわゆる単純集計(GT)で確認します。統計学では正規分布(平均を中心に左右対象)を基本としますが、マーケティングリサーチでは、完全な正規分布を示すデータはほぼありません。
代表値
平均値、中央値、最頻値など、変数の中心値を説明するための統計量です。平均値が使われることが多いですが、日本の平均年収が出たときによく騒がれますが、「外れ値」の影響を受けやすいことが欠点です。真ん中や周辺に多くのデータが存在するとは限らない値です。ここを見逃さないためにも、度数分布を頭に入れておく必要があります。
分散と標準偏差
この辺りのワードから拒否反応が出てきますが。。分散とは、平均値を中心としてデータがどれぐらい散らばっているのかの指標であり。標準偏差はバラツキを数値で現すための値です。
ここまで自分でまとめてみて、改めてこんがらがってきましたが。。以下のような具体例を教えてもらい腹に落ちたので、混乱してきたときの拠り所にしようと思います。
商品の満足度を5段階で聞いて、加重平均を出して評価した場合の考え方です。
- 平均値が高く、標準偏差は小さい→多くの人が満足している良い商品
- 平均値が高く、標準偏差は大きい→満足している人が多いが、不満足な人も多い
- 平均値が低く、標準偏差は大きい→不満足な人が多いが、満足している人も多い
- 平均値が低く、標準偏差は小さい→多くの人が不満足している課題がある商品
平均値の軸だけでは同じ評価に見られてしまう商品ですが、標準偏差の軸を加えることで、機会や課題が見えてくることがあります。
一歩踏み込んだ集計が必要な場合に活用します。