選挙の出口調査とか視聴率の調査とか少ないサンプルで大局を見ることがあります. 要は味噌汁の味見と同じ原理です. ただあれって母数が何人の時, 何人くらい抽出するとそこそこ信頼できる のでしょうか. 少し前, 「トリビアの泉」って番組で統計の専門家が出てきて, 「こういった調査なら〇〇人も調べれば十分」とか言ってましたよね. どういう計算式なのかちょっと興味が出てきたので調べてみました.
この式に至る過程はまだなんとなくしか分かってませんが, 結論は母数を N としたとき,
一方の Z(a) は当てようとする確率に関するパラメータです. 確率 a% で当てようとすると (100 回に a 回は E% 以上はずれる) それに応じた Z(a) の値を使うのですが, ちょっと式では表現できません. グラフにすると以下のような形です.
こんな感じになりますが, まぁ難しく考えず以下のあたりをマジックナンバーとして扱えばいいようです.
a | 80 | 85 | 90 | 95 | 98 | 99 |
Z(a) | 1.29 | 1.44 | 1.64 | 1.96 | 2.33 | 2.58 |
さて, この n ですが, a = 95% (Z(a) = 1.6), E = 0.05 (5%) で N との関係をプロットしてみると以下のような形になります.
実際, 先の式の分子分母を N で割ると
ただしこれはサンプルが十分ランダムである必要があります. 例えば「〇〇新聞ですけど...」で始めたアンケートの場合, 〇〇新聞が嫌いな者はそもそもアンケートを受けないとか 嘘を答えるとかして回答が偏ってしまう可能性があります. そうなると当然結果は実際と異なるでしょう. うんうん