必要なサンプル数を計算する

[戻る]

選挙の出口調査とか視聴率の調査とか少ないサンプルで大局を見ることがあります. 要は味噌汁の味見と同じ原理です. ただあれって母数が何人の時, 何人くらい抽出するとそこそこ信頼できる のでしょうか. 少し前, 「トリビアの泉」って番組で統計の専門家が出てきて, 「こういった調査なら〇〇人も調べれば十分」とか言ってましたよね. どういう計算式なのかちょっと興味が出てきたので調べてみました.

この式に至る過程はまだなんとなくしか分かってませんが, 結論は母数を N としたとき,

といった式で必要なサンプル数 n を計算できるようです. ここで E は ±E% まで許容できるという誤差 (便宜上 % と書きましたが, 実際は小数点の値です), p は予想される中央値 (0 ∼ 1) です. 予想される中央値といってもよくわからないのでとりあえず p=0.5 の時, p(1-p) が 0.25 で最大になるし, そうしておくと
といった形に変形できます.

一方の Z(a) は当てようとする確率に関するパラメータです. 確率 a% で当てようとすると (100 回に a 回は E% 以上はずれる) それに応じた Z(a) の値を使うのですが, ちょっと式では表現できません. グラフにすると以下のような形です.

80 ∼ 98 % 近辺をズームすると

こんな感じになりますが, まぁ難しく考えず以下のあたりをマジックナンバーとして扱えばいいようです.

a 80 85 90 95 98 99
Z(a) 1.29 1.44 1.64 1.96 2.33 2.58

さて, この n ですが, a = 95% (Z(a) = 1.6), E = 0.05 (5%) で N との関係をプロットしてみると以下のような形になります.

N が大きくなっても n は大きくならないようです.

実際, 先の式の分子分母を N で割ると

となって N ⇒ ∞ までぶっ飛ばすと
といった形まで簡略化されます. 先ほどの値を代入すると n = 384.16, すわなち 385 個のサンプルを取れば十分だということが分かります. 前述の「トリビアの泉」の場合, 2000 ∼ 2500 という数字が出てましたが, これは a=95, E=2 で計算した 2401 を基にしていたようです. ふむふむ

ただしこれはサンプルが十分ランダムである必要があります. 例えば「〇〇新聞ですけど...」で始めたアンケートの場合, 〇〇新聞が嫌いな者はそもそもアンケートを受けないとか 嘘を答えるとかして回答が偏ってしまう可能性があります. そうなると当然結果は実際と異なるでしょう. うんうん


2017.6