医学統計の基本中の基本。

医学統計の基本中の基本。


よくある統計の問題。
この問題は、いろいろ統計の基本思考を必要としていて、
学ぶことが多いので、メモしておく。


Q)
100人に薬を投与して、15人に効いたとする。(割合0.15に効いた)


この時、同様のことを100人の同質の別の集団に繰り返し、
効果のある割合を確率変数 IP で表すと、
そのIPの分散は求めることができる。


※ 実際には1回の観測だけで、分散が求まるというのは非常に不思議(^^;)だけど、(統計的には)求まるんですね。


A)
まず、この集団に対するこの薬の効果の出方 X が、
Bi(n , p ) という二項分布に従っていると仮定する。


IP のような、本来は真の値を持つはずの統計量は、
中心極限定理により、十分な試行回数下では、真の値を中心とした正規分布に近似される。
(自信ありませんが、IPというのはベルヌーイ試行(Ber_i)をn回(Ber_1 〜 Ber_n)した時の、(Ber_1+Ber_2+...+Ber_n)/n であり、
そう考えると、nが大きいと、中心極限定理から正規分布しそうですね。)


期待値 E(IP) は、母数(パラメーター)の p になる。
分散は、V(IP) = V(X/n) = np(1-p) / n^2 = p(1-p)/n
のように、母数(パラメーター)を用いて表される。


ある程度、nが大きいと、p(1-p)/n と、今回の値 0.15(1-0.15)/100 が近くなるそうで、
これを分散として用いることができる。 (ここの話が自分の中で消化できてないのだけど、こういうもののようだ。。)


さらに、IP ~ N(p, 0.0128) ということから、
今回 IPが0.15 であることに矛盾しないような、p の95%信頼区間を求めることができる。

 -1.96 <= ( 0.15 - p) / sqrt(0.0128) <= 1.96  (両側5%, 片側2.5%)
を解くと、
pの95%信頼区間は、
 -0.071 <= p <= 0.371
くらいになる。