質問:
特定の確率でショーに行く人々に関する問題のp値を計算する
Joe Ricci
2016-07-23 03:08:50 UTC
view on stackexchange narkive permalink

統計学の授業でこの質問を理解するのに苦労しています:

当時、参加する予定がなかった20人にロックショーに関するチラシを配りました。公演。私の仮説では、5人以上がロックショーに参加しています。私は彼らのうち8人(ランダムに選ばれた)をフォローアップして、彼らがショーに行ったかどうかを確認することにしました。 8人のうち2人がショーに行ったことがわかりました。実験結果のp値は何ですか?

p値を見つけるにはどのような種類の統計的検定が必要ですか?

ヒント:$ p $値の定義がこれにどのように関連しているか考えられますか?参考:「* $ p $ -valueは、データの確率分布の仮説がnullの場合、結果が観測された結果と同じかそれよりも極端になる確率です*」。
ジョー、 `self-study` [tag wiki](http://stats.stackexchange.com/tags/self-study/info)も読んでください。おそらく、質問も変更してください。
二 答え:
whuber
2016-07-25 02:38:28 UTC
view on stackexchange narkive permalink

この質問には独自の答えがあります。それ以外のものは近似値にすぎないか、劣った仮説検定に基づいています。 p値は$ 682/969 \約70.4 \%$です。その計算は、$ 20 $の母集団からの置換なしのサンプリングに基づいています。この投稿の残りの部分では、p値の定義といくつかの簡単な組み合わせ計算のみに依存する推論を提供します。


結果の確率モデルはボックスで記述できます。 $ 20 $のチケットで、お一人様1枚。各チケットには、その人がショーに行ったかどうかが書かれています。ランダムサンプルは、これらのチケットのうち8つを箱から取り出したようなものです(それらを置き換えることなく)。

このモデルのまだ不明な統計的特性は、数によって完全に決定されます。このショーに行った人々の。この番号を$ \ theta $と呼びます。 $ \ theta $の可能な値は、0から$ 20 $までの整数です。

あなたのヌル仮説$ H_0 $は、5人以上がショーに参加したというものです:$ \ theta \ ge 5 $。別の方法は、$ \ theta \ lt 5 $です。

この仮説をテストするための唯一の有用な統計は、サンプル内でショーに参加した人々のカウント$ X $です。 (行かなかった人を数えると、明らかに数学的に同等の情報が得られます。)明らかに、$ X $の小さい値は、$ H_0 $に対する証拠であり、大きい値はその証拠です。実際、$ X \ ge 5 $の場合、サンプルの少なくとも5人が参加したため、$ H_0 $が真であることが確実になります。

したがって、p値は、$ X $ が観察した値である$ 2 $以下である可能性がある確率から計算されます。この確率は、次のように計算することで簡単に計算できます。それは3つの相互に排他的な可能性に分けられます:

  • $ X = 0 $は、$ 8 $チケットのサンプル全体がボックス内の$ 20- \ theta $非表示チケットからのものであることを意味します。発生する可能性のある$ \ binom {20- \ theta} {8} $の方法があります。

  • $ X = 1 $は、サンプルチケットの7つが$ 20- \ theta $の非表示チケットからのものであることを意味します(そのための$ \ binom {20- \ theta} {7} $の方法があります発生する)そして1つは$ \ theta $の見本市チケットから来ました:他の7つのチケットの選択とは関係なく、それが発生するための$ \ binom {\ theta} {1} $の方法があります。したがって、そのようなサンプルの総数は$ \ binom {20- \ theta} {7} \ binom {\ theta} {1} $です。

  • 類似の議論がそこに示しています$ \ binom {20- \ theta} {6} \ binom {\ theta} {2} $サンプルと$ X = 2 $のショーゴーイングチケットです。

これらの3つの値を合計し、可能な(および等確率の)サンプルの総数$ \ binom {20} {8} $で割って、未知の$ \ theta $に関して$ X \ le 2 $の可能性を取得します。 。 $ \ theta = 5 $に対してこの計算を実行するだけでよいことがわかりましたが、パターンを理解できるように、$ \ theta $の他の値のいくつかの可能性があります。

$ $ \ begin {array} {rr | cccccc} & \ theta & 2 & 3 & 4 & \ color {Red} 5 & \ color {Red} 6 & \ color {Red} \ cdots & \ color {Red} {14 } \\ & \ text {Probability} & 1 & \ frac {271} {285} & \ frac {4103} {4845} & \ color {Red} {\ frac {682} {969}} & \ color {Red } {\ frac {176} {323}} & \ color {Red} \ cdots & \ color {Red} {\ frac {7} {9690}} \\ & \ text {(decimals)} & 1. & 0.951 & 0.847 & \ color {Red} {0.704} & \ color {Red} {0.545} & \ color {Red} \ cdots & \ color {Red} {0.001} \\\ end {array} $$

(すでに2つのショーゴーを観察したので、$ \ theta = 2 $でテーブルを開始しましたサンプルのrs。すでに6人の非ショー参加者を観察し、最大で$ 20-6 = 14 $のショー参加者を残しているため、$ \ theta = 14 $で終了しました。)

$ \ theta $が小さい場合(対立仮説の下にあり、可能性$ \ {0,1,2,3,4 \} $のみで構成されている)、$ X \ le 2 $の可能性は高い。しかし、$ \ theta $が増加すると、チャンスは減少します。 $ \ theta = 5、6、\ ldots、20 $(赤で表)のケースで構成される帰無仮説の中で、最大の可能性は$ \ theta = 5 $のときに発生します。 $ 682/969 \約0.704 $。 これはp値です。

この結論を解釈して、意味があることを確認しましょう。物語は次のようになります。

ボックスに5つ以上の見本市チケットがあるかどうかをテストしたいと思います。私のサンプルの少数の見本市チケットは、それに対する証拠になります。サンプルには2枚の見本市チケットしかありませんでした。実際には、20人のうちちょうど5人がショーに参加したという状況があり、私のサンプルで2つ以下のチケットを観察する可能性は$ 70.4 \%$にもなります。これは非常に高く、私のサンプルが帰無仮説と一致していることを示しています。


この推論のさらなるチェックとして、サンプルのpが低いはずのシナリオを考えてみましょう。 -値。あなたの帰無仮説が、20人の半分以上がショーに行ったというものだったとしましょう。 $ \ theta $の可能な値の対応するセットは、$ H_0 = \ {11、12、\ ldots、20 \} $です。これらの状況のいずれかで$ X \ le 2 $が発生する最大の可能性は、$ \ theta = 11 $であり、$ 4 \%$($ 335/8398 $)しかない場合です。これはかなり低いp値であり、ボックス内の見本市チケットが$ 11 $よりも少ない可能性が高いと結論付けることができます。確かに、あなたはそれらのうちの2つだけを見たことがあり、ボックスには$ 12 $のチケットしか残っていないので、それらの中には9つ未満のショーゴーイングチケットがあると確信できます。サンプルの4分の1だけにショーのチケットが含まれていることを考えると、それは合理的な結論です。

Dimitriy V. Masterov
2016-07-24 07:47:32 UTC
view on stackexchange narkive permalink

この宿題の質問は少し不明確だと思います。

この実験では、20ドルの人口にチラシを配っているようです。結果として$ 5 $から$ 20 $の人々が参加する確率を知りたいと思います。通常、実験にはプラセボを投与する対照群が含まれますが、おそらくこれは誰も知らない新しいバンドであるため、治療チラシがない場合は誰も参加する予定がないという仮定は妥当です。あるいは、主催者がこの研究を本当に気に入ったのかもしれません。 2番目の仮定は、チラシを共有できないため、治療が「伝染性」ではないということです。これはあまり合理的ではありませんが、問題を複雑にしすぎてリラックスできません。いずれにせよ、実験を仮説を検証、反論、または検証するために実行される手順と考える場合、これは法案に適合します。

問題は、人口の摂取率がわからないことです。それを学ぶために、あなたは$ 20 $の母集団からランダムに$ 8 $の受信機をサンプリングし、$ 2 $が行ったことに注意してください。料金は$ 1/4 $のようです。ここで二項検定を実行しても、@ E L Mの回答のように、$ p = 0.25 $というnullを棄却できないことがわかります。

ただし、最終的な目標は、サンプルから20の母集団に外挿することです。これが実験です。 $ 20 $のチラシを配ったときに$ 5 $以上の人が参加する確率は、二項テール関数によって計算できます。これにより、成功の確率が$ 20 $の試行で$ k = 5 $以上の成功を観測する確率が得られます。 1回の試行で$ p = \ frac {1} {4} $です。 Stataでは、これは次のようになります:

 。 display binomialtail(20,5,1 / 4).5851585  

$ 1-Pr(k = 0)-Pr(k = 1)-を引くことにより、第一原理からこれを行うこともできます。 Pr(k = 2)-Pr(k = 3)-Pr(k = 4)$:

  di 1- [binomialp(20,0,1 / 4)+ binomialp(20 、1,1 / 4)+ binomialp(20,2,1 / 4)+ binomialp(20,3,1 / 4)+ binomialp(20,4,1 / 4)]。5851585  

これは、片側二項確率検定と考えることもできます:

 。 bitesti 20 5 1/4
N観測されたk期待されたk推定されたp観測されたp ----------------------------------------- ------------------- 20 5 5 0.25000 0.25000 Pr(k > = 5)= 0.585158(片側検定)Pr(k < = 5)= 0.617173(one -両側検定)Pr(k < = 5またはk> = 6)= 1.000000(両側検定) 

最初の片側検定では、テールアプローチと同じ確率が得られます。 。これはp値でもあります。なぜですか?

仮説検定のp値は、観測された結果$(k = 5)$よりも極端または極端な結果を観測する確率($ H_0 $が真であると仮定して計算)です。対立仮説の方向に極端な意味を持ちます。 p値が小さい場合は、代替案を支持してnullを拒否します。これは、nullが真の場合、極端なもの以上になる可能性が低いためです。 nullは受け入れませんが、データはnullと一致することしかできません。

Rでは、これは次の方法で実行できます。

  > binom.test(5,20,1 / 4、alternative = "greater")正確な二項検定データ:5 20成功数= 5、試行回数= 20、p値= 0.5852対立仮説:真の成功確率は0.2595パーセント信頼区間より大きい:0.1040808 1.0000000サンプル推定:成功確率0.25  


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...