質問:
母集団の影響が正確にゼロでない限り、十分に大きなサンプルで統計が有意になるのはなぜですか?
Tim
2013-05-18 02:38:17 UTC
view on stackexchange narkive permalink

Wikipedia

サンプルサイズが十分に大きい場合、母集団効果サイズが正確にゼロでない限り、統計的比較では常に有意差が示されます。

たとえば、サンプルサイズが1000の場合、サンプルのピアソン相関係数0.1は統計的に非常に有意です。この分析から有意なp値のみを報告すると、相関が0.1の場合に誤解を招く可能性があります。は小さすぎて特定のアプリケーションに関心がありません。

「サンプルサイズが十分に大きい場合、母集団の効果サイズが次の場合を除いて、統計的比較では常に有意差が示されます。正確にゼロ」?

ありがとうございます!

明快さに関心のある編集者は、最初のステートメント(「差...でない限り」)の暗黙の二重否定を、「母集団の影響がゼロ以外の場合、十分に大きなサンプルで検出できる」のように、より積極的に言い換えることで削除します。最初のステートメントは*母集団*効果を参照していますが、例は*サンプルで観察された効果*を参照しているため、残りは混乱します。より良い例は、0.1の*母集団*相関係数が有意に現れることを示唆します。十分に大きいサンプルでは正の相関があります(ただし、小さいサンプルではそうではない場合があります)。
[こちら](http://stats.stackexchange.com/questions/2516/are-large-data-sets-inappropriate-for-hypothesis-testing/)も参照してください。
二 答え:
COOLSerdash
2013-05-18 02:42:42 UTC
view on stackexchange narkive permalink

サンプルサイズの増加に伴い、最小の効果サイズでも検出する統計的検出力(以下を参照)も増加しており、これらの小さな効果サイズは、統計的に有意であることがわかります。まったく関連性。それをさらに説明するための思考実験と同じように、すべての関心のある人々を研究に含めることができたらどうでしょうか。その完全な「サンプル」から計算されたすべての統計は、エラーなしで母集団の真の値を反映します。したがって、母集団の効果量が正確に0の場合、そしてその場合にのみ、それらは正確に0であることがわかります。それ以外の場合は、いくつかの小さな違いや相関関係、または効果量が何であれ、見つかります。

この投稿は、その文脈でも興味深いかもしれません。

追加

Harvey Motulskyで、統計的検出力のこの素晴らしい類似性を見つけました。の本 Intuitive Biostatistics:A Nonmathematical Guide to Statistics Thinking(類推は元々 John Hartungによって開発されました):

あなたがハンマーなどの道具を取り出すために、子供を地下室に送ります。子供が戻ってきて、「ハンマーはありません」と言います。あなたの結論は何ですか?ハンマーは地下室にありますか? 100%確実ではないので、答えは確率でなければなりません。あなたが本当に答えたい質問は、「ハンマーが地下室にある確率はどれくらいですか?」です。この質問に答えるには、事前確率、つまりベイズ統計が必要です。しかし、別の質問をすることもできます。「ハンマーが本当に地下室にあるかどうか、あなたの子供がそれを見つけたであろう可能性は何ですか?」答えが異なることはすぐに明らかです:

  • お子さんはどのくらい長く探していましたか?これはサンプルサイズに似ています。子供が長く見続けるほど、ハンマーを見つける可能性が高くなります。そして重要なのは、ハンマーが本当に小さい場合でも、子供が何時間も見ていた場合、その小さいサイズにもかかわらず、ハンマーを見つける可能性が高いということです。これは研究にも当てはまります。サンプルサイズが大きいほど、検出できる効果サイズ(「ハンマー」)は小さくなります。
  • ハンマーの大きさはどれくらいですか?これは、効果量に似ています。スレッジハンマーは、小さなハンマーよりも簡単に(つまり、より速く)見つけることができます。効果量が大きい場合、研究はより強力になります。
  • 地下室はどのくらい乱雑ですか?散らかった地下室よりも、整頓された地下室でハンマーを見つける方が簡単です。これは、実験的なばらつき(変動)に類似しています。データがほとんど変動を示さない場合、調査はより強力になります。

必要に応じて、子供は苦労します。散らかった地下室で短時間で小さなハンマーを見つけてください。一方、子供は、整頓された地下室でハンマーを探すのに長い時間がかかるかどうかを見つける可能性が高くなります(子供に何かを探す前に、地下室を掃除してください!)。

何かが「常に間違っている」など、極端なステートメントや普遍的なステートメントの発行には注意するのが賢明です。そのようなステートメントは通常(常に?:-)正しくないからです。この場合、$ H_0 $は単純であると暗黙のうちに想定しているように見えます。帰無仮説はしばしば真実であり、裏付けとなる豊富で説得力のある証拠があります。しかし、質問が* false *の場合に関係する場合、会話はどのようにしてnullがtrueであるかどうかに変わりましたか?
もちろん、@whuberはその通りです。帰無仮説については考えていません。それに応じて回答を編集します(最初の部分を削除します)。
うん、それは普遍的な声明の問題です:あなたの楽しみを台無しにするためだけに反例と一緒に来るいくつかの自慢者が常にいます:-)。
@whuber,ははは、そのように思われます:)一方、私は普遍的なステートメントを発明しませんでした。一部の[数学者](http://www.dur.ac.uk/r.j.coe/resmeths/critsig.htm)でさえ彼らのウェブサイトにそれを持っています。一部の[統計書](http://books.google.ch/books?id=VtU3-y7LaLYC&pg=PA53&lpg=PA53&dq=null+hypothesis+is+always+false&source=bl&ots=cyur4yimby&sig=iHN2n_8PWbepEQmHXuOArXJe = 0CDoQ6AEwAg)。
Glen_b
2013-05-18 04:28:21 UTC
view on stackexchange narkive permalink

具体的には、平均の1標本検定を想像してください(大規模な標本、母平均と分散が存在するもので、議論を少し簡単にします)。

真の平均と仮定されたサンプルの平均の差をゼロ以外の$ \ delta $とします。次に、標本平均から仮定された平均を引いた標本分布は、それ自体が平均$ \ delta $を持ち、分散は$ 1 / n $に比例して縮小します。

したがって、$ n $が十分に大きくなると、検定統計量が棄却域外になる確率は低くなります。

実際、信頼区間に基づく検定の観点から考えると役立つ場合があります。母平均の信頼区間は、幅が$ \ frac {1} {\ sqrt n} $として縮小します。 $ n $が十分に大きくなると、一般的なCIは母平均にますます近づきます(もちろん、それはまだ確率変数です)が、$ \ delta $は一定のままです。

最終的に、信頼区間の半値幅(「許容誤差」)は通常$ \ delta $よりもはるかに小さくなります-仮定された平均を「はるかに」にします-ますます多くの半値幅典型的なCI-実際の母集団の平均から(1に近づく棄却確率になります)

いくつかの基本的な条件が満たされている限り、ポイントヌルのほぼすべての仮説検定に対して同様の引数を作成できます。 (一貫性がない場合、たとえば、引数は失敗します)。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...