質問:
サンプルの相関を計算するときに、なぜ$ n-1 $で割るのですか?
user1205901 - Reinstate Monica
2015-08-11 03:39:20 UTC
view on stackexchange narkive permalink

サンプル分散を計算するときに $ n-1 $ span>で除算する理由、つまり $ n $ span>低すぎるようにバイアスされた人口分散の推定値があります。

Buglear(2013、p。57)は、ピアソン相関について次のように述べています。

サンプルの標準偏差を計算するときと同じ理由で、 $ n-1 $ span>で除算します。これにより、同等の母集団のより良い推定値が得られます。

[Buglear、J。(2013)。 実用的な統計:ビジネスプロジェクトのハンドブック。 Kogan Page Publishers]

しかし、これが相関にも当てはまる理由がわかりません。 $ n $ span>で割ると、母集団の相関係数が過小評価されるのはなぜですか?

ピアソン相関を計算するときは、サンプルサイズに関係なく、分子と分母の項を常に$ 17 $で割ります。両方を$ n-1 $で割るのと同じように機能し、覚えるのが簡単です:-)。
1 回答:
ttnphns
2015-08-11 05:12:09 UTC
view on stackexchange narkive permalink

相関を計算するときにベッセル補正「-1」を$ n $にする必要がないので、引用された部分は間違っていると思います。まず、サンプル(統計)と母集団(パラメーター推定値)の両方を説明するために、経験的な$ r $またはサンプルの$ r $を計算して使用することに注意してください。これは、通常、統計と推定を区別するためにベッセル補正を導入する分散係数および共分散係数とは異なります。

したがって、経験的な$ r $を検討してください。 中心変数のコサイン類似性です($ X $と$ Y $は両方とも中心でした):$ r = \ frac {\ sum {X_cY_c}} {\ sqrt {\ sum X_c ^ 2 \ sum Y_c ^ 2}} $。この式には$ n $も$ n-1 $もまったく含まれていないことに注意してください。$ r $を取得するためにサンプルサイズを知る必要はありません。

一方、同じ$ r $は、 z標準化変数の共分散でもあります($ X $と$ Y $は両方とも中央に配置され、それぞれの標準偏差$ \ sigma_x $と$で除算されました。 \ sigma_y $):$ r = \ frac {\ sum {X_zY_z}} {n-1} $。あなたの質問では、あなたはこの公式について話していると思います。推定値の偏りをなくすために共分散の式で呼び出される分母のベッセル補正は、逆説的に$ r $を計算するこの特定の式で、偏りのない補正を「元に戻す」のに役立ちます。実際、$ \ sigma_x ^ 2 $と$ \ sigma_y ^ 2 $は、分母$ n-1 $、ベッセル補正を使用して計算されたことを思い出してください。後者の$ r $の式で、$ X_z $と$ Y_z $をほどき、それらの「n-1」ベースの標準偏差を使用して$ X_c $と$ Y_c $からどのように計算されたかを示します。すべての「n-1」項は式から互いに打ち消し合い、最後に上記の余弦式を使用します。 $ r $の「共分散式」の「n-1」は、使用されていた古い「n-1」を取り除くためだけに必要でした。

分母$ n $($ n-1 $ではなく)に基づいてこれらの$ \ sigma_x ^ 2 $と$ \ sigma_y ^ 2 $を計算する場合、同じ相関値の式は$ r =になります。 \ frac {\ sum {X_zY_z}} {n} $。ここで、$ n $は、同様に、使用されていた古い「n」を取り除くのに役立ちます。

したがって、分散の式で同じ分母をキャンセルするには、分母に$ n-1 $が必要でした。または、分散が偏った推定値として計算された場合、同じ理由で$ n $が必要でした。経験的$ r $自体は、サンプルサイズの情報に基づいていません。

経験的$ r $よりも$ \ rho $のより良い母集団推定の探求については、修正が必要ですが、 さまざまなアプローチとさまざまな代替式が存在し、それらはさまざまな修正を使用しますが、通常は$ n-1 $ではありません。

サンプル相関係数の最も標準的な定義は、サンプルの共分散を2つのサンプルの標準偏差の積で割ったものです。あなたはいくつかの同等の公式を与えましたが、正確にはこれではありません。もちろん、$ n-1 $(または$ n $)の係数は分母と分母の両方にあるため、正しく言うとキャンセルされます。
@amoeba,は思いやりのあるコメントをありがとうございます。現在の回答では、「標準」式$ r = cov / \ sigma_x \ sigma_y $について具体的に説明していませんでした。また、(明らかに)置換後にコサインの式に取り締まるということです。別の目的がありました。
ところで、私は「サンプル共分散」や「サンプル相関」という誤解を招くような言葉は好きではなく、通常は使用しません。「不偏共分散推定」と「経験的相関値」と言いたいです。
用語についてのあなたのコメントを理解できません。私が理解している限り、「サンプル共分散」(バイアスまたはバイアスがない、または他の方法で推定できる)は、「母共分散」とは反対です。したがって、「標本共分散」は「母共分散」の推定値です。なぜこれは誤解を招くのですか?
これ(df = "n-1"を使用)は、「このサンプルの共分散」として_理解できる_ため、誤解を招く可能性がありますが、実際には、この統計は、このサンプルによって与えられる「母集団の共分散の偏りのない_推定値」です。サンプル統計のビューは2つあります。サンプル全体を特徴付けるか、母集団全体の推定値を提供します。df = nに基づく(共)分散は、「サンプル」と「母集団の推定値」の両方にラベルを付けることができます。しかし、df = n-1にあるものは、「サンプル」とラベル付けすることはほとんどできません。ベッセル補正は、特に「推定」を行うために導入されました。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...