質問:
$ X $と$ \ epsilon $の偏りと分散の分解と独立性
cd98
2015-08-02 20:48:08 UTC
view on stackexchange narkive permalink

この分解のいくつかの派生物を調べたところ、すべて$ E [\ epsilon \ hat {f}] = 0 $が必要だと思います。私が見つけた最も透明なものは、ウィキペディアからのものでしたこちら

便宜上、以下の手順を再現します。データ生成プロセスは$ y = f(x)+ \ epsilon $です。省略形として、$ f = f(x)$とし、$ \ hat {f} = \ hat {f}(x)$を近似モデルとします。

$ \ begin {align} \ mathrm {E} \ big [(y- \ hat {f})^ 2 \ big] & = \ mathrm {E} [y ^ 2 + \ hat {f} ^ 2-2 y \ hat {f}] \ \ & = \ mathrm {E} [y ^ 2] + \ mathrm {E} [\ hat {f} ^ 2]-\ mathrm {E} [2y \ hat {f}] \\ & = \ mathrm {Var } [y] + \ mathrm {E} [y] ^ 2 + \ mathrm {Var} [\ hat {f}] + \ mathrm {E} [\ hat {f}] ^ 2-2f \ mathrm {E} [\ hat {f}] \\ & = \ mathrm {Var} [y] + \ mathrm {Var} [\ hat {f}] +(f- \ mathrm {E} [\ hat {f}])^ 2 \\ & = \ mathrm {Var} [y] + \ mathrm {Var} [\ hat {f}] + \ mathrm {E} [f- \ hat {f}] ^ 2 \\ & = \ sigma ^ 2 + \ mathrm {Var} [\ hat {f}] + \ mathrm {Bias} [\ hat {f}] ^ 2 \ end {align} $

私の質問は、3番目のステップについてです。彼らが使用する場所

$ E [2y \ hat {f}] = 2fE [\ hat {f}] $

彼らが想定しているのは、$ E [\ epsilon \ hat {f}] = 0 $。

$ X $は$ \ epsilon $から独立していると想定しているためですか?この導出を行うためにそれは必要ですか?何かが足りないと感じているのは、とても大きな思い込みのようです。これを必要としない別の分解はありますか?

帽子とチルダを切り替えていますが、同じ意味ですか?
@MatthewDrury:は同じです、申し訳ありません。すでに修正しました。
二 答え:
Matthew Drury
2015-08-02 22:42:57 UTC
view on stackexchange narkive permalink

この主題の最も難しい部分は、何が統合されているかを追跡することであると思います(何に対する期待?)。多くの博覧会はこれを軽視しており、最終結果は非常に混乱する可能性があります。これがこの点に関する統計的学習の要素です

どの量が固定でどれがランダムであるかを明確にする必要があるため、エラー率の推定の議論は混乱する可能性があります

ウィキペディアの説明でそれが少し見られていると思います。

私の好みの派生

詳細な内訳は次のとおりです。このように説明を行うことで、私にとってさまざまな概念が最終的に明らかになりました。それがあなたにも役立つことを願っています。

最初のステップは、 $ x $ span>を条件付け、 $ y $ span>。この部分には前提条件はありません。 $ g $ span>は一般的な関数です

$$ \ begin {align *} ESE(f; x)& = E_Y \ left [\ left(y --g(x)\ right)^ 2 \ mid x \ right] \\ & = E_Y \ left [\ left(y --E [y \ mid x] + E [y \ mid x] -g(x)\ right)^ 2 \ mid x \ right] \\ & = E_Y \ left [\ left(y-E [y \ mid x] \ right)^ 2 \ mid x \ right] + E_Y \ left [\ left(E [y \ mid x] -g(x)\ right)^ 2 \ mid x \ right] \\ & \ quad + 2 E_Y \ left [\ left(y-E [y \ mid x] \ right)\ left(E [y \ mid x] -g(x)\ right)\ mid x \ right] \\\ end {align *} $$ span>

ここでの秘訣は、合計の中央に $ E [y \ mid x] $ span>を導入することです。この期待値は $ y $ span>(このコンテキストで意味がある唯一のもの)を超えているため、 $ E [y \ mid x] $ span>は、 $ g $ span>と同じ、 $ x $ span>の関数です。

これで、

$$ 2 E_Y \ left [\ left(y --E [y \ mid x] \右)\ left(E [y \ mid x] -g(x)\ right)\ mid x \ right] $$ span>

係数は $ y $ span>に依存せず、 first 係数は予想どおりゼロであるため、この項は終了し、残ります

$$ \ begin {align *} ESE(f; x)= E_Y \ left [\ left(y-E [y \ mid x] \ right)^ 2 \ mid x \ right] + E_Y \ left [\ left(E [y \ mid x] -g(x)\ right)^ 2 \ mid x \ right] \\ \ end {align *} $$ span >

最初の項は、分類器の還元不可能なエラーです。上記の $ \ sigma ^ 2 $ span>です。

最初の項の被積分関数のみが注目に値します。この結果は $ y $ span>に依存しているため、 $ E_Y $ span>は第2項から削除される可能性があります。

偏りと分散の内訳を取得するために、 $ x $ span>のサンプリング分布に対する期待値を紹介します。つまり、 $ g $ span>自体を確率変数と見なします。学習アルゴリズムをトレーニングすると、データセット $ D $ span>から関数 $ g $ span>に移動します。したがって、確率変数として $ g $ span>を使用して、このサンプリング分布に期待をかけることは理にかなっています。 $ g $ span>のこの依存性を強調するために、 $ g(x、D)$ span>を記述します。トレーニングデータセット $ D $ span>。この表記により、上記の最終方程式の2番目の項は次のようになります。

$$ \ left [\ left(E [y \ mid x] -g(x、 D)\ right)^ 2 \ mid x \ right] $$ span>

$ D $ span>を超えるすべてのことを期待して、 $ g(x、D)$ span>を期待して、 $ Eg(x)$ span>を記述します。このサンプリング分布に、これをさらに分解することができます

$$ \ begin {align *} & E_ {D} \ left [\ left(E [y \ mid x] -g(x、D)\ right)^ 2 \ mid x \ right] \\ & = E_ {D} \ left [\ left(E [y \ mid x] -Eg(x)+ Eg (x)-g(x、D)\ right)^ 2 \ mid x \ right] \\ & = E_ {D} \ left [\ left(E [y \ mid x] -Eg(x)\ right) ^ 2 \ mid x \ right] + E_ {D} \ left [\ left(Eg(x)-g(x、D)\ right)^ 2 \ mid x \ right] \\ & \ quad + 2 E_ { D} \ left [\ left(E [y \ mid x] -Eg(x)\ right)\ left(Eg(x)-g(x、D)\右)\ mid x \ right] \\ \ end {align *} $$ span>

同じトリックが適用されます。この内訳では、 first 係数は $ D $ span>に依存せず、 second は期待値がゼロです。そのため、クロスタームは消滅します。したがって、

$$ \ begin {align *} E_ {D} \ left [\ left(E [y \ mid x] -g(x、D) \ right)^ 2 \ mid x \ right] = E_ {D} \ left [\ left(E [y \ mid x] -Eg(x)\ right)^ 2 \ mid x \ right] + E_ {D} \ left [\ left(Ef(x)-g(x、D)\ right)^ 2 \ mid x \ right] \ end {align *} $$ span>

第1項これがバイアスで、2番目が分散です。

もちろん、 $ x $ span>はずっとなので、実際に到達したのはポイントごとの分解です。全体のエラーの通常の完全な分解を取得するには、 $ x $ span>も統合するだけです。

方法これはウィキペディアの内訳に関連しています

ウィキペディアは私の $ f(x)$ span>と書いています> $ E [y \ mid x] $ span>。これを明確にするために、説明がわかりやすくなると思います。ウィキペディアは

$$ y = f(x)+ \ epsilon $$ span>

$ E(\ epsilon)= 0 $ span>。実際に意味するのは、 $ E(\ epsilon \ mid x)= 0 $ span>です。これは私の説明では暗黙のうちにあります。全体を通して $ E [y \ mid x] $ span>を使用するだけです。

独立性の仮定は必要ないことに注意してください。バイアス分散分解。ウィキペディアの内容

したがって、 $ \ epsilon $ span>と $ \ hat {f } $ span>は独立しています

実際の意味は、 $ \ hat {f} $ span>は、 $ xで条件付けするときに定数と見なすことができるということです。 $ span>なので、期待の前に取り出すことができます。

非常に詳細な説明をありがとう。今はもっとはっきりしていると思います。ただし、疑問が1つあります。$ \ hat {f} $は$ x $と$ y $の両方の関数ではありませんか?たとえば、OLSによって$ \ hat {f} $を見積もります。この場合、$ \ hat {f} $の係数は$ y $と$ x $の両方の関数になります。
それは正解です。$ D $を使用して、いくつかの同時分布からサンプリングされた$(x、y)$ペアのデータセットを意味します。学習アルゴリズムの結果は$ x $の関数になるため、少し混乱します。
これが私の問題です。導出の最初から近似$ g(x、D)$を使用する場合、それをどのように使用できるかわかりません。「2番目の要素は$ y $に依存しません」クロスタームがゼロであることを取得します。(遅い場合はお詫びします。努力することを約束します!)
OK、私は(ほぼ)それを理解したと思います:あなたは$ \ hat {f} $をトレーニングサンプルに適合させますが、w.r.t。新しいポイント$ x $(テストサンプル)、この$ \ hat {f} $は$ x $の関数になります。これが$ \ epsilon $の$ i.i.d. $仮定を必要とするかどうかはわかりません。いずれにせよ、ウィキペディアの記事は誤解を招くように聞こえるので、修正することをお勧めします。(私が何について話しているのか確信が持てれば)
はい!それは正しいと思います。
2番目の等式の後は、-[y | x]ではなく-E [y | x]になりますよね?
Peter McHale
2017-06-29 10:45:47 UTC
view on stackexchange narkive permalink

これが偏りと分散の分解の導出です。ここでは、 $ X $ span>と $ \ epsilon $ span>。

真のモデル

ターゲット変数 $ Y $ span>と機能変数 $ X $ span>が $ Y = f(X)+ \ epsilon $ span>、ここで $ X $ span>および $ \ epsilon $ span>は独立したランダム変数であり、 $ \ epsilon $ span>の期待値はゼロ、 $ E [\ epsilon] = 0 $ span>。

この数学的関係を使用して、データセット $ \ cal D $ span>を生成できます。データセットは常に有限サイズであるため、 $ \ cal D $ span>を確率変数と考えることができます。その実現は次の形式を取ります。 $ d = \ {(x_1、y_1)、\ ldots、(x_m、y_m)\} $ span>、ここで $ x_i $ span>と $ y_i $ span>は、 $ X $ span>と $ Y $ span>。

推定モデル

機械学習では、 $ \ cal D $ span>の特定の実現 $ d $ span>を使用して推定値をトレーニングします関数 $ f(x)$ span>の、仮説 $ h_d(x)$ span>と呼ばれます。下付き文字 $ d $ span>は、仮説がトレーニングデータセットによって異なるランダム関数であることを示しています。

推定モデルのテストエラー

特定のトレーニングセット $ d $ span>の仮説を学習したら、次に $ y $ span>が見えないテスト値 $ x $ span>。線形回帰では、そのテストエラーは、テストデータセット( $ \ cal D $ span>の分布からも取得)を取得し、 $(Y --h_d)^ 2 $ span>データセット全体。テストデータセットのサイズが十分に大きい場合、この平均は $ E_ {X、\ epsilon} [(Y(X、\ epsilon)-h_ {d}( X))^ 2] $ span>。トレーニングデータセット $ d $ span>が変化すると、テストエラーも変化します。言い換えると、テストエラーは確率変数であり、すべてのトレーニングセットの平均は次の式で与えられます。

\ begin {equation *} \ text {予想されるテストエラー} = E _ {\ cal D} \ left [E_ {X、\ epsilon} \ left [(Y(X、\ epsilon)-h _ {\ cal D}(X))^ 2 \ right ] \正しい]。 \ end {equation *} span>

次のセクションでは、このエラーが3つのソースからどのように発生するかを示します。バイアスは、仮説の平均が $からどれだけ逸脱しているかを定量化します。 f $ span>;トレーニングデータセット間で仮説がどの程度異なるかを定量化する分散用語。そして、既約エラーは、予測する能力が常にノイズ $ \ epsilon $ span>によって制限されるという事実を説明しています。

有用な統合順序の確立

期待されるテストエラーを分析的に計算するために、2つのステップで期待演算子を書き直します。最初のステップはそれを認識することです $ E_ {X、\ epsilon} [\ ldots] = E_X \ left [E_ \ epsilon [\ ldots] \ right]、$ span> since $ X $ span>と $ E $ span>は独立しています。 2番目のステップは、フビニの定理を使用して、 $ X $ span>と $ D $ span>の順序を逆にすることです。統合されました。最終的な結果は、予想されるテストエラーが

によって与えられることです。

$$ \ text {予想されるテストエラー} = E_X \ left [E _ {\ cal D} \ left [E_ \ epsilon \ left [ (Y-h)^ 2 \ right] \ right] \ right]、$$ span>

$ Y $ span>と $ h $ span>の $ X $ span>、 $ \ epsilon $ span>、 $ \ cal D $ スパン>明確にするために。

既約および既約エラー

$ X $ span>と $ \ cal D $ span>の値を修正します(したがって、 $ f $ span>および $ h $ span>)、予想されるテストエラーの最も内側の積分を計算します。

\ begin {align *} E_ \ epsilon \ left [(Y --h)^ 2 \ right] & = E_ \ epsilon \ left [(f + \ epsilon --h)^ 2 \ right] \\ & = E_ \ epsilon \ left [(f-h)^ 2 + \ epsilon ^ 2 + 2 \ epsilon(f-h)\ right] \\ & =(f-h)^ 2 + E_ \ epsilon \ left [\ epsilon ^ 2 \ right] + 0 \\ & =(f-h)^ 2 + Var_ \ epsilon \ left [\ epsilon \ right]。 \ end {align *} span>

最後の項は、その後の $ X $ span>と $ D $ span>の平均によって変更されません。これは、予想されるテストエラーに対する既約エラーの寄与を表します。

第1期の平均、 $ E_X \ left [E _ {\ cal D} \ left [\ left(f-h \ right)^ 2 \ right] \ right] $ span>、 削減可能なエラーと呼ばれることもあります。

削減可能なエラーを「バイアス」と「分散」に分解する

$ \ cal D $ span>が固定されているという制約を緩和します(ただし、 $ X $ span>は固定されています)、削減可能なエラーの最も内側の積分を計算します:

\ begin {align *} E _ {\ cal D} \ left [(f-h)^ 2 \ right] & = E _ {\ cal D} \ left [f ^ 2 + h ^ 2-2fh \ right] \\ & = f ^ 2 + E _ {\ cal D} \ left [h ^ 2 \ right] -2f E _ {\ cal D} \ left [h \ right] \\ \ end {align *} span>

$ E _ {\ cal D} \ left [h ^ 2 \ right] $ span>を加算および減算し、項を並べ替えると、右側を書くことができます。上記のように

$$ \ left(f --E _ {\ cal D} \ left [h \ right] \ right)^ 2 + Var _ {\ cal D} \ left [h \ right]。 $$ span>

$ X $ span>を平均し、既約エラーを復元すると、最終的に次のようになります。

$$ \ boxed { \ text {予想されるテストエラー} = E_X \ left [\ left(f --E _ {\ cal D} \ left [h \ right] \ right)^ 2 \ right] + E_X \ left [Var _ {\ cal D} \ left [h \ right] \ right] + Var_ \ epsilon \ left [\ epsilon \ right]。 } $$ span>

最初の項はバイアスと呼ばれ、2番目の項は分散と呼ばれます。

予想されるテストエラーの分散成分は、トレーニングデータセットの有限サイズの結果です。トレーニングセットに含まれるデータポイントの数が無限であるという制限では、トレーニングセット間で $ h $ span>に変動はなく、分散項はなくなります。言い換えると、トレーニングセットのサイズが大きい場合、予想されるテストエラーは、バイアスのみが原因であると予想されます(還元不可能なエラーが無視できると仮定)。

詳細​​ h2>

これらの概念などの優れた説明は、ここにあります。

こんにちはピーター。このサイトは、別のソースを指しているだけの回答を思いとどまらせていると思います(リンクが壊れている可能性があり、回答がサイト内で検索できないため)。ここで回答をコピーして貼り付けていただけますか?
@cd98,説明をコピーして回答に貼り付けました。
ピーターありがとう!あなたの博覧会は本当に素晴らしいです。ただし、Xと$ \ epsilon $の条件付き独立性だけで解決できると思います。$ E [\ epsilon h(x)] = 0 $の場合にのみ使用すると思いますよね?$ E [\ epsilon h(x)] = E [E [\ epsilon h(x)|X]] = E [h(x)E [\ epsilon |X]] = E [h(x)0] $(LIEによる最初のステップ、条件付き独立性による3番目のステップ)
(+1)これは、この分解を正しく理解する方法を厳密に説明しているため、非常に良い答えです(最後のリンクもあります)。ほとんどの文書は、派生を当然のことと見なすか、数学的な厳密さを見落としがちです(ESLでも)
マイナーなタイプミス:「XとEは独立しているため」、おそらくEの代わりに$ \ epsilon $と言いたいでしょう。
これは、インターネット全体のずさんな派生物と比較して素晴らしい答えです。人々が平均している変数を忘れているのを見るのはイライラします。
@bdforbesに感謝します。私はまったく同じ欲求不満を経験し、そもそもこの答えを書くように促しました。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...