質問:
K分割交差検定予測誤差の数式?
Biostat
2011-10-23 05:04:34 UTC
view on stackexchange narkive permalink

K分割交差検定の理論的観点、特にk分割CV予測誤差の数式について詳しく説明できる人はいますか?

更新:いずれか1つでしょうか242ページのの最新版(2011年2月)に書かれた式を理解するのに役立ちます。enter image description here

方法だけが必要な場合は、すでに回答済みです。たとえば、http://stats.stackexchange.com/questions/1826/cross-validation-in-plain-english/1828#1828
@mbq:それがどのように機能するかは知っていますが、この予測誤差の数式が必要です。最小角度回帰(Rパッケージ 'lars')を適用しました。したがって、「lars」パッケージのR関数(cv.lars)のこの交差検定手順の数式を探しています。
さて、今私は混乱しています-この場合の「数式」とはどういう意味ですか?
K-Fold交差検定予測誤差を数学形式で書くにはどうすればよいですか?
三 答え:
Dikran Marsupial
2011-10-24 01:22:46 UTC
view on stackexchange narkive permalink

最小二乗回帰を含む多くのモデルについて、閉じた形式でリーブワンアウト交差検定誤差を計算するための式がありますが、私が知る限り、k分割交差の一般的な式はありません。 -検証(または少なくとも可能かもしれませんが、計算上の利点は小さすぎて価値がありません)。

この本の式は、相互検証エラーを言っているだけで、あまり多くを語っていません。は、データのさまざまなサブセットでトレーニングされたモデルを使用して評価された損失関数(L)の平均です。上付き文字$-\ kappa(i)$は、「モデル$ f $は、パターン$ i $と同じデータセットのパーティションでトレーニングパターンなしでトレーニングされる」ことを意味します。正式な数学表記で書くと曖昧さが少なくなることもありますが、必ずしもテキストよりも理解しやすいとは限りません。これはそのような場合の1つだと思います。

Frank Harrell
2011-10-23 19:05:35 UTC
view on stackexchange narkive permalink

人々が相互検証を行う理由は、非常に制限された条件下を除いて、同じことを正確に達成するための数式がないためです。また、ほとんどの場合、k分割交差検定には十分な精度がないため、モデルのパフォーマンスを正確かつ正確に推定するには、k分割交差検定を50〜100回繰り返す(およびパフォーマンスメトリックを平均する)必要があることに注意してください。 。そのための数式は確かにありません。

Dimitrios Athanasakis
2011-10-23 05:31:13 UTC
view on stackexchange narkive permalink

真実は、相互検証は単にモデル選択のヒューリスティックであるということです。あなたが本当に探しているのがあなたの一般化予測の理論的に裏付けられた推定値を取得することである場合、相互検証はそれの良い推定値を与えるだけですが、保証はありません。そのためのより適切な方法は、PAC-Bayes設定などの理論的フレームワークを学習することです。ただし、これらのフレームワークには独自の欠点があります。これは主に、境界が緩い/一般的である傾向があるという事実に関連しています(たとえば、100%以上間違った予測をしないことを示す境界)。

ただし、相互検証ヒューリスティックを形式化しようとする人もいます。ジョン・ラングフォードからのこの投稿の参考文献をご覧になることをお勧めします。 http://hunch.net/?p=29

実は、この予測誤差の数式を探しています。最小角度回帰のCVを経験したことがありますか?これは、Rパッケージ「lars」に実装されています。 CVがモデル選択でどのように機能するか、つまり、予測誤差が最小の予測子を常にできるだけ多く選択する必要があるということですか?


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...