良いRMSE値は何ですか？

質問:

良いRMSE値は何ですか？

Shishir Pandey

2013-04-17 02:03:02 UTC

view on stackexchange narkive permalink

データセットがあるとします。私はそれにいくつかの回帰を実行します。別のテストデータセットがあります。このセットで回帰をテストします。テストデータでRMSEを見つけます。学習アルゴリズムがうまく機能しているとどのように結論付ける必要がありますか。つまり、取得したRMSEがデータに適していると結論付けるために、データのどのプロパティを確認する必要があるかを意味します。

私は6年前にこの質問をしたので、新しい質問（2か月前に尋ねた）は重複としてマークする必要があります。

五答え:

R.Astur

2013-04-17 07:01:43 UTC

view on stackexchange narkive permalink

そこには2つの異なるタイプの質問があると思います。 1つは、タイトルで尋ねることです。「適切なRMSE値は何ですか？」もう1つは、RMSEを使用してモデルを異なるデータセットと比較する方法です。

最初の、つまりタイトルの質問では、RMSEが従属変数（DV）と同じ単位を持っていることを思い出してください。）。これは、絶対的な良いしきい値または悪いしきい値がないことを意味しますが、DVに基づいて定義できます。 0から1000の範囲のデータムの場合、0.7のRMSEは小さいですが、範囲が0から1になると、それ以上小さくなりません。ただし、RMSEは小さいほど良いですが、研究分野でDVに何が期待されるかを知ることで、RMSEのレベルについて理論的な主張をすることができます。RMSEはいつでも正規化できることに注意してください。

2番目の質問、つまりRMSEを使用して異なるデータセットを持つ2つのモデルを比較する場合、DVが両方のモデルで同じであれば、それを行うことができます。ここでは、小さいほど良いですが、これらのRMSE間のわずかな違いは、関連性がないか、重要ではない可能性があることに注意してください。

RMSEをいつでも正規化できるとはどういう意味ですか？ DV範囲とRMSEについてのあなたのポイントがわかります。しかし、DVの標準偏差と平均の観点から何らかの方法で定量化できますか？

RMSE（NRMSE）を正規化すると、RMSEをスケールフリーにするのに役立つ場合があります。たとえば、パーセンテージで変換すると、RMSE /（max（DV）-min（DV））

その正規化は実際にはパーセンテージを生成せず（たとえば、1は特に何も意味しません）、他の形式の正規化よりも多かれ少なかれ有効ではありません。それはそのデータの分布に依存します。私にとって、平均のRMSEで正規化する方が理にかなっています。これは、「考えられる最も愚かなモデルをどのように改善するか」というようなものです。

DVはYと同じ意味ですか？

@HammanSamuel DVは従属変数を意味し、応答変数と呼ぶこともできます。従属変数には、任意の名前または表記を付けることができます。従属変数を `Y`と呼ぶと、そうです、DVは` Y`と同じ意味です。従属変数を `FluffyCats`と呼んだ場合、いいえ、DVは` Y`と同じ意味ではありません。

Eric Peterson

2013-04-17 04:38:22 UTC

view on stackexchange narkive permalink

優れたモデルを構築した場合、トレーニングとテストセットのRMSEは非常に似ているはずです。テストセットのRMSEがトレーニングセットのRMSEよりもはるかに高い場合は、データが大幅に適合しすぎている可能性があります。つまり、サンプルで十分にテストするモデルを作成しましたが、テストしたときの予測値はほとんどありません。サンプルから。

トレーニングとテストの両方のRMSE値は類似しているが、（ある意味で）悪い可能性があります。では、RMSE値が、アルゴリズムが何かを学習したことを本当に示唆している場合、データプロパティに基づいてどのように把握するのでしょうか。

確かに、それらは似ている可能性がありますが、両方とも悪いです。モデルを構築するときは、常にエラーを最小限に抑えようとしています。過剰適合していないからといって、優れたモデルを構築したとは限りません。新しいデータに対して一貫して機能するモデルを構築しただけです。予測子のさまざまな組み合わせ、またはさまざまな交互作用項または2次方程式を使用してみてください。 RMSEが大幅に低下し、サンプルから十分にテストされた場合、古いモデルは新しいモデルよりも劣っていました。それは確かに正確な科学ではありません。

モデルが過不足ではないことがわかっているが、モデルのRMSEが適切かどうかわからない場合、これを決定するためにどのメトリックを使用しますか？RMSEをターゲット変数の標準偏差/分散と比較しますか？

FatihAkici

2017-02-19 13:18:55 UTC

view on stackexchange narkive permalink

これは古いスレッドですが、私の答えが同じ質問への答えを探している人に役立つことを願っています。

時系列分析について話すとき、ほとんどの場合、ARIMAモデル（およびそのバリアント）の研究を意味します。したがって、私は私の答えで同じことを仮定することから始めます。

まず、以前のコメンターであるR. Asturが説明しているように、RMSEはスケールに依存する、つまり従属変数に依存するため、優れたRMSEなどはありません。したがって、ユニバーサル番号を優れたRMSEとして主張することはできません。

MAPEやMASEなどのスケールフリーの適合性を選択したとしても、良好であるというしきい値を主張することはできません。これは間違ったアプローチです。「私のMAPEはそんなものなので、私のフィット感/予測は良い」とは言えません。あなたがあなたの問題に取り組むべきだと私が信じる方法は次のとおりです。最初に、Rのarima（）関数出力をループするなどのロジックを使用して、いくつかの「可能な限り最良の」モデルを見つけ、最小のRMSE、MAPE、またはMASEに基づいて最良のn個の推定モデルを選択します。私たちは特定のシリーズについて話しているので、普遍的な主張をしようとはしていないので、これらの手段のいずれかを選ぶことができます。もちろん、残差診断を行う必要があり、最良のモデルが正常に動作するACFプロットでホワイトノイズ残差を生成することを確認する必要があります。いくつかの適切な候補ができたので、各モデルのサンプル外MAPEをテストし、サンプル外MAPEが最適なモデルを選択します。

結果として得られるモデルは、次の意味で最高のモデルです。

低誤差測定とWN残差に関連して、サンプル内に適切に適合します。
また、サンプル外の予測精度を最大限に高めることで、過剰適合を回避します。

ここで重要な点の1つは、従属変数または残余項の十分なラグを含めることで、ARIMA（またはそのバリアント）の時系列を推定できることです。ただし、その適合した「最良の」モデルは、適合しすぎて、サンプル外の精度が劇的に低くなる可能性があります。つまり、私の箇条書き1を満たしますが、2は満たしません。

その場合、あなたがする必要があるのは：

外因性の説明変数を追加して、ARIMAXに進みます。
内因性の説明変数を追加し、VAR / VECMに進みます
または、アプローチを完全に非線形機械学習モデルに変更し、相互検証アプローチを使用してそれらを時系列に適合させます。たとえば、ニューラルネットワークやランダムフォレストを時系列に適合させます。そして、サンプル内とサンプル外のパフォーマンス比較を繰り返します。これは時系列へのトレンドアプローチであり、私が見た論文は、機械学習モデルの優れた（サンプル外の）予測パフォーマンスを称賛しています。

これがお役に立てば幸いです。

KPavan Kumar

2017-07-04 23:57:40 UTC

view on stackexchange narkive permalink

RMSEの特定のしきい値を修正することはできません。テストデータセットとトレーニングデータセットの両方のRMSEの比較を確認する必要があります。モデルが適切であれば、テストデータのRMSEはデータセットのトレーニングと非常によく似ています。それ以外の場合は、以下の条件が満たされました。

テストのRMSE>トレインのRMSE =>データの過剰適合。
テストのRMSE<トレインのRMSE =>データのフィッティング中。

GivenX

2019-06-03 15:56:57 UTC

view on stackexchange narkive permalink

個人的には、RMSE /標準偏差アプローチが好きです。範囲は誤解を招く可能性があり、偏った分布または外れ値が存在する可能性がありますが、標準偏差がこれを処理します。同様に、RMSE /平均は完全に間違っています-平均がゼロの場合はどうなりますか？ただし、これは、適切なモデルがあるかどうかを判断するのに役立ちません。この課題は、2項分類を使用して、「私のGiniが80％優れているか」を尋ねるのと似ています。場合によります。おそらく、追加のチューニングや機能エンジニアリングを行うことで、90％のジニ係数を与える（そしてテストサンプルに対して検証する）より良いモデルを構築できたはずです。また、ユースケースと業界によっても異なります。行動クレジットスコアを作成している場合、80％のジニ係数は「かなり良い」です。ただし、新しいアプリケーションのクレジットスコア（本質的にアクセスできるデータが少ない）を開発している場合は、60％のジニ係数がかなり適しています。モデルのRMSE / std dev "score"が良いかどうかということになると、これを適用し、さまざまなユースケースから学ぶことによって、独自の直感を開発する必要があると思います。

CVへようこそ。RMSEを標準偏差で割ったものを明示的に意味しますか？もしそうなら、それをドル記号で囲むことによるフォーマットはそれを明確にします。$ RSME / SD $。私が尋ねる理由は、$ RMSE / SD $が変換された相関係数であるためです。これは、これの意味をより詳細に拡張するのに役立ちます。

@ReneBtに感謝します。はい、私が言及しているのは$ RSME / SD $です。したがって、これは調整済みR二乗係数の変形です。ええと。R-squaredは、線形ターゲットを持つモデルのスキルを直感的に理解するための優れた方法でもあります（1 =完全、0 =ランダム、2項分類のユースケースのジニ係数によく似ています）。まだ誰もこれをアプローチとして言及していませんか？

ⓘ

このQ＆Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。

about - legalese