線形回帰の場合、パラメーターに相関がない場合、これによりモデルが改善されますか？はいの場合、なぜですか？

JDL

2020-03-27 17:12:47 UTC

view on stackexchange narkive permalink

これは、「モデルを改善する」という意味によって異なります。このモデルを使用して、世界がどのように機能するかについて何かを言ったり、予測を行ったりしますか？

共変量が無相関である場合、それらに関連付けられたベータ値は一般にほぼ独立しています。（これは関連していますが、パラメータの直交性の概念と同じではありません。）これは、ベータを現実世界について何かを言っていると解釈し、それらを混乱させたくない場合に役立ちます。お互い。
モデルの予測の精度が心配な場合は、実際には何の違いもありません。ベータ値は相関しますが、予測は影響を受けません。共変量を直交化すると、ベータの定義と解釈が完全に変わりますが、近似値、残差、予測は以前と同じになります。

あなたの答えは間違いなく問題の核心になりますが、もっと簡潔に述べることができると思います。回帰分析（ベータ）の係数の解釈は、**他のすべての独立変数が一定に保たれている場合**、独立変数の単位変化に対する従属変数の平均変化を表すというものです。独立変数が相関している場合、モデル/係数の解釈可能性は非常に重要です。

上記のコメントは私の言葉ではありませんでした。私はこの素晴らしい記事からそのほとんどを取り上げました。ここから取り上げました：https：//statisticsbyjim.com/regression/multicollinearity-in-regression-analysis/

必ずしも正しいとは限らない@shinvu,—共変量を手動で操作できるかどうか（および実際に操作できるかどうか）によって異なります。これは本質的に、Pearlの表記法を使用するためのp（Y | X）とP（Y | do（x））のモデリングの違いです。しかし、それはこの質問の文脈ではかなりの余談だと思います。

真のデータ生成プロセスの共変量が互いに高度に相関している場合はどうなりますか？

@trynnaDoStat,は、モデルを何に使用するかによって異なります。それだけで予測をしているのなら、それはそれほど重要ではありません。「ベータを解釈している」場合、ベータ自体は（反）相関します（そして予想よりも広くなります）が、それは許容できるかもしれません（まあ、そうしなければなりません-維持しながらできることは何もありませんベータの解釈は同じです。なぜなら、直交化すると、ベータは今では別のことを意味するからです）

gunes

2020-03-27 02:23:58 UTC

view on stackexchange narkive permalink

パラメータとは機能を意味していると思いますが、@ whuberがコメントしたように非常に珍しいことです。次の段落は、この仮定に基づいています。

必ずしもそうとは限りません。相関の高い特徴は多重共線性を引き起こす可能性がありますが、これは、相関のある特徴を持つモデルが相関のない特徴よりも悪いことを意味するものではありません。モデルには、ターゲット変数を非常によく説明する一連の相関機能、またはターゲット変数とはまったく関係のない一連の非相関機能を含めることができます。

パラメーター推定の無相関については、同様のアイデアを使用して、ターゲット変数にも関連していない無相関のランダムな特徴があると想定します。特徴は完全にランダムであるため、パラメーター推定値も相関関係を示します。したがって、相関関係がない場合、モデルが優れているとは言い難いです。

「パラメーターは無相関である」とは、（1）相関のあるベイジアン事前確率から、（2）パラメーターの相関*推定値*から（3）*変数*の相関関係。「パラメータ」を「機能」を意味するものとして解釈することは珍しいですが、おそらくOPが意味するものです。

間違いなく@whuber！また、機能を表すために「パラメータ」を使用しませんでしたが、OPの意味はある程度理解できたと思いましたが、説明はありませんでした。

「パラメータ」は非正統的な言い方ですが、OPが相関機能以外の意味を持っているとしたら、私はショックを受けます。

申し訳ありませんが、私が意味したのは「パラメーター推定値間の無相関」でした。ここで、「パラメーター」はモデルで使用される「変数の係数」を表します。これらの用語は時々混乱します。

これは実質的に同じことです。つまり、特徴が相関している場合、線形モデルのこれらの特徴の係数は相互に相関します。

@MichaelSidoroffモデルが線形でない場合、係数の相関はより一般的です。（さらに、それがあまり同じではないという実際的なケースはあり得ませんでしたか？パラメーターの相関は行列$（X ^ tX）^ {-1} $の逆行列に関連しています。私は直感的なビューを持っていませんしかし、違いがあり、特定の状況下では状況が少し異なると想像できます）

@SextusEmpiricus-非線形の場合については完全に同意します。ただし、ここでは線形モデルを扱っているため、特徴の相関と相関は係数の相関をもたらすと私は主張しました。

Michael Sidoroff

2020-03-27 03:46:33 UTC

view on stackexchange narkive permalink

@gunesに同意します。相関性の高い機能でトレーニングすると、相関性のない機能セットよりも良い結果が得られる場合がありますが、機能が優れている（つまり、ターゲットを十分に説明している）場合に限ります。

しかし、私の経験では、相関性の高い特徴を取り除く方が良いでしょう。これにより、モデルが単純化され、予測可能性があまり損なわれないためです（cor（x、y）が高い場合は、十分に知ることができます）。予測を取得するためのこれらの機能のいずれか）。

たとえば、家の平方フィートと部屋の数がある場合、これらの機能は相関性が高い可能性が高いため、最も有益な情報を取得してモデルを単純化することを検討してください。精度。

一方、すべての機能に相関関係がない場合は、それぞれの機能によってモデルに問題に対する異なる視点が与えられ、より一般化するのに役立ちます。

お役に立てば幸いです。乾杯。

Thomas Bilach

2020-03-27 20:57:49 UTC

view on stackexchange narkive permalink

私の見積もりでは、あなたの質問は、コメントに記載されている@whuberの3番目の解釈とより一致しています。

これが単純な線形回帰モデルです：

$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ epsilon。 $$ span>

すでにモデルを作成していて、因果関係があると思われる変数 $ X_ {1} $ span>の影響を調査していると仮定します。従属変数 $ Y $ span>。この時点で、他の変数が結果に与える影響を調査することをお勧めします。ただし、データセット内の他の機能が $ Y $ span>に関連しているか、 $ Y $ spanを予測している可能性があることがわかりました。 >ただし、 $ X_ {1} $ span>との関連付けはありません。この場合、これらの変数は分析から安全に省略できると私は主張します。この説明のために、予測変数の選択を自動化しておらず、基本的な説明モデルがすでに検討されていると仮定します。

回帰分析の主な目標の1つは、 $ X_ {1} $ span>との右側にある他の変数との関連付けを「分離」することです。 $ X_ {1} $ span>が $ Y $ span>に与える固有の影響を調べることができる方程式。次に、制御変数 $ X_ {2} $ span>を含む2番目のモデルを示します。

$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ beta_ {1} X_ {2} + \ epsilon。 $$ span>

一般に、2つの条件を満たす必要があります。まず、変数 $ X_ {2} $ span>も $ Y $ span>に関連付ける必要があります。次に、変数は $ X_ {1} $ span>と相関している必要がありますが、完全には相関していません。 $ X_ {2} $ span> が $ X_ {1} $ spanと相関している場合>次に、それを前述の式に含めると、 $ X_ {1} $ span>が $に与える影響を調べることができます。 Y $ span>、 $ X_ {2} $ span> 固定を押したままにします。ただし、後者の条件が満たされておらず、 $ X_ {2} $ span>が相関していない場合"> $ X_ {1} $ span>の場合、この変数は分析から削除できます。 $ X_ {2} $ span>が明示的に測定され、明示的に含まれている場合は、削除する必要がある可能性が高いと私は主張します。そしてそれはすでにモデルにあるの主な説明変数とは無関係です 。繰り返しますが、重回帰の重要な機能の1つは、 $ X_ {1} $ span>と $ X_ {2}の相関関係を削除することです。 $ span>。一連の直交回帰子を投入すると、大きい場合、推定された係数の精度が低下します。したがって、私の観点からは、方程式の右辺に関連性の低いコントロールが多くあるモデルが「優れている」とは言えません。

無相関の特徴のセットがモデルに入り、それらを含めるための先験的な理論的根拠がない場合、各要因が調査中の現象について異なる視点を提供するという@MichaelSidoroffの回答に同意します。ほとんどのランダム化研究で重回帰がしばしば必要ない理由に注意してください。ランダム化は、研究中の主な治療変数（独立変数）と他の観察された（および観察されていない）個人の特性との間の相関関係を排除します。したがって、相関が削除されているため（または、少なくともそうなることを望んでいるため）、重回帰フレームワークを使用して、個人全体で他の観察された要因を明示的に制御する必要はありません。

Federico Poloni

2020-03-28 02:41:01 UTC

view on stackexchange narkive permalink

私は統計学者ではないので、この答えが間違っている/素朴な場合は、他のユーザーによって修正されれば幸いです。とにかく：数値解析者の観点からは、yesと言いますが、の方が優れています。これは、（疑似）反転する行列が適切に調整されているため、ソリューションが摂動にあまり敏感ではないと結論付けることができるためです。入力データ（つまり、適合させようとしている観測値）の。

ravindu93

2020-03-28 14:08:16 UTC

view on stackexchange narkive permalink

とても良い質問です。あなたの質問に関連する概念は多重共線性です。予測変数（別名パラメーター）が相関している場合、そのシナリオを多重共線性と呼びます。多重共線性の有無は、モデルの精度を示すものではありません。「Minitab」や「SPSS」などの統計ソフトウェアで回帰分析を実行することにより、モデルの多重共線性を把握できます。出力には、「VIF」というメトリックが表示されます。これは、分散膨張因子の短縮形です。VIFは、相関している変数を示します。したがって、VIF> 10の場合、Multicollineariyはモデルに悪影響を与えると結論付けることができ、それらの変数を削除することをお勧めします。
これは、モデルに無相関のパラメーターがあるとモデルが改善されるかどうかを判断する方法です。このトピックに関する詳細情報が必要な場合は、

にアクセスしてください。