私は統計の初心者です。助けていただければ幸いです。
私は統計の初心者です。助けていただければ幸いです。
これは、「モデルを改善する」という意味によって異なります。このモデルを使用して、世界がどのように機能するかについて何かを言ったり、予測を行ったりしますか?
パラメータとは機能を意味していると思いますが、@ whuberがコメントしたように非常に珍しいことです。次の段落は、この仮定に基づいています。
必ずしもそうとは限りません。相関の高い特徴は多重共線性を引き起こす可能性がありますが、これは、相関のある特徴を持つモデルが相関のない特徴よりも悪いことを意味するものではありません。モデルには、ターゲット変数を非常によく説明する一連の相関機能、またはターゲット変数とはまったく関係のない一連の非相関機能を含めることができます。
パラメーター推定の無相関については、同様のアイデアを使用して、ターゲット変数にも関連していない無相関のランダムな特徴があると想定します。特徴は完全にランダムであるため、パラメーター推定値も相関関係を示します。したがって、相関関係がない場合、モデルが優れているとは言い難いです。
@gunesに同意します。相関性の高い機能でトレーニングすると、相関性のない機能セットよりも良い結果が得られる場合がありますが、機能が優れている(つまり、ターゲットを十分に説明している)場合に限ります。
しかし、私の経験では、相関性の高い特徴を取り除く方が良いでしょう。これにより、モデルが単純化され、予測可能性があまり損なわれないためです(cor(x、y)が高い場合は、十分に知ることができます)。予測を取得するためのこれらの機能のいずれか)。
たとえば、家の平方フィートと部屋の数がある場合、これらの機能は相関性が高い可能性が高いため、最も有益な情報を取得してモデルを単純化することを検討してください。精度。
一方、すべての機能に相関関係がない場合は、それぞれの機能によってモデルに問題に対する異なる視点が与えられ、より一般化するのに役立ちます。
お役に立てば幸いです。乾杯。
私の見積もりでは、あなたの質問は、コメントに記載されている@whuberの3番目の解釈とより一致しています。
これが単純な線形回帰モデルです:
$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ epsilon。 $$ span>
すでにモデルを作成していて、因果関係があると思われる変数 $ X_ {1} $ span>の影響を調査していると仮定します。従属変数
回帰分析の主な目標の1つは、 $ X_ {1} $ span>との右側にある他の変数との関連付けを「分離」することです。 $ X_ {1} $ span>が
$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ beta_ {1} X_ {2} + \ epsilon。 $$ span>
一般に、2つの条件を満たす必要があります。まず、変数 $ X_ {2} $ span>も
無相関の特徴のセットがモデルに入り、それらを含めるための先験的な理論的根拠がない場合、各要因が調査中の現象について異なる視点を提供するという@MichaelSidoroffの回答に同意します。ほとんどのランダム化研究で重回帰がしばしば必要ない理由に注意してください。ランダム化は、研究中の主な治療変数(独立変数)と他の観察された(および観察されていない)個人の特性との間の相関関係を排除します。したがって、相関が削除されているため(または、少なくともそうなることを望んでいるため)、重回帰フレームワークを使用して、個人全体で他の観察された要因を明示的に制御する必要はありません。
私は統計学者ではないので、この答えが間違っている/素朴な場合は、他のユーザーによって修正されれば幸いです。とにかく:数値解析者の観点からは、yesと言いますが、の方が優れています。これは、(疑似)反転する行列が適切に調整されているため、ソリューションが摂動にあまり敏感ではないと結論付けることができるためです。入力データ(つまり、適合させようとしている観測値)の。
とても良い質問です。
あなたの質問に関連する概念は多重共線性です。予測変数(別名パラメーター)が相関している場合、そのシナリオを多重共線性と呼びます。多重共線性の有無は、モデルの精度を示すものではありません。「Minitab」や「SPSS」などの統計ソフトウェアで回帰分析を実行することにより、モデルの多重共線性を把握できます。出力には、「VIF」というメトリックが表示されます。これは、分散膨張因子の短縮形です。VIFは、相関している変数を示します。したがって、VIF> 10の場合、Multicollineariyはモデルに悪影響を与えると結論付けることができ、それらの変数を削除することをお勧めします。
これは、モデルに無相関のパラメーターがあるとモデルが改善されるかどうかを判断する方法です。
このトピックに関する詳細情報が必要な場合は、