質問:
Rの線形回帰における共変量の制御
luciano
2014-03-06 20:25:13 UTC
view on stackexchange narkive permalink

次の2つのモデルを作成しました:

 (model1 <- summary(lm(mpg〜drat + wt + cyl、mtcars)))Call:lm(formula = mpg〜drat + wt + cyl、data = mtcars)残差:最小1Q中央値3Q最大-4.2944 -1.5576 -0.4667 1.5678 6.1014係数:推定標準エラーt値Pr(> | t |)(切片)39.7677 6.8729 5.786 3.26e-06 *** drat -0.0162 1.3231 -0.012 0.990317 wt -3.1947 0.8293 -3.852 0.000624 *** cyl -1.5096 0.4464 -3.382 0.002142 **- --Signif。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1残留標準誤差:28自由度で2.613複数の決定係数:0.8302、調整済み決定係数:0.812 F統計: 3および28DFで45.64、p値:6.569e-11(model2 <- summary(lm(mpg〜wt + cyl + drat、mtcars)))Call:lm(formula = mpg〜wt + cyl + drat、data = mtcars)残差:最小1Q中央値3Q最大-4.2944 -1.5576 -0.4667 1.5678 6.1014係数:推定標準エラーt値Pr(> | t |)(切片)39.7677 6.8729 5.786 3.26e-06 *** wt -3.1947 0.8293 -3.852 0.000624 *** cyl -1.5096 0.4464 -3.382 0.002142 ** drat -0.0162 1.3231 -0.012 0.990317- --Signif。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1残留標準誤差:28自由度で2.613複数の決定係数:0.8302、調整済み決定係数:0.812 F統計量: 3および28DFで45.64、p値:6.569e-11  

私の理解では、Rは mpg の分散に「シーケンシャル」パーティショニングを使用します。したがって、 model1 では、 drat を未調整にし、 wt drat cyl に調整する必要があります。 code>は drat wt に合わせて調整する必要があります。 model2 では、 wt は未調整で、 cyl wt drat codeに合わせて調整する必要があります>は wt cyl に合わせて調整する必要があります。

ただし、各モデルの係数はまったく同じように見え、係数が調整されていないことを示しています。まったく。係数はまったく調整されていませんか?

1 回答:
gung - Reinstate Monica
2014-03-06 20:34:30 UTC
view on stackexchange narkive permalink

質問は、言い換えると、少しあいまいです。 「各モデルの係数はまったく同じように見える」と記載されています。ステートメントを解釈する方法は2つあります。(1)係数の推定値、または(2)係数のテストです。

  1. 係数の Estimates に関しては、モデル内の他の変数に合わせて調整されていますが、次のようになっているため、違いは見られません。 model1 model2 の両方で同じ変数。それらがリストされている順序は重要ではありません。パラメータの推定値は、変数が相関している場合にのみ異なり、モデルに含まれている変数のセットが異なります。 考慮事項:

      model1 <- lm(mpg〜drat + wt + cyl、mtcars)model2 <- lm(mpg〜wt + cyl + drat、mtcars)model3 <- lm(mpg〜wt + drat、mtcars)cor(mtcars $ wt、mtcars $ cyl)#[1] 0.7824958summary(model2)#係数:#推定標準エラーt値Pr(> | t |)#(切片)39.7677 6.8729 5.786 3.26e-06 ***#wt -3.1947 0.8293 -3.852 0.000624 ***#cyl -1.5096 0.4464 -3.382 0.002142 **#drat -0.0162 1.3231 -0.012 0.990317 summary(model3)#係数:#推定標準エラーt値Pr(> | t |)#(インターセプト)30.290 7.318 4.139 0.000274 ***#wt -4.783 0.797 -6.001 1.59e-06 ***#drat 1.442 1.459 0.989 0.330854  

    wt Estimate は、 model2 および -4.783 codeでは -3.1974 であることに注意してください。 > model3 内。相関変数が含まれているかどうかに応じて変数のパラメーター推定値がどのように変化するかについて詳しくは、こちらの回答を読むと役立つ場合があります。

  2. 係数のテストに関しては、出力を取得するために使用する関数によって異なります。 summary()を使用しました。次に報告されるのは、パラメーター推定値に関連する$ t $検定です。これらは、二乗和の分割では計算されません。ただし、これらはタイプIII SS を使用した$ F $テストと同等です。にリストされている順序変数は、タイプIIISSに基づく$ t $テストまたは$ F $テストには関係ありません。 anova()を使用して、パラメーター推定値の有意性検定を取得することもできます。 ここでRはタイプISS を使用します。また、タイプI SSはシーケンシャルであるため、変数がリストされている順序は重要です(ただし、変数が相関している場合のみ)。検討してください:

      summary(model1)#係数:#推定標準。エラーt値Pr(> | t |)#(切片)39.7677 6.8729 5.786 3.26e-06 ***#drat -0.0162 1.3231 -0.012 0.990317#wt -3.1947 0.8293 -3.852 0.000624 ***#cyl -1.5096 0.4464 -3.382 0.002142 ** summary(model2)#係数:#推定標準エラーt値Pr(> | t |)#(切片)39.7677 6.8729 5.786 3.26e-06 ***#wt -3.1947 0.8293 -3.852 0.000624 ***#cyl -1.5096 0.4464 -3.382 0.002142 **#drat -0.0162 1.3231 -0.012 0.990317 anova(model1)#分散分析テーブル#Df Sum Sq Mean Sq F value Pr(>F)#drat 1 522.48 522.48 76.525 1.691e-09 ***#wt 1 334.33 334.33 48.967 1.308e-07 *** #cyl 1 78.07 78.07 11.435 0.002142 **#残差28 191.17 6.83 anova(model2)#分散分析表#Df Sum Sq Mean Sq F value Pr(>F)#wt 1 847.73 847.73 124.1627 8.382e-12 ***#cyl 1 87.15 87.15 12.7645 0.001304 **
    #drat 1 0.00 0.00 0.0001 0.990317#残差28 191.17 6.83  

    wt の$ p $値は 0.000624 であることに注意してください。両方の summary()が出力されますが、 anova(model1)では 1.308e-07 であり、 8.382e-12 anova(model2)内。一般的な平方和の詳細については、ここで私の答えを読むと役立つ場合があります。最後に、 car パッケージの Anova()を使用すると、IIやIIIなどの他のタイプのSSを使用するRのANOVA表を取得できることに注意してください。

  3. ol>
うーん…最初のポイントRin Action(2011、Kabacoff)に関して、何か違うことが述べられています。彼は、順序が重要であり、一般に、モデルは共変量、主効果、交互作用として順序付けられるべきであると言います。モデルy〜a + b + a:bでは、aは未調整で、bはaを調整し、a:bはaとbを調整します。彼は、(a)予測子の観測数が等しくない場合、または(b)共変量が存在する場合に調整を行う必要があると述べています。
それが何を意味するのかわかりません、@luciano。それが彼の言うことなら、彼は間違っていますが、彼が何かを置く方法にいくらかの曖昧さがあり、彼はそれを完全に意味していませんでした。例では、何が変化し、何が変化しないか、そしてどのような状況であるかを確認できます。これらの例はすべて、Rで実行され、ここでカットアンドペーストされました。それらを自分で実行して、同じ結果を得ることができます。
Kabacoffを読み直したので、彼は係数ではなく、ANOVA表の二乗和を参照しているだけだと思います。私の間違い
私はそのような何かが本当かもしれないと思った、@luciano,それはそのような微妙な何かを見逃すのは非常に簡単です。他に何か必要な場合はお知らせください。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...