2つの有意な回帰を生成したデータをマージするときに、回帰が重要でないのはなぜですか？

Benji

2017-08-19 04:24:44 UTC

view on stackexchange narkive permalink

タイトルがわかりにくいため、これは一般的な統計の質問だと思いますが、私はRで働いています。異なる国（n = 240とn = 1,010）の2つのサンプルを組み合わせたデータセットがあり、各データセットの同じ3つの変数間で線形回帰を実行すると、両方のデータセットがほぼ同じ係数で有意な結果を生成します。ただし、データセットをマージし、結合されたデータセットで同じ回帰を実行すると、重要ではなくなります。誰かがこれを説明できますか？

重要な場合、回帰の形式は lm（a〜b * c）です。

2つの回帰の傾きが有意であるが異なる場合（非常に異なり、場合によっては符号が異なる）、データを1つの回帰に結合すると有意な傾きが得られると考える理由はありません。

私が言ったように、係数はほとんど同じです。コメントありがとうございます。この問題を解決するための方法についてアドバイスがあれば教えてください。

申し訳ありませんが、係数がほぼ同じであるとおっしゃった部分を見逃しました。しかし、ほぼ同一とはどういう意味ですか？それぞれの重要なレベルは何でしたか？

また、複合回帰の有意水準はどのくらいでしたか？

大きなデータセットは（b = -0.28、p <0.001）でした。小さい方は（b = -0.35、p = 0.002）でした。そして、共変量を追加すると、係数間の距離はさらに小さくなります。組み合わせた回帰は（b = -0.002、p = 0.954）でした。

傍受はどうですか？

切片を含めると、大きなデータセットは（int = -26.13、b = -0.28、p <0.001）でした。小さい方は（int = -26.06、b = -0.35、p = 0.002）でした。複合回帰は（int = -9.01、b = -0.002、p = 0.954）でした。

データセットを交絡変数として追加します。`lm（a〜b * c * dataset）`の形式の回帰を実行すると、シンプソンのパラドックスがここで明らかになります。

exdf <- data.frame（ x = c（-64：-59、-52：-47）、 y = c（-8.29、-8.36、-9.05、-9.30、-9.20、-9.69、 -7.90、-8.34、-8.49、-8.85、-9.38、-9.65）、 col = c（rep（ "blue"、6）、rep（ "red"、6））） fitblue <- lm（y〜x、data = exdf [exdf $ col == "blue"、]） fitred <- lm（y〜x、data = exdf [exdf $ col == "red"、]） fitcombo <- lm（y〜x、data = exdf） plot（y〜x、data = exdf、col = col） abline（fitblue、col = "blue"） abline（fitred、col = "red"） abline（fitcombo、col = "black"）

> summary（fitblue）コール： lm（式= y〜x、データ= exdf [exdf $ col == "blue"、]）残余： 1 2 3 4 5 6 -0.00619 0.20295 -0.20790 -0.17876 0.20038 -0.01048 係数：標準を見積もるエラーt値Pr（> | t |）（切片）-26.14895 2.91063 -8.984 0.00085 *** x -0.27914 0.04731 -5.900 0.00413 ** --- 重要。コード：0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1 残余標準誤差：4自由度で0.1979 複数の決定係数：0.8969、調整済み決定係数：0.8712 F統計：1および4 DFで34.81、p値：0.004128 >要約（適合）コール： lm（式= y〜x、データ= exdf [exdf $ col == "red"、]）残余： 7 8 9 10 11 12 -0.005238 -0.095810 0.103619 0.093048 -0.087524 -0.008095 係数：標準を見積もるエラーt値Pr（> | t |）（インターセプト）-26.06505 1.12832 -23.10 2.08e-05 *** x -0.34943 0.02278 -15.34 0.000105 *** --- 重要。コード：0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1 残余標準誤差：4自由度で0.0953 複数の決定係数：0.9833、調整済み決定係数：0.9791 F統計：1および4 DFで235.3、p値：0.0001054 >要約（fitcombo）コール： lm（式= y〜x、データ= exdf）残余：最小1Q中央値3Q最大 -0.8399 -0.4548 -0.0750 0.4774 0.9999 係数：標準を見積もるエラーt値Pr（> | t |）（切片）-9.269561 1.594455 -5.814 0.00017 *** x -0.007109 0.028549 -0.249 0.80839 --- 重要。コード：0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1 残余標準誤差：10自由度で0.617 複数の決定係数：0.006163、調整済み決定係数：-0.09322 F統計：1および10 DFで0.06201、p値：0.8084