タイトルがわかりにくいため、これは一般的な統計の質問だと思いますが、私はRで働いています。異なる国(n = 240とn = 1,010)の2つのサンプルを組み合わせたデータセットがあり、各データセットの同じ3つの変数間で線形回帰を実行すると、両方のデータセットがほぼ同じ係数で有意な結果を生成します。ただし、データセットをマージし、結合されたデータセットで同じ回帰を実行すると、重要ではなくなります。誰かがこれを説明できますか?
重要な場合、回帰の形式は lm(a〜b * c)
です。
タイトルがわかりにくいため、これは一般的な統計の質問だと思いますが、私はRで働いています。異なる国(n = 240とn = 1,010)の2つのサンプルを組み合わせたデータセットがあり、各データセットの同じ3つの変数間で線形回帰を実行すると、両方のデータセットがほぼ同じ係数で有意な結果を生成します。ただし、データセットをマージし、結合されたデータセットで同じ回帰を実行すると、重要ではなくなります。誰かがこれを説明できますか?
重要な場合、回帰の形式は lm(a〜b * c)
です。
データを確認しないと、これに明確に答えることは困難です。1つの可能性は、データセットが独立変数のさまざまな範囲にまたがっている可能性があります。異なるグループ間でデータを組み合わせると、各グループで個別に見られる相関関係が逆転する場合があることはよく知られています。この効果は、シンプソンのパラドックスとして知られています。
データがこのように見える場合は、理由がより明白である可能性があります。 2つの元の回帰直線はほぼ平行で、かなり妥当に見えますが、それらを組み合わせると異なる結果が生成され、おそらくあまり役に立ちません。
このグラフのデータは、Rコードを使用して取得したものです
exdf <- data.frame(
x = c(-64:-59、-52:-47)、
y = c(-8.29、-8.36、-9.05、-9.30、-9.20、-9.69、
-7.90、-8.34、-8.49、-8.85、-9.38、-9.65)、
col = c(rep( "blue"、6)、rep( "red"、6)))
fitblue <- lm(y〜x、data = exdf [exdf $ col == "blue"、])
fitred <- lm(y〜x、data = exdf [exdf $ col == "red"、])
fitcombo <- lm(y〜x、data = exdf)
plot(y〜x、data = exdf、col = col)
abline(fitblue、col = "blue")
abline(fitred、col = "red")
abline(fitcombo、col = "black")
どのレポート
> summary(fitblue)
コール:
lm(式= y〜x、データ= exdf [exdf $ col == "blue"、])
残余:
1 2 3 4 5 6
-0.00619 0.20295 -0.20790 -0.17876 0.20038 -0.01048
係数:
標準を見積もるエラーt値Pr(> | t |)
(切片)-26.14895 2.91063 -8.984 0.00085 ***
x -0.27914 0.04731 -5.900 0.00413 **
---
重要。コード:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1
残余標準誤差:4自由度で0.1979
複数の決定係数:0.8969、調整済み決定係数:0.8712
F統計:1および4 DFで34.81、p値:0.004128
>要約(適合)
コール:
lm(式= y〜x、データ= exdf [exdf $ col == "red"、])
残余:
7 8 9 10 11 12
-0.005238 -0.095810 0.103619 0.093048 -0.087524 -0.008095
係数:
標準を見積もるエラーt値Pr(> | t |)
(インターセプト)-26.06505 1.12832 -23.10 2.08e-05 ***
x -0.34943 0.02278 -15.34 0.000105 ***
---
重要。コード:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1
残余標準誤差:4自由度で0.0953
複数の決定係数:0.9833、調整済み決定係数:0.9791
F統計:1および4 DFで235.3、p値:0.0001054
>要約(fitcombo)
コール:
lm(式= y〜x、データ= exdf)
残余:
最小1Q中央値3Q最大
-0.8399 -0.4548 -0.0750 0.4774 0.9999
係数:
標準を見積もるエラーt値Pr(> | t |)
(切片)-9.269561 1.594455 -5.814 0.00017 ***
x -0.007109 0.028549 -0.249 0.80839
---
重要。コード:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1
残余標準誤差:10自由度で0.617
複数の決定係数:0.006163、調整済み決定係数:-0.09322
F統計:1および10 DFで0.06201、p値:0.8084
統計からそれほど遠くなく、さらに作業を進めることで、より近くにできる可能性があります
また、各データセットのデータポイントは、外れ値や$ x $と$ y $の間の非線形関係のために完全に異なる分布を持ち、それでもほぼ同一の線形回帰係数、標準誤差を共有し、統計的に有意である可能性があります。$ p $-値。2つのデータセットを組み合わせると、強い線形関係がなくなったデータセットが作成される可能性があります。アンスコムの判例をご覧ください。同じ要約統計量を共有しているが、根本的に異なる散布図を共有している多数のデータセットの視覚的表現は、ここにあります。両方のデータセットの散布図を詳しく調べることをお勧めします。
シンプソンのパラドックスの詳細については、Pearl、J.、& Mackenzie、D。(2018)を参照してください。パラドックス豊富!理由の本:原因と結果の新しい科学(Kindle ed。、pp.2843-3283)。ニューヨーク:ベーシックブックス。また、パールの因果関係を参照してください。
彼の本の中で、パールはあなたと非常によく似た例を挙げています。問題は、独立変数と従属変数の両方に影響を与えている交絡変数があることです。パールの例では、問題は、なぜ抗心臓発作薬は女性にとっても男性にとっても悪いのに、人々にとっては良いのかということです。 (2つの性別サンプルを組み合わせた場合)。答えは、性別は誰が薬を服用するか(女性ははるかに可能性が高い)、また心臓発作の有病率(男性ははるかに可能性が高い)に影響を与える交絡変数であるということです。交絡変数の解決策は、変数を条件付けることです。これは、次の2つの方法で実行できます。(1)回帰分析を使用して、性別を変数にします。 (2)2つの性別の薬の平均効果を別々に分析します。次に、効果の加重平均(性別の人口のパーセントで重み付け、ここでは1/2)を計算します。
パールは、あなたが研究している現象のモデル、すなわち、応答に関与するすべての変数を考慮に入れた徹底的な理論を持っている必要があると言うでしょう。このようなモデルと理論を開発するには、この分野の他の人の仕事を理解するために何ヶ月も読む必要があります。ただし、1つの省略された変数が結果にバイアスをかけ、結果を無意味にしたり、単に間違ったりする可能性があることを思い出してください。
Pearlは、データから因果関係を抽出することはできないとも書いています。そのためには、理論モデルが必要です。ただし、理論とモデルができたら、データを使用してそれらをサポートできます。