質問:
2つの有意な回帰を生成したデータをマージするときに、回帰が重要でないのはなぜですか?
Benji
2017-08-19 04:24:44 UTC
view on stackexchange narkive permalink

タイトルがわかりにくいため、これは一般的な統計の質問だと思いますが、私はRで働いています。異なる国(n = 240とn = 1,010)の2つのサンプルを組み合わせたデータセットがあり、各データセットの同じ3つの変数間で線形回帰を実行すると、両方のデータセットがほぼ同じ係数で有意な結果を生成します。ただし、データセットをマージし、結合されたデータセットで同じ回帰を実行すると、重要ではなくなります。誰かがこれを説明できますか?

重要な場合、回帰の形式は lm(a〜b * c)です。

2つの回帰の傾きが有意であるが異なる場合(非常に異なり、場合によっては符号が異なる)、データを1つの回帰に結合すると有意な傾きが得られると考える理由はありません。
私が言ったように、係数はほとんど同じです。コメントありがとうございます。この問題を解決するための方法についてアドバイスがあれば教えてください。
申し訳ありませんが、係数がほぼ同じであるとおっしゃった部分を見逃しました。しかし、ほぼ同一とはどういう意味ですか?それぞれの重要なレベルは何でしたか?
また、複合回帰の有意水準はどのくらいでしたか?
大きなデータセットは(b = -0.28、p <0.001)でした。小さい方は(b = -0.35、p = 0.002)でした。そして、共変量を追加すると、係数間の距離はさらに小さくなります。組み合わせた回帰は(b = -0.002、p = 0.954)でした。
傍受はどうですか?
切片を含めると、大きなデータセットは(int = -26.13、b = -0.28、p <0.001)でした。小さい方は(int = -26.06、b = -0.35、p = 0.002)でした。複合回帰は(int = -9.01、b = -0.002、p = 0.954)でした。
データセットを交絡変数として追加します。`lm(a〜b * c * dataset)`の形式の回帰を実行すると、シンプソンのパラドックスがここで明らかになります。
四 答え:
Jacob Socolar
2017-08-19 04:31:21 UTC
view on stackexchange narkive permalink

データを確認しないと、これに明確に答えることは困難です。1つの可能性は、データセットが独立変数のさまざまな範囲にまたがっている可能性があります。異なるグループ間でデータを組み合わせると、各グループで個別に見られる相関関係が逆転する場合があることはよく知られています。この効果は、シンプソンのパラドックスとして知られています。

うわー、それは本当に面白いです、私はシンプソンのパラドックスについて聞いたことがありませんでした!変数cが変数bの変数aへの影響を緩和するかどうかを確認するという、私のリサーチクエスチョンに答える方法についてアドバイスをいただけないでしょうか。cがbをモデレートすると言っているように見えるので、私はこのようなことにどのように対処すべきかについて戸惑っています。それがパラドックスだと思いますが、それでも困惑しています。
ここでシンプソンのパラドックス(私たちが完全には確立していないことです!)を扱っていると仮定すると、2つの重要な質問があると思います。まず、2つのデータセットが**意味のある**グループ化因子の異なるレベルに対応していますか。第二に、もしそうなら、この要因によって導入された変動は、あなたが制御したい厄介な変動を表していますか(あなたが研究したい興味深い変動とは対照的です)。両方の質問に「はい」と答えた場合は、グループの固定効果を推定することを検討してください(続き)
(続き)これにより、2つの線に異なる切片を与えることでグループ間の変動に対処しながら、モデルが2つのグループのそれぞれを通る平行線(対象の勾配を使用)を描画できるようになります。しかし、これらは、分析が答えるはずの問題を完全に概念的/理論的に理解することによってのみ行うことができる決定であることを強調します。
+1 @Benji-同じ勾配のデータポイントの2つのx-y散布図を想像してください。ただし、両方の散布図に最適な回帰直線が基本的に平坦になるように、一方の散布図がx軸上でもう一方の右側にシフトされます。
アドバイスをありがとう、ジェイコブ。現時点では固定効果については何も知りませんが、調べてみます。@RobertF,それが問題だとは思いません。関係するすべての変数の平均と範囲は、両方のデータセットで非常に似ています。相互作用をグラフ化することで実際に理解できたと思います。独立変数の1つと従属変数の間には二次関係があるように見えますが、国の1つだけです。その結果、変数bの*値の下半分*の傾きは、2つのモデルを組み合わせると互いに相殺されます。もっともらしい?
@BenjiKaveladzeはい(以下の私の回答を参照)。ただし、たとえば、データセットから2次関係を持つ国を削除し、観測された回帰係数がまだ変化するかどうかを確認することで、これが当てはまるかどうかを確認する必要があります。いずれにせよ、これは、線形回帰が、他の手法(ブースト回帰、ニューラルネットワーク、決定木など)がより効果的にモデル化できる非線形関係を検出できない可能性があることを示しています。
@BenjiKaveladze:「変数cが変数aに対する変数bの影響を緩和するかどうか」...すべての国でcがbに対して*同じ*緩和効果を持っていることを示したいですか、それとも(はるかに弱い)cを示したいですか?すべての国でbにある程度の緩和効果がありますか、それとも(さらに弱い)cが一部の国である程度の緩和効果を示しますか。あなたは最初のものを期待していたようですが、2番目のものはヌルの結果を得ました。
b * cの相互作用がaを予測するかどうかを一般的に知りたいだけです。実際の変数を代入すると、「ストレッサーはソーシャルサポートとうつ病の間のリンクを緩和しますか」(うつ病は従属変数です)になります。
Henry
2017-08-19 17:55:39 UTC
view on stackexchange narkive permalink

データがこのように見える場合は、理由がより明白である可能性があります。 2つの元の回帰直線はほぼ平行で、かなり妥当に見えますが、それらを組み合わせると異なる結果が生成され、おそらくあまり役​​に立ちません。

regrssion

このグラフのデータは、Rコードを使用して取得したものです

  exdf <- data.frame(
  x = c(-64:-59、-52:-47)、
  y = c(-8.29、-8.36、-9.05、-9.30、-9.20、-9.69、
      -7.90、-8.34、-8.49、-8.85、-9.38、-9.65)、
  col = c(rep( "blue"、6)、rep( "red"、6)))
fitblue <- lm(y〜x、data = exdf [exdf $ col == "blue"、])
fitred <- lm(y〜x、data = exdf [exdf $ col == "red"、])
fitcombo <- lm(y〜x、data = exdf)
plot(y〜x、data = exdf、col = col)
abline(fitblue、col = "blue")
abline(fitred、col = "red")
abline(fitcombo、col = "black")
 

どのレポート

  > summary(fitblue)

コール:
lm(式= y〜x、データ= exdf [exdf $ col == "blue"、])

残余:
       1 2 3 4 5 6
-0.00619 0.20295 -0.20790 -0.17876 0.20038 -0.01048

係数:
             標準を見積もるエラーt値Pr(> | t |)
(切片)-26.14895 2.91063 -8.984 0.00085 ***
x -0.27914 0.04731 -5.900 0.00413 **
---
重要。コード:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1

残余標準誤差:4自由度で0.1979
複数の決定係数:0.8969、調整済み決定係数:0.8712
F統計:1および4 DFで34.81、p値:0.004128

>要約(適合)

コール:
lm(式= y〜x、データ= exdf [exdf $ col == "red"、])

残余:
        7 8 9 10 11 12
-0.005238 -0.095810 0.103619 0.093048 -0.087524 -0.008095

係数:
             標準を見積もるエラーt値Pr(> | t |)
(インターセプト)-26.06505 1.12832 -23.10 2.08e-05 ***
x -0.34943 0.02278 -15.34 0.000105 ***
---
重要。コード:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1

残余標準誤差:4自由度で0.0953
複数の決定係数:0.9833、調整済み決定係数:0.9791
F統計:1および4 DFで235.3、p値:0.0001054

>要約(fitcombo)

コール:
lm(式= y〜x、データ= exdf)

残余:
    最小1Q中央値3Q最大
-0.8399 -0.4548 -0.0750 0.4774 0.9999

係数:
             標準を見積もるエラーt値Pr(> | t |)
(切片)-9.269561 1.594455 -5.814 0.00017 ***
x -0.007109 0.028549 -0.249 0.80839
---
重要。コード:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘。’ 0.1 ‘’ 1

残余標準誤差:10自由度で0.617
複数の決定係数:0.006163、調整済み決定係数:-0.09322
F統計:1および10 DFで0.06201、p値:0.8084
 

統計からそれほど遠くなく、さらに作業を進めることで、より近くにできる可能性があります

シンプソンのパラドックスの優れたシミュレーションのための+1。https://stats.stackexchange.com/questions/185047/is-this-simpsons-paradox-on-the-titanic-data-setの別の例。
RobertF
2017-08-19 04:58:34 UTC
view on stackexchange narkive permalink

また、各データセットのデータポイントは、外れ値や$ x $と$ y $の間の非線形関係のために完全に異なる分布を持ち、それでもほぼ同一の線形回帰係数、標準誤差を共有し、統計的に有意である可能性があります。$ p $-値。2つのデータセットを組み合わせると、強い線形関係がなくなったデータセットが作成される可能性があります。アンスコムの判例をご覧ください。同じ要約統計量を共有しているが、根本的に異なる散布図を共有している多数のデータセットの視覚的表現は、ここにあります。両方のデータセットの散布図を詳しく調べることをお勧めします。

散布図を調べることに加えて、国を追加の変数(a〜b * c * country)として使用して回帰を繰り返してみます。このようにして、いくつかの係数が国間で大幅に変化するかどうかを確認できます。
@Pereモデルに国を含めると(a〜b * c * country)、生成される結果は、b * c交互作用変数がaに有意に関連するようになることです(b = -0.35、p <0.001)。それをb * cがaを予測する証拠として解釈できますか?国の変数を方程式に導入したときにb * cがaのみを予測するのは奇妙に思えます。ありがとう!
@BenjiKaveladzeあなたのコメントがよくわかりません。おそらく別の質問で、要約全体を投稿することをお勧めします。ただし、重要なbcの相互作用は、bcを考慮してaのより良い予測を取得できることを意味します。これは、cの値が異なると、aとbの間に異なる関係が得られることと同じです。
@Pere「ストレッサーは社会的支援とうつ病との関連を緩和するか」という実際の質問を書くと役立つかもしれません。したがって、モデルは(うつ病〜サポート*ストレス)です。私の質問は、代わりにモデル(うつ病〜サポート*ストレス*国)を使用する必要があるかどうかです。2番目のモデルを使用した場合にのみ、サポート*ストレスの相互作用が重要になるため、これは私にとって注意が必要です。国がモデルに含まれていない場合、サポート*ストレスの相互作用は重要ではありません。それは理にかなっていますか?
CElliott
2018-11-11 03:00:57 UTC
view on stackexchange narkive permalink

シンプソンのパラドックスの詳細については、Pearl、J.、& Mackenzie、D。(2018)を参照してください。パラドックス豊富!理由の本:原因と結果の新しい科学(Kindle ed。、pp.2843-3283)。ニューヨーク:ベーシックブックス。また、パールの因果関係を参照してください。

彼の本の中で、パールはあなたと非常によく似た例を挙げています。問題は、独立変数と従属変数の両方に影響を与えている交絡変数があることです。パールの例では、問題は、なぜ抗心臓発作薬は女性にとっても男性にとっても悪いのに、人々にとっては良いのかということです。 (2つの性別サンプルを組み合わせた場合)。答えは、性別は誰が薬を服用するか(女性ははるかに可能性が高い)、また心臓発作の有病率(男性ははるかに可能性が高い)に影響を与える交絡変数であるということです。交絡変数の解決策は、変数を条件付けることです。これは、次の2つの方法で実行できます。(1)回帰分析を使用して、性別を変数にします。 (2)2つの性別の薬の平均効果を別々に分析します。次に、効果の加重平均(性別の人口のパーセントで重み付け、ここでは1/2)を計算します。

パールは、あなたが研究している現象のモデル、すなわち、応答に関与するすべての変数を考慮に入れた徹底的な理論を持っている必要があると言うでしょう。このようなモデルと理論を開発するには、この分野の他の人の仕事を理解するために何ヶ月も読む必要があります。ただし、1つの省略された変数が結果にバイアスをかけ、結果を無意味にしたり、単に間違ったりする可能性があることを思い出してください。

Pearlは、データから因果関係を抽出することはできないとも書いています。そのためには、理論モデルが必要です。ただし、理論とモデルができたら、データを使用してそれらをサポートできます。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...