質問:
反復測定とバイナリ、順序、および連続独立変数を使用したバイナリ結果に適したテストはどれですか?
ric
2012-06-18 20:48:50 UTC
view on stackexchange narkive permalink

データで使用するのに最も適切な統計検定を見つけようとしていて、アドバイスを期待していました。

一次データはバイナリ独立変数で構成されています(患者検定-陽性または負。特定の臨床転帰を予測できるかどうかを判断するために、現時点では除外されているいくつかの欠落値があります。

転帰は通常(負またはグレード1〜4)です。ただし、ポジティブな結果に関心があるため、これをバイナリの結果(ネガティブまたはポジティブ)に簡略化できます。ただし、検定が一部のグレードのみを予測する場合は、これを知っておくとよいでしょう。

単純化されたケースでは、カイ二乗検定を使用できます。通常の結果に対処する方法がわかりません。

さらに、各患者には異なる時間に測定された複数のテストと結果がありますが、繰り返しの回数と時間はすべての患者で同じではありません。

各患者に関連する他のデータも多数あり、そのうちのいくつかはバイナリ(たとえば、性別、2つの研究センターの1つ、他の特定のテスト結果)、順序(異なるテスト結果)、および継続的です。 (年齢、さらにいくつかのテスト結果-場合によっては連続結果またはN / Aによって複雑になります。)

結果が連続である場合、混合効果線形モデルの使用を検討していると思います。そのため、さまざまな2次独立変数との影響または相互作用があったかどうかを判断できました。序数および/またはバイナリの結果に対して私ができる同等のことはありますか?

アドバイスをありがとう!Ric


Edit1 (以下のマクロによる回答):リンクされた回答を読んで、ランダム効果とGEEの詳細について説明しました。ただし、個人と人口に基づく係数がいつ必要になるかについては、正直なところまだわかりません。

私のデータに具体的に取り組むために、仮定された予測子が結果をどれだけうまく予測できるかを判断したいと思います。それが良い予測因子であることがわかった場合、将来新しい患者をテストするときに、テストXが陽性であるとすると、結果Yが陽性になる可能性がZ倍高いと言えるでしょう-これは影響します治療のコース。

では、この質問に答えるために変量効果またはGEEモデルが必要ですか?他のモデルが必要な同様のシナリオは何でしょうか?

予備実験として、X対Yでフィッシャーの直接確率検定を実行し(多くの観測が反復測定であるという事実を無視して)、統計的に有意な効果ではなく、可能性のある傾向の証拠を見つけました(p〜0.1) 。

研究センターに基づいてデータを2セットに分割した後、これを繰り返しました。センター1:p = 1、オッズ比〜1。センター2:p = 0.02、オッズ比〜3。他の独立した要因が、XがYを予測するか、センターと相関するかに影響を与える可能性があります。

ロジスティック回帰は、Xの予測効果に対するこれらの効果を調査するための適切な方法ですか? Xが予測的ではないが、他の要因が興味深いとはいえ、それが私たちの主要な質問に答えないことを私に伝えるだけの場合。 Xが予測的であるが、センター2のみ、特に治療後の早い時期の高齢患者にのみ当てはまることがわかった場合、それは私たちが探している種類のことです。

ありがとうございます!


Edit2 (結果を解釈しますか?):だから私はここ数日これで遊んでいますが、それでも作るのに問題がありますそれの感覚。 glm()を使用したロジスティック回帰に関する役立つテキストをいくつか見つけましたが、lme4には完全に理解できたものはありませんでした。おそらく、このテーマに関する優れたチュートリアルを知っている場合は...

いずれにせよ、データセットの詳細を入力するために、変数の構造をまとめた表を次に示します。

 変数タイプレベルに値がありませんid係数760
inst factor20d1日付NA0d2整数NA0d3日付NA0d4整数NA0a整数NA2b整数NA6c係数22d係数26e係数27f係数22g論理NA6h整数NA12i数値NA43j係数20x係数20y係数2 0  

主な仮説は、xがyを予測できるというものです。 yは応答変数です。最初に、xまたはyが欠落している観測値をすべて削除しました。 76人の患者で192件の観察が残った。ただし、いくつかの変数、特にhとiには欠測値があり、いくつかの予備テストに基づいて、それらが重要であるように見えます。一部の変数に欠損値がある50レコードがあり、どの変数にも欠損値のない142レコードが残っています。

私が理解している限り、glmer()には欠落値を処理する方法がなく、使用されている変数に欠落値がある場合、デフォルトでレコード全体が省略されます。サンプルと効果のサイズが比較的小さいため、これは問題になる可能性があると思います。そのため、これに対処する最善の方法がわかりません。

「id」は患者IDです。他のすべての変数が固定効果である変量効果として使用しようとしています。数式に変数を入れすぎると、glmerが収束しなくなることがわかりました。以下は、いくつかの単純なモデルと結果に使用したコマンドです。

コマンド:

  lr1 <- glmer(formula = y〜x + 1 | id、data = s.dat、family = binomial);  

結果:

 ラプラス近似式による一般化線形混合モデルの適合:y〜x + 1 | idデータ:s.dat AIC BIClogLik逸脱度
238.9 252 -115.4 230.9変量効果:グループ名分散標準偏差Corr id(切片)0.97379 0.98681 xpositive 0.01454 0.12058 1.000 obsの数:197、グループ:id、76固定効果:推定標準エラーz値Pr(> | z |)(切片)-1.1343 0.2121 -5.349 8.85e-08 *** ---有意。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1  

コマンド:

  lr2 < --glmer(formula = y〜x * inst + 1 | id、data = s.dat、family = binomial);  

結果:

 一般化ラプラス近似式による線形混合モデルの適合:y〜x * inst + 1 | idデータ:s.dat AIC BIC logLik deviance 252.7 288.8 -115.4 230.7変量効果:グループ名分散標準偏差Corr id(切片)1.016604 1.00827 xpositive 0.072397 0.26907 1.000 instI2 1.626269 1.27525 -0.683 -0.683 xpositive:instI2 0.135144 0.36762 -0.817 -0.817 0.137 obsの数:197、グループ:id、76固定効果:推定標準エラーz値Pr(> | z |)(切片)-1.1224 0.2099 -5.347 8.96e-08 *** ---有意。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1  

コマンド:

  lr3 < --glmer(formula = y〜x * inst + h + i + 1 | id、data = s.dat、family = binomial);  

result:

 警告メッセージ:mer_finalize(ans)内:収束せずに反復制限に達しました(9) 

コマンド:

  lr4 <- glmer(formula = y〜x + h + i + 1 | id、data = s.dat、family = binomial);  

結果:

 一般化された線形混合モデルラプラス近似式による近似:y〜x + h + i + 1 | idデータ:s.dat AIC BIC logLik deviance 184.6 217.1 -81.31 162.6変量効果:グループ名分散標準偏差Corr
id(切片)1.1663e + 01 3.41508554 xpositive 1.2627e + 00 1.12369065 -0.284 h 7.9415e-02 0.28180626 -0.998 0.229 i 2.1064e-07 0.00045896 0.107 0.923 -0.164 obsの数:142、グループ:id、57固定効果:推定標準エラーz値Pr(> | z |)(切片)-1.3359 0.2792 -4.785 1.71e-06 *** ---有意。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1  

これが何を言っているのか、またはその理由がよくわかりません。私の変数はすべて、固定効果ではなく変量効果として表示されています。

どんな啓蒙も大歓迎です!

ありがとう!

以下の私の編集、@ricを参照してください
1 回答:
Macro
2012-06-19 19:32:09 UTC
view on stackexchange narkive permalink

患者$ i $が正の場合は$ Y_i $を$ 1 $とし、そうでない場合は$ 0 $とし、$ X_ {i1}、...、X_ {ip} $を患者$ i $の$ p $予測変数とします。 。変数が$ Y_i = 1 $である個人の確率に関連しているかどうかを判断するための標準ツールは、ロジスティック回帰モデルです。

$$ \ log \ left(\ frac {P (Y_i = 1 | X_i)} {P(Y_i = 0 | X_i)} \ right)= \ beta_0 + \ beta_1 X_ {i1} + ... + \ beta_p X_ {ip} $$

つまり、予測子を条件として、回帰モデルを$ Y_i = 1 $の対数オッズに適合させます。係数は、予測子の増加が$ Y_i = 1 $である確率を増加または減少するかどうかを示し、特に指数化された係数はとして解釈できます。オッズ比。次に、回帰係数に関する仮説の検定としてリサーチクエスチョンを組み立てることができます。ここでの予測子は連続またはカテゴリカルにすることができますが、3つ以上のカテゴリでカテゴリカルである場合は、さまざまなレベルの効果を確認するためにダミー変数を設定する必要があります。

繰り返し測定を説明するには、2つのことのいずれかを実行します。それぞれの解釈はわずかに異なります。

  • 変量効果を含める

    強い>個人の繰り返し測定間の相関をモデル化する-この場合、回帰係数は、予測子の1単位の変化に対して$ Y_i = 1 $である個人の対数の変化として解釈されます。 。個人レベルでの相関関係に関心がある場合は、このアプローチをお勧めします。このモデルは、 R lme4 パッケージを使用して適合させることができます。
  • 回帰係数にロバストな標準誤差を提供する GEE を使用します。これにより、データに相関関係があるにもかかわらず、偏りのない推論が提供されます。ここでの係数は、母平均の対数オッズの変化として解釈されます。予測子の1単位の変化に対して$ Y_i $です。個人レベルでの相関が厄介であり(つまり、関心がない)、母集団について推論しようとしている場合は、このアプローチをお勧めします。このモデルは、 R gee パッケージを使用して適合させることができます。

  • 変量効果モデルとGEEの違いの詳細については、この回答

OPの編集に応じて編集:良い質問です!これは、最初にそれについて学んだときの微妙な問題です。あなたのコメントに基づいて

"将来、新しい患者をテストするときに、テストXが陽性であるとすると、結果が陽性になる可能性がZ倍高いと言えるでしょう。 Y "

母集団の平均効果ではなく、陽性テストの個人のオッズの変化について発言できるようにしたいと考えているようです。したがって、母集団の平均効果ではなく、個人レベルでの効果に関心があるように思われるので、変量効果モデルを当てはめることをお勧めします。

2番目の質問に関しては、それでも可能性があります。ロジスティックモデルを使用するのが適切ですが、あなたが言ったことから、 center は、潜在的に予測子と相互作用する必要がある重要なカテゴリ予測子です。

「係数[...]はオッズ比として解釈できます。」方程式$ \ frac {P(Y_i = 1 | X_i)} {P(Y_i = 0 | X_i)} = e ^ {\ beta_0} \ cdot e ^ {\ beta_1 X_ {i1}の指数化された係数を意味しますか} \ cdot ... \ cdot e ^ {\ beta_p X_ {ip}} $?
はい、私は指数化された係数がオッズ比として解釈できることを意味しました。ありがとう、@caracal。直します。
返信いただきありがとうございます!ロジスティック回帰モデルには連続予測子が必要であるため、状況が変わるという印象を受けました。
@ric,どういたしまして。通常の回帰と同様に、ロジスティック回帰では、カテゴリカル予測子と連続予測子の両方を使用できます。お役に立てて嬉しいです。
実際、私は誤ってコメントの編集を終了しました、そしてあなたはとても速く答えました!追加の質問をいくつか入力し始めましたが、コメントするには長すぎるため、上記の編集として投稿します。
OK、助けてくれてありがとう! lme4を読んで、データを試してみます。結果の解釈について質問がある場合、このスレッドを続行できますか?
@ric,はお気軽にお問い合わせください。できればお手伝いします!
@Macro,ヘルプ!真面目な話ではありませんが、これまでの結果に上記の2番目の編集を追加しましたが、かなり迷っています。私を正しい方向に向ける時間があれば、それは素晴らしいことです。
@ric,モデル式にいくつかの括弧がありません。 `1 | id`を`(1 | id) `に置き換えてみてください。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...