データで使用するのに最も適切な統計検定を見つけようとしていて、アドバイスを期待していました。
一次データはバイナリ独立変数で構成されています(患者検定-陽性または負。特定の臨床転帰を予測できるかどうかを判断するために、現時点では除外されているいくつかの欠落値があります。
転帰は通常(負またはグレード1〜4)です。ただし、ポジティブな結果に関心があるため、これをバイナリの結果(ネガティブまたはポジティブ)に簡略化できます。ただし、検定が一部のグレードのみを予測する場合は、これを知っておくとよいでしょう。
単純化されたケースでは、カイ二乗検定を使用できます。通常の結果に対処する方法がわかりません。
さらに、各患者には異なる時間に測定された複数のテストと結果がありますが、繰り返しの回数と時間はすべての患者で同じではありません。
各患者に関連する他のデータも多数あり、そのうちのいくつかはバイナリ(たとえば、性別、2つの研究センターの1つ、他の特定のテスト結果)、順序(異なるテスト結果)、および継続的です。 (年齢、さらにいくつかのテスト結果-場合によっては連続結果またはN / Aによって複雑になります。)
結果が連続である場合、混合効果線形モデルの使用を検討していると思います。そのため、さまざまな2次独立変数との影響または相互作用があったかどうかを判断できました。序数および/またはバイナリの結果に対して私ができる同等のことはありますか?
アドバイスをありがとう!Ric
Edit1 (以下のマクロによる回答):リンクされた回答を読んで、ランダム効果とGEEの詳細について説明しました。ただし、個人と人口に基づく係数がいつ必要になるかについては、正直なところまだわかりません。
私のデータに具体的に取り組むために、仮定された予測子が結果をどれだけうまく予測できるかを判断したいと思います。それが良い予測因子であることがわかった場合、将来新しい患者をテストするときに、テストXが陽性であるとすると、結果Yが陽性になる可能性がZ倍高いと言えるでしょう-これは影響します治療のコース。
では、この質問に答えるために変量効果またはGEEモデルが必要ですか?他のモデルが必要な同様のシナリオは何でしょうか?
予備実験として、X対Yでフィッシャーの直接確率検定を実行し(多くの観測が反復測定であるという事実を無視して)、統計的に有意な効果ではなく、可能性のある傾向の証拠を見つけました(p〜0.1) 。
研究センターに基づいてデータを2セットに分割した後、これを繰り返しました。センター1:p = 1、オッズ比〜1。センター2:p = 0.02、オッズ比〜3。他の独立した要因が、XがYを予測するか、センターと相関するかに影響を与える可能性があります。
ロジスティック回帰は、Xの予測効果に対するこれらの効果を調査するための適切な方法ですか? Xが予測的ではないが、他の要因が興味深いとはいえ、それが私たちの主要な質問に答えないことを私に伝えるだけの場合。 Xが予測的であるが、センター2のみ、特に治療後の早い時期の高齢患者にのみ当てはまることがわかった場合、それは私たちが探している種類のことです。
ありがとうございます!
Edit2 (結果を解釈しますか?):だから私はここ数日これで遊んでいますが、それでも作るのに問題がありますそれの感覚。 glm()を使用したロジスティック回帰に関する役立つテキストをいくつか見つけましたが、lme4には完全に理解できたものはありませんでした。おそらく、このテーマに関する優れたチュートリアルを知っている場合は...
いずれにせよ、データセットの詳細を入力するために、変数の構造をまとめた表を次に示します。
変数タイプレベルに値がありませんid係数760 inst factor20d1日付NA0d2整数NA0d3日付NA0d4整数NA0a整数NA2b整数NA6c係数22d係数26e係数27f係数22g論理NA6h整数NA12i数値NA43j係数20x係数20y係数2 0
主な仮説は、xがyを予測できるというものです。 yは応答変数です。最初に、xまたはyが欠落している観測値をすべて削除しました。 76人の患者で192件の観察が残った。ただし、いくつかの変数、特にhとiには欠測値があり、いくつかの予備テストに基づいて、それらが重要であるように見えます。一部の変数に欠損値がある50レコードがあり、どの変数にも欠損値のない142レコードが残っています。
私が理解している限り、glmer()には欠落値を処理する方法がなく、使用されている変数に欠落値がある場合、デフォルトでレコード全体が省略されます。サンプルと効果のサイズが比較的小さいため、これは問題になる可能性があると思います。そのため、これに対処する最善の方法がわかりません。
「id」は患者IDです。他のすべての変数が固定効果である変量効果として使用しようとしています。数式に変数を入れすぎると、glmerが収束しなくなることがわかりました。以下は、いくつかの単純なモデルと結果に使用したコマンドです。
コマンド:
lr1 <- glmer(formula = y〜x + 1 | id、data = s.dat、family = binomial);
結果:
ラプラス近似式による一般化線形混合モデルの適合:y〜x + 1 | idデータ:s.dat AIC BIClogLik逸脱度
238.9 252 -115.4 230.9変量効果:グループ名分散標準偏差Corr id(切片)0.97379 0.98681 xpositive 0.01454 0.12058 1.000 obsの数:197、グループ:id、76固定効果:推定標準エラーz値Pr(> | z |)(切片)-1.1343 0.2121 -5.349 8.85e-08 *** ---有意。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1
コマンド:
lr2 < --glmer(formula = y〜x * inst + 1 | id、data = s.dat、family = binomial);
結果:
一般化ラプラス近似式による線形混合モデルの適合:y〜x * inst + 1 | idデータ:s.dat AIC BIC logLik deviance 252.7 288.8 -115.4 230.7変量効果:グループ名分散標準偏差Corr id(切片)1.016604 1.00827 xpositive 0.072397 0.26907 1.000 instI2 1.626269 1.27525 -0.683 -0.683 xpositive:instI2 0.135144 0.36762 -0.817 -0.817 0.137 obsの数:197、グループ:id、76固定効果:推定標準エラーz値Pr(> | z |)(切片)-1.1224 0.2099 -5.347 8.96e-08 *** ---有意。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1
コマンド:
lr3 < --glmer(formula = y〜x * inst + h + i + 1 | id、data = s.dat、family = binomial);
result:
警告メッセージ:mer_finalize(ans)内:収束せずに反復制限に達しました(9)
コマンド:
lr4 <- glmer(formula = y〜x + h + i + 1 | id、data = s.dat、family = binomial);
結果:
一般化された線形混合モデルラプラス近似式による近似:y〜x + h + i + 1 | idデータ:s.dat AIC BIC logLik deviance 184.6 217.1 -81.31 162.6変量効果:グループ名分散標準偏差Corr
id(切片)1.1663e + 01 3.41508554 xpositive 1.2627e + 00 1.12369065 -0.284 h 7.9415e-02 0.28180626 -0.998 0.229 i 2.1064e-07 0.00045896 0.107 0.923 -0.164 obsの数:142、グループ:id、57固定効果:推定標準エラーz値Pr(> | z |)(切片)-1.3359 0.2792 -4.785 1.71e-06 *** ---有意。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1
これが何を言っているのか、またはその理由がよくわかりません。私の変数はすべて、固定効果ではなく変量効果として表示されています。
どんな啓蒙も大歓迎です!
ありがとう!