質問:
複数のt検定のp値補正?
no_name
2014-12-13 01:25:37 UTC
view on stackexchange narkive permalink

私のデータセットは$ n $の遺伝子で構成されており、それぞれが発現値のベクトルで記述されています。「健康な」個人の場合は$ 5 $、「不健康な」個人の場合は$ 5 $です。

$ n $ t検定(遺伝子ごとに1つ)を実行して、健康な集団と不健康な集団の間で異なる動作を示す遺伝子を特定します。

修正を検討する必要があります(Bonferroni、Holm、Benjamini &など)。 Hochberg ...)$ n $ p値の場合?

編集:

私のケースが多重比較問題であるかどうか疑問に思っています。

実際、私は遺伝子を比較しませんが、各遺伝子の2つの異なる母集団(健康なものと不健康なもの)の値のみを比較します。したがって、多重比較は見られません。

つまり、健康なサンプルと不健康なサンプルの間で異なる動作をする遺伝子を見つけることに興味があります。 2つの遺伝子が同じように動作するかどうかを調べることに興味はありません。

明らかに、$ n $ t検定を実行すると、補正を計算した後よりもはるかに多くのp値が$ 0.05 $より低くなります。

ようこそ![誤検出率の制御](https://en.wikipedia.org/wiki/False_discovery_rate)または[ファミリーワイズエラー率]の制御に関するウィキペディアの記事を読んだときに、あなたの既存の理解と混乱する場所は何ですか。(https://en.wikipedia.org/wiki/Familywise_error_rate)?* how *(ありがたいことに、howは非常に簡単で、ソフトウェアに実装されることが多い)、* when *($ n $の比較で正しい方向に進んでいるように見える)、または* why *ですか?または、他の何か?左下の「編集」リンクをクリックすると、これらの線に沿って質問を明確にすることができます。
ある種の修正を適用するかどうか、およびそれらを適用する計算の種類は、推論にどのようなプロパティを持たせるかによって異なります。状況によっては、タイプIのエラー率(または、それ以上気にする場合は誤検出率)が、必要なプロパティを既に持っているように選択されている場合、修正を気にしない場合があります。たとえば、「私が選択した$ \ alpha $は、実際には、比較ごとに使用できるタイプIのエラー率です。なぜ調整する必要があるのでしょうか?」と言うかもしれません。(テスト間の依存が可能であることに注意してください)
@no_name:も参照してくださいhttp://stats.stackexchange.com/questions/164181/family-wise-error-boundary-does-re-using-data-sets-on-different-studies-of-inde/164232#164232
二 答え:
cdeterman
2014-12-13 01:39:04 UTC
view on stackexchange narkive permalink

絶対に修正を適用したい。重要なアイデアは、偶然に重要性を特定することです。比較の数を増やすと、偶然に有意になるものの数が増えます。

たとえば、有意水準0.05を使用して100回の比較を行う一般的な例を見てみましょう。ここで、0.05のp値は、帰無仮説が真の場合にその結果を得る可能性が5%あることを意味します。したがって、これらの100の比較を行うと、偶然に重要な5つの遺伝子が見つかると予想されます。

そのため、これらの誤検知(タイプ1エラー)を回避するために)p値を「修正」することで、テストをより保守的にします。

修正の選択もさまざまです。ボンフェローニは一般的な修正ですが、数千の遺伝子がある場合、非常に保守的であるため、重要なものが見つかる可能性は非常に低くなります。その場合、「FDR」(偽発見率)補正を使用できます。絶対的な答えはないので、可能性を探り、最良の選択をし、もちろんどの修正を適用したかを報告する必要があります。

編集

以下のコメントについて、例として概念の実証に役立ちます。

Rを使用して、2つの処理(AとB)で250個の遺伝子の完全にランダムな値を生成します。

  set.seed(8)df<- data.frame(expression = runif(1000)、gene = rep(paste( "gene"、seq(250))、4)、treatment = rep(c( "A"、 "A"、 "B"、 "B ")、each = 250)) 

次に、データを遺伝子ごとに分割し、2つのグループを比較するt.testを実行します。

  out <- do.call( "rbind"、lapply(split(df、df $ gene)、function(x)t.test(expression〜treatment、x)$ p.value)) 

これが完全にランダムなデータであることを考えると、大きな違いはないはずですが、 9つの重要な遺伝子がいくつあるかを数えると!!!

  length(which(out < 0.05))[1] 9  

このような間違いを避けることが、これらの修正を行う背後にあるポイントです。うまくいけば、これはあなたのために明確にするのに役立ちます。

私はあなたの主張を理解していますが、実際には私は比較をまったく行っていません。各遺伝子について、私は$ 5 $の健康な個人に対応する$ 5 $の値と、$ 5 $の不健康な個人に対応する$ 5 $の値を持っています。t検定の後、その遺伝子のp値を取得し、そのp値が$ 0.05 $より大きい場合は、その遺伝子を破棄します。この手順は、すべての$ n $遺伝子に対して計算されます。したがって、遺伝子間に比較がないのに、なぜp値を修正する必要があるのでしょうか。
FWER修正とFDR修正には、重要な哲学的な違いが埋め込まれていることを付け加えておきます。前者は*ヌル仮説が偽ではない*と仮定し、後者は*いくつかのヌル仮説が偽である可能性がある*と仮定します。後者は、多くの人の心に、科学的探究の精神により忠実です(つまり、私たちが研究するものはすべて私たちが研究するものとは無関係であると信じているので、私たちは科学を**しません**)。
@no_name *毎回** t *テストを実行するため、誤検知の可能性が高くなります。それはくじのようなものです。プレイすればするほど、「勝つ」可能性が高くなります(「勝つ」は誤って帰無仮説を棄却します)。
ただし、遺伝子1のp値の計算は、遺伝子1のp値の計算に依存しません。遺伝子のペア間の比較はありません。
@no_name,は私の編集をご覧ください。Alexis(追加のコメントに感謝します)が言っているのは、遺伝子間で比較しているのではなく、**多くの遺伝子に同じ比較を適用している**ということです。アイデアは、測定する遺伝子が多いほど、偶然に大幅に異なる遺伝子を見つける可能性が高くなるということです。
@no_name別の見方:$ H_ {0} $ sがすべて真であると仮定すると、1つのテストがあるときに少なくとも1つのタイプIエラーが発生する可能性はどのくらいありますか?まあ、それは$ \ alpha $です。* 2つの*テストがある場合はどうですか?これらの2つのテストのうち、少なくとも1つの$ H_ {0} $を拒否する確率は$ \ alpha $ではなく、(二項分布ごとに)$ 2 \ alpha(1- \ alpha)+ \ alpha ^ {2} $ ...確率が0.0975に等しい$ \ alpha = 0.05 $と仮定すると、単一のテストの場合よりも確率がほぼ* 2倍*になります!
@cdeterman:も参照してくださいhttp://stats.stackexchange.com/questions/164181/family-wise-error-boundary-does-re-using-data-sets-on-different-studies-of-inde/164232#164232
@Alexis:は、http://stats.stackexchange.com/questions/164181/family-wise-error-boundary-does-re-using-data-sets-on-different-studies-of-inde/164232#164232も参照してください。
Bonferroni
2017-12-30 07:02:35 UTC
view on stackexchange narkive permalink

あなたは、遺伝子が互いに比較されていないため、比較が行われていないと言います。ただし、各t検定はまだ比較です。実際、それがt検定です。2つの平均の比較です。あなたの場合、それぞれの比較は、遺伝子Aと遺伝子Bの間ではなく、健康なグループと不健康なグループの間で行われますが、それでも比較です。

この混乱は、同義語の「多重検定」を「多重比較」に置き換えることで回避できます。

当然、ボンフェローニは多重検定について知っています。多重検定と多重比較は同義です。混乱が何であるかはわかりませんが、ボンフェローニは+1です。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...