高品質のエビデンスに裏打ちされている医療はXNUMX分のXNUMXに過ぎない
Towfiqu ahamed barbhuiya / Shutterstock

あなたがあなたの医者を訪問するとき、あなたは彼らが処方する治療がそれを裏付ける確かな証拠を持っていると思い込むかもしれません。 しかし、あなたは間違っているでしょう。 質の高いエビデンスによって支えられているのは、XNUMX回にXNUMX回の治療だけです。 私たちの最新の研究ショー.

Journal of Clinical Epidemiologyで公開されている分析には、154年から2015年の間に公開された2019のコクラン系統的レビューが含まれていました。 ゴールドスタンダード法 それらがGRADE(推奨の評価、評価、開発、評価)と呼ばれる高品質の証拠を提供するか、低品質の証拠を提供するかを決定します。 これらのうち、37つだけが統計的に有意な結果(ランダムなエラーが原因で結果が発生する可能性が低いことを意味する)があり、レビュー著者は臨床診療に有用であると信じていました。 同じシステムを使用すると、31%が中程度、22%が低、XNUMX%が非常に質の低い証拠でした。

GRADEシステムは、バイアスのリスクなどを調べます。 たとえば、患者が実際の治療を受けているのかプラセボなのかわからない「盲検」の研究は、「非盲検」の研究よりも質の高い証拠を提供します。 彼らが得ている治療法を知っている人は経験できるので、盲目は重要です より大きなプラセボ効果 彼らが受けている治療を知らない人よりも。

とりわけ、GRADEは、治療法の使用方法の違いが原因で研究が不正確であったかどうかも検討します。 2016年のレビューで、研究者らは、13.5%(約XNUMX分のXNUMX)が高品質のエビデンスによって治療がサポートされていると報告していることを発見しました。 GRADEによると、高品質の証拠がないことは、将来の研究が結果を覆す可能性があることを意味します。

154の研究は、以前の更新であったために選択されました 608の系統的レビューのレビュー、2016年に実施。これにより、新しいエビデンスで更新されたレビューに、より質の高いエビデンスがあったかどうかを確認できます。 彼らはしませんでした。 2016年の調査では、13.5%が治療は高品質のエビデンスでサポートされていると報告しているため、より多くのエビデンスが収集されるにつれて品質が低下する傾向がありました。


インナーセルフ購読グラフィック


この研究にはいくつかの制限がありました。 最初に、研究のサンプルサイズは代表的ではなかった可能性があり、他の研究では、 医療の40%以上が効果的である可能性が高い。 また、研究のサンプルは、他よりも優れた特定の種類の医療(薬理学的、外科的、心理的)があるかどうかを確認するのに十分な大きさではありませんでした。 証拠をランク付けするための「ゴールドスタンダード」(GRADE)が厳しすぎる可能性もあります。

低すぎる研究が多すぎる

多くの質の悪い試験が発表されており、私たちの研究はこれを反映しているにすぎません。 への圧力のために アカデミアで生き残るために「公開するか消滅させる」、ますます多くの研究が行われています。 PubMedだけでも–公開された医療論文のデータベース–毎年12,000件を超える新しい臨床試験が公開されています。 それは 毎日30の試験が公開されています。 系統的レビューはこれらを総合するために設計されましたが、今ではそれらの数も多すぎます。 年間2,000 PubMedだけで公開されています。

エビデンスに基づく医学運動は、30年以上にわたって研究の質を改善する必要性について太鼓を押し続けてきましたが、逆説的には、 物事は改善しました にもかかわらず ガイドラインの急増 とガイダンス。

1994年、オックスフォード大学の医学統計学の教授であるダグアルトマンは、 少ないが良い研究。 これは良かったのですが、逆のことが起こりました。 必然的に、毎年発表される試験の津波は、学界で生き残るために公開する必要性と相まって、大量のゴミが公開されるようになり、これは時間の経過とともに変わっていません。

質の悪いエビデンスは深刻です。適切なエビデンスがなければ、使用する治療法が機能するかどうかを確信することはできません。

高品質のエビデンスに裏打ちされている医療はXNUMX分のXNUMXに過ぎないそれは冗談であることを意味していました。 Twitter

GRADEシステムが厳しすぎる

大工は道具を最後の手段として非難するだけでよいので、GRADEが機能しないという言い訳は慎重に使用する必要があります。 しかし、GRADEシステムが一部のコンテキストに対して厳しすぎることはおそらく本当です。 たとえば、特定の運動療法を高品質で評価する試験を行うことはほぼ不可能です。

運動試験は「盲検化」することはできません。運動をしている人は誰もが運動グループにいることを知っていますが、対照群の人は運動をしていないことを知っています。 また、大人数のグループがまったく同じ運動をするようにするのは難しいですが、全員に同じ薬を飲ませることは簡単です。 これらの固有の問題は、安全なエクササイズがいかに有用であっても、エクササイズ試行を低品質であると判断することを非難します。

また、私たちの方法は厳格でした。 系統的レビューには多くの結果(それぞれが高品質になる可能性がある)がありましたが、私たちは主要な結果に焦点を当てました。 たとえば、鎮痛剤のレビューの主な結果は、痛みの軽減です。 次に、不安の軽減から患者の満足度に至るまで、さまざまな二次的転帰を測定することもあります。

主要な結果に焦点を当てることで、誤った結果を防ぎます。 多くの結果を見ると、そのうちのXNUMXつが高品質になる危険があります。 たまたま。 これを軽減するために、主要な結果でなくても、結果があるかどうかを調べました。 XNUMXつの治療法のうちのXNUMXつに、あらゆる結果について高品質の証拠があることがわかりました。

平均して、体系的レビューで有効性がテストされているほとんどの医療は、高品質の証拠によってサポートされていません。 不確実性に対処するために必要な研究は少なくなりますが、より良いものにする必要があります。そうすることで、私たちが行っている治療法をより確信できるようになります。会話

著者について

Oxford Empathy ProgramのディレクターJeremy Howickは、 オックスフォード大学

この記事はから再公開されます 会話 クリエイティブコモンズライセンスの下で 読む 原著.

本の科学