公益財団法人 日本医療機能評価機構 客員研究主幹 森實敏夫 |
英国National Institute for Health and Care Excellence (NICE)、米国National Institute of Medicine (IOM)などが、それぞれ新しい診療ガイドライン作成方法について検討を重ね、発表するに至っている。これらの背景には、予防、診断、治療、モニター、あるいはケア供給改善を目的とした介入の実臨床の現場での効果Effectiveness、益・害のバランス、患者の価値観や好みを重視する考えが普及してきたことにある。
診療ガイドライン作成方法にもさまざまな変化が生じているが、現時点では多くの診療ガイドライン作成主体は類似した方法論に到達している。本報告書では最近の海外動向をふまえ、現時点でのスタンダードと思われる診療ガイドライン作成方法について述べる。
目的
方法
結果
1990年のIOMの定義では、「特定の医療状況で医療供給者と患者・介護者の適切な医療のための意思決定を支援するために系統的に作成された文書」とされていた。IOMは2011年これを再定義し2)、「患者のケアを最適化する目的でエビデンスのシステマティックレビューとケアの異なる選択肢の益と害の評価に裏付けられた推奨を含む声明集」とした。
この定義の中には以下のようなさまざまな意味が含まれている。
- 単なるエビデンス集ではなく、推奨が提供され、推奨には強さが付けられている。
- 系統的に収集された研究から得られるエビデンスに基づいている。
- 最新・最善であるためにはエビデンスの評価が偏りなく公正に行われていることが必要である。
- 最新であるためには改訂時期が明示され必要に応じて改訂される必要がある。
- 臨床的問題ごとにすなわちクリニカルクエスチョン単位で推奨が記述されている必要がある。
- 推奨が実行されることにより患者アウトカムが改善し、全体としての医療の質が向上することが期待されている。
- 医師の意思決定を支援するだけでなく、患者・介護者の意思決定にも役立つ必要がある。したがって、医療者向けと一般向けの両方が望まれる。
IOMは”Clinical Practice Guideline We Can Trust”1), “Finding What Works in Health Care: Standards for Systematic Review”3)を2011年に出版しており、Agency for Healthcare Research and Quality (AHRQ)も米国議会、保健省の要請を受け”Methods Guide for Effectiveness and Comparative Effectiveness Reviews”4)など診療ガイドライン作成に関連する文書を数多く発行し、ウェブ上で公開している。これらの文書はすべてその領域のシステマティックレビューに基づいており、包括的な内容である。
あるべき診療ガイドラインの条件として以下の項目があげられる:
- 存在するエビデンスのシステマティックレビューに基づく。
- エビデンスの質と強さを提供する。
- 益と不利益(害・負担・費用)の両方を考慮する
- 患者・介護者の価値観や好みを考慮する。
- 推奨の強さを提供する。
これらの条件は国際的なGRADE Working Group5)や英国のNICE6)、その他諸外国の診療ガイドライン作成主体が共通にあげている7)。
■診療ガイドライン作成手順のコア
2004年にGRADE Working Groupが診療ガイドライン作成の方法を国際的に標準化する必要性を訴え、GRADE systemを発表した。GRADE Working Groupは国際的な標準として普及することを理念としているため、さまざまな国でキャンペーン活動としてワークショップを開催している。我が国では相原ら8)がマニュアルを翻訳し出版したりウェブ上で情報提供を行ったりしている。
GRADE systemは多くの機関が採用しているが、GRADE system自体が発展途上であることもあり、必ずしもそれぞれのガイドライン作成組織によって、オリジナルのままで用いられているわけではない。たとえば、NICEはThe guideline manualの中で、エビデンスの評価にはGRADE systemを採用するが、エビデンス総体の評価結果を図示することと推奨の強さを“強い”、“弱い”の2段階であることを明示することはしない、かわりに”must”, “should”, “could”の表現によって表すという2点で異なっていることを述べている。
細部では相違点があっても、IOM、NICE、GRADEのいずれも作業手順のコアの部分は共通であり、以下のプロセスである。
- 臨床的文脈(Clinical context)の中で取り上げるべき臨床課題(Clinical issue)を決める。
- 臨床課題に基づきクリニカルクエスチョン(Clinical question)を作成する。
- 益のアウトカムと不利益のアウトカム(害・負担・費用)をリストアップし重要性を決める。
- エビデンスを収集する。
- アウトカムごとにエビデンスを評価する。
- アウトカムごとにエビデンスを統合し(システマティックレビュー)エビデンス総体の強さを評価する。
- エビデンスの強さ(効果の大きさと不確実性)、益、不利益(害・負担)、患者・介護者の価値観や好みを評価、費用を評価して推奨の強さを決める。
以下ポイントについて解説する。
■臨床課題を解析するための枠組み
AHRQではクリニカルクエスチョンの作成時に、臨床的文脈の中における臨床課題の位置づけを明らかにするために、図1に一例として示すような枠組み(Analytic framework)を作成することを推奨している。
図1.臨床課題を解析するための臨床的文脈の枠組みの一例と臨床課題の例
臨床課題からあるいは臨床課題が分解されてクリニカルクエスチョンが作成される。クリニカルクエスチョンはPopulation, Intervention, ComparisonまたはComparator, Outcome(PICO)の各項目について定義される。
■個別の研究の評価からエビデンス総体の評価へ
いずれの機関もほぼ同様の方法論を推奨している。個別の研究について以下の項目の評価から始められる9)。
研究デザイン study design バイアスリスク risk of bias 選択バイアス:ランダム割り付け、コンシールメント 実行バイアス:医療供給者および患者に対する盲検化 測定バイアス:アウトカム測定者に対する盲検化 症例減少バイアス:アウトカム不完全報告バイアス、Intention-to-treat(ITT)解析 その他のバイアス:選択的アウトカム報告、早期試験中止、その他 非直接性:対象、介入、対照、アウトカム |
バイアスリスク 非一貫性 inconsistency 不精確 imprecision 非直接性 indirectness その他(出版[報告]バイアスなど) |
また、実際の研究が実施されて得られたデータはサンプリングエラーが含まれている。全く同じ研究を何回も実施した場合、対象者のエントリーはランダムに起きるとすると偶然による偏りが生じ、効果指標の値は同じにはならない。論文で提示されているデータはその中の1つであり(一般的に点推定値と信頼区間で示される)、それが観察された研究である。通常は同じPICOに対応する実際の研究がそれぞれ異なり、1回しか実施されないので、観察された研究間のばらつきは、サンプリングエラーにバイアスによるばらつきが加味されたものになる。
以上述べたことを図示したのが、図2である11)。
図2.エビデンス評価におけるバイアスと非直接性の評価
個々のクリニカルクエスチョンに対応したエビデンス総体の評価には、非直接性の評価を包含するので、同じエビデンス総体がエビデンスの質は同じであっても、クリニカルクエスチョンによってエビデンスの強さは変化する可能性がある。
システマティックレビューの結果統合されたエビデンス総体についての評価では、全体としてのバイアスリスク、研究間のばらつき=非一貫性=研究間の異質性、効果指標の信頼区間の広さ=不精確、全体としての非直接性、出版[報告]バイアスなどを評価する12)。また、バイアスリスクの評価は、論文の方法の欄に実施したと書かれているかどうかで判定するのではなく、研究結果をみて判断しなければならない。したがって、バイアスリスクの評価は評価者によって異なる可能性がある。エビデンス総体の評価は4段階:高(A)、中(B)、低(C)、非常に低(D)で行うが、担当者全員で意見を調整し一本化する必要がある。
非直接性については、AHRQは測定アウトカムと介入比較、すなわちいわゆる代理アウトカムかどうかと間接的な介入の比較かどうかの観点からのみ、非直接性を評価することを提唱している。それ以外のPopulationの年齢、性別、重症度、病期、併存疾患などの相違による非直接性は適用可能性Applicabilityとして取り扱い、エビデンスの強さの評価には含めない方針を採用している。
しかしながら、これらも非直接性として取り扱い、バイアスリスクと一元的に取り扱うほうが論理的にもまた理解の容易さの点からも優れていると考えられる。
■システマティックレビュー
システマティックレビューの定義はさまざまに行われているのが現状である。欧米では多くの場合システマティックレビューと言う言葉がメタアナリシスと同義語で用いられている。しかし、実際にはメタアナリシスを伴わないシステマティックレビューも存在し、システマティックレビューではないメタアナリシスもありうるので、完全な同義語ではない。
また、メタアナリシスでは効果指標の値が統計学的に統合され統合値と信頼区間が計算される。そのため、メタアナリシスが定量的統合であり、メタアナリシスと定性的統合とは異なると思われがちである。しかし、現状ではバイアスを定量的に評価して、それを定量的なメタアナリシスに取り込むことが一般化していないため、バイアスの評価がメタアナリシスによって得られる効果指標の統合値に反映されていないだけであって、定性的に行われるバイアスの評価はメタアナリシスの重要な構成要素である。この点はIOMの“Standards for systematic reviews”でも強調されている点である3)。定量的システマティックレビューと言う場合には、いわゆるメタアナリシスにバイアスの評価など定性的なシステマティックレビューを同時に行うことが求められている。
定量的システマティックレビューも定性的システマティックレビューもシステマティックレビューと呼べるための共通の条件としては、図3に示す項目があげられる。
図3.定量的システマティックレビューと定性的システマティックレビュー
また、研究デザイン、対象、介入、対照、アウトカムが類似していて同じ効果指標が得られる場合には定量的統合すなわちメタアナリシスで統合値を算出できるが、研究デザインが異なると定量的統合は困難である。たとえば、ある対象で同じ介入の効果を同じアウトカムで測定したランダム化比較試験と観察研究がそれぞれ複数あって、それらのエビデンス総体を評価する場合、たとえそれぞれの研究デザインごとに統合指標を算出できるとしても、バイアスの評価を定量的に行ってその結果で調整されたメタアナリシスを行わないと13)それらをさらに統計学的に統合することはできない。それができない場合には、エビデンス総体としては定性的な評価が必要である。したがって、エビデンス総体は定性的統合の結果と定量的統合の結果から構成される(図4)。
図4.エビデンス総体の構成
■益・不利益の評価から推奨へ
益・不利益あるいは益・害の評価法については、確立したものはないのが現状である13)。したがって、常識的な判断が求められるが、各クリニカルクエスチョンから考えうる益のアウトカムと不利益のアウトカム、特に害のアウトカムの重要性と効果の大きさから全体として益が不利益を十分上回るかどうかを判定することが求められる(図5)。
図5.益と不利益のバランスの評価
患者・介護者の価値観と好みを推奨にどのように反映させたらいいかについても、まだ試行錯誤の段階である。作成委員会にあるいは推奨決定委員会に代表者が参加する、あるいはドラフトについてフィードバックを得るなどの方法によって対処することが現時点でいえることである。
最後に診療ガイドライン作成手順を図示する(図6)。ここで述べたことが実現できるよう、診療ガイドライン作成グループの構成、利益相反の開示、外部フィードバックの反映、活用促進策、利用状況のモニタリング策などに考慮が必要とされる。
図6.診療ガイドライン作成手順
P:Population対象、 I:Intervention介入
C:Comparison, Comparator比較・対照、 O:Outcomeアウトカム
COI: Conflict of interest、 CQ: Clinical question.
考察
臨床研究のあり方に関しても、2009年に米国オバマ政権が”The American Recovery and Reinvestment Act”により比較効果研究Comparative Effectiveness Research (CER)に対して11億ドルの予算を配分し、Patient-Centered Outcomes Research Institute (PCORI)を設立し、National Institute of Health (NIH)、Agency for Healthcare Research and Quality (AHRQ)と共にCERを促進する活動が始まっている14,15)。
IOMの定義によれば、CERは“臨床状態の予防、診断、治療、モニターのため、あるいはケアの供給を改善するための方法の選択肢の益と害を比較するエビデンスの生成と統合を行うこと”である。そして、CERの目的は“個人および集団の両方で、消費者、臨床家、購入者と政策決定者が、ヘルスケアを改善するであろう、情報を与えられた上での決断を支援すること”である。
以上、診療ガイドライン作成方法の海外動向について述べ、それぞれポイントとなる概念、解釈、わが国での適用可能性について述べた。診療ガイドラインは当然のことながら社会的な意義を持つものであり、それだけで独立した学問的な意義のみで存在するものではない。診療ガイドライン作成方法も医学の進歩、社会科学の進歩、公衆の期待・受け止め方、医療のあり方などに影響され進化するものである。
参照文献
1) | http://www.gradeworkinggroup.org/publications/index.htm |
2) | http://www.iom.edu/Reports/2011/Clinical-Practice-Guidelines-We-Can-Trust.aspx |
3) | http://www.iom.edu/Reports/2011/Finding-What-Works-in-Health-Care-Standards-for-Systematic-Reviews/Standards.aspx |
4) | http://effectivehealthcare.ahrq.gov/index.cfm/search-for-guides-reviews-and-reports/?productid=318&pageaction=displayproduct |
5) | http://www.gradeworkinggroup.org/ |
6) | http://publications.nice.org.uk/the-guidelines-manual-pmg6 |
7) | Ansari S, Rashidian A: Guidelines for guidelines: are they up to the task? A comparative assessment of clinical practice guideline development handbooks. PLoS One 2012;7:e49864. (PubMed) |
8) | http://www.grade-jpn.com/ |
9) | Higgins JP, Altman DG, Gotzsche PC, Juni P, Moher D, Oxman AD, Savovic J, Schulz KF, Weeks L, Sterne JA; Cochrane Bias Methods Group; Cochrane Statistical Methods Group: The Cochrane Collaboration's tool for assessing risk of bias in randomised trials. BMJ 2011;343:d5928. (PubMed) |
10) | Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, Guyatt GH, Harbour RT, Haugh MC, Henry D, Hill S, Jaeschke R, Leng G, Liberati A, Magrini N, Mason J, Middleton P, Mrukowicz J, O'Connell D, Oxman AD, Phillips B, Schunemann HJ, Edejer T, Varonen H, Vist GE, Williams JW Jr, Zaza S; GRADE Working Group: Grading quality of evidence and strength of recommendations. BMJ 2004;328:1490. (PubMed) |
11) | Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. (PubMed) |
12) | Ioannidis JP, Trikalinos TA: The appropriateness of asymmetry tests for publication bias in meta-analyses: a large survey. CMAJ 2007;176:1091-6. (PubMed) |
13) | http://effectivehealthcare.ahrq.gov/search-for-guides-reviews-and-reports/?pageaction=displayproduct&productid=638 |
14) | Methodology Committee of the Patient-Centered Outcomes Research Institute (PCORI): Methodological standards and patient-centeredness in comparative effectiveness research: the PCORI perspective. JAMA 2012;307:1636-40. (PubMed) |
15) | Methodology Committee of the Patient-Centered Outcomes Research Institute (PCORI): Methodological standards and patient-centeredness in comparative effectiveness research: the PCORI perspective. JAMA 2012;307:1636-40. (PubMed) |
公益財団法人 日本医療機能評価機構 客員研究主幹 森實敏夫 |
英国National Institute for Health and Care Excellence (NICE)、米国National Institute of Medicine (IOM)などが、それぞれ新しい診療ガイドライン作成方法について検討を重ね、発表するに至っている。これらの背景には、予防、診断、治療、モニター、あるいはケア供給改善を目的とした介入の実臨床の現場での効果Effectiveness、益・害のバランス、患者の価値観や好みを重視する考えが普及してきたことにある。
診療ガイドライン作成方法にもさまざまな変化が生じているが、現時点では多くの診療ガイドライン作成主体は類似した方法論に到達している。本報告書では最近の海外動向をふまえ、現時点でのスタンダードと思われる診療ガイドライン作成方法について述べる。
目的
方法
結果
1990年のIOMの定義では、「特定の医療状況で医療供給者と患者・介護者の適切な医療のための意思決定を支援するために系統的に作成された文書」とされていた。IOMは2011年これを再定義し2)、「患者のケアを最適化する目的でエビデンスのシステマティックレビューとケアの異なる選択肢の益と害の評価に裏付けられた推奨を含む声明集」とした。
この定義の中には以下のようなさまざまな意味が含まれている。
- 単なるエビデンス集ではなく、推奨が提供され、推奨には強さが付けられている。
- 系統的に収集された研究から得られるエビデンスに基づいている。
- 最新・最善であるためにはエビデンスの評価が偏りなく公正に行われていることが必要である。
- 最新であるためには改訂時期が明示され必要に応じて改訂される必要がある。
- 臨床的問題ごとにすなわちクリニカルクエスチョン単位で推奨が記述されている必要がある。
- 推奨が実行されることにより患者アウトカムが改善し、全体としての医療の質が向上することが期待されている。
- 医師の意思決定を支援するだけでなく、患者・介護者の意思決定にも役立つ必要がある。したがって、医療者向けと一般向けの両方が望まれる。
IOMは”Clinical Practice Guideline We Can Trust”1), “Finding What Works in Health Care: Standards for Systematic Review”3)を2011年に出版しており、Agency for Healthcare Research and Quality (AHRQ)も米国議会、保健省の要請を受け”Methods Guide for Effectiveness and Comparative Effectiveness Reviews”4)など診療ガイドライン作成に関連する文書を数多く発行し、ウェブ上で公開している。これらの文書はすべてその領域のシステマティックレビューに基づいており、包括的な内容である。
あるべき診療ガイドラインの条件として以下の項目があげられる:
- 存在するエビデンスのシステマティックレビューに基づく。
- エビデンスの質と強さを提供する。
- 益と不利益(害・負担・費用)の両方を考慮する
- 患者・介護者の価値観や好みを考慮する。
- 推奨の強さを提供する。
これらの条件は国際的なGRADE Working Group5)や英国のNICE6)、その他諸外国の診療ガイドライン作成主体が共通にあげている7)。
■診療ガイドライン作成手順のコア
2004年にGRADE Working Groupが診療ガイドライン作成の方法を国際的に標準化する必要性を訴え、GRADE systemを発表した。GRADE Working Groupは国際的な標準として普及することを理念としているため、さまざまな国でキャンペーン活動としてワークショップを開催している。我が国では相原ら8)がマニュアルを翻訳し出版したりウェブ上で情報提供を行ったりしている。
GRADE systemは多くの機関が採用しているが、GRADE system自体が発展途上であることもあり、必ずしもそれぞれのガイドライン作成組織によって、オリジナルのままで用いられているわけではない。たとえば、NICEはThe guideline manualの中で、エビデンスの評価にはGRADE systemを採用するが、エビデンス総体の評価結果を図示することと推奨の強さを“強い”、“弱い”の2段階であることを明示することはしない、かわりに”must”, “should”, “could”の表現によって表すという2点で異なっていることを述べている。
細部では相違点があっても、IOM、NICE、GRADEのいずれも作業手順のコアの部分は共通であり、以下のプロセスである。
- 臨床的文脈(Clinical context)の中で取り上げるべき臨床課題(Clinical issue)を決める。
- 臨床課題に基づきクリニカルクエスチョン(Clinical question)を作成する。
- 益のアウトカムと不利益のアウトカム(害・負担・費用)をリストアップし重要性を決める。
- エビデンスを収集する。
- アウトカムごとにエビデンスを評価する。
- アウトカムごとにエビデンスを統合し(システマティックレビュー)エビデンス総体の強さを評価する。
- エビデンスの強さ(効果の大きさと不確実性)、益、不利益(害・負担)、患者・介護者の価値観や好みを評価、費用を評価して推奨の強さを決める。
以下ポイントについて解説する。
■臨床課題を解析するための枠組み
AHRQではクリニカルクエスチョンの作成時に、臨床的文脈の中における臨床課題の位置づけを明らかにするために、図1に一例として示すような枠組み(Analytic framework)を作成することを推奨している。
図1.臨床課題を解析するための臨床的文脈の枠組みの一例と臨床課題の例
臨床課題からあるいは臨床課題が分解されてクリニカルクエスチョンが作成される。クリニカルクエスチョンはPopulation, Intervention, ComparisonまたはComparator, Outcome(PICO)の各項目について定義される。
■個別の研究の評価からエビデンス総体の評価へ
いずれの機関もほぼ同様の方法論を推奨している。個別の研究について以下の項目の評価から始められる9)。
研究デザイン study design バイアスリスク risk of bias 選択バイアス:ランダム割り付け、コンシールメント 実行バイアス:医療供給者および患者に対する盲検化 測定バイアス:アウトカム測定者に対する盲検化 症例減少バイアス:アウトカム不完全報告バイアス、Intention-to-treat(ITT)解析 その他のバイアス:選択的アウトカム報告、早期試験中止、その他 非直接性:対象、介入、対照、アウトカム |
バイアスリスク 非一貫性 inconsistency 不精確 imprecision 非直接性 indirectness その他(出版[報告]バイアスなど) |
また、実際の研究が実施されて得られたデータはサンプリングエラーが含まれている。全く同じ研究を何回も実施した場合、対象者のエントリーはランダムに起きるとすると偶然による偏りが生じ、効果指標の値は同じにはならない。論文で提示されているデータはその中の1つであり(一般的に点推定値と信頼区間で示される)、それが観察された研究である。通常は同じPICOに対応する実際の研究がそれぞれ異なり、1回しか実施されないので、観察された研究間のばらつきは、サンプリングエラーにバイアスによるばらつきが加味されたものになる。
以上述べたことを図示したのが、図2である11)。
図2.エビデンス評価におけるバイアスと非直接性の評価
個々のクリニカルクエスチョンに対応したエビデンス総体の評価には、非直接性の評価を包含するので、同じエビデンス総体がエビデンスの質は同じであっても、クリニカルクエスチョンによってエビデンスの強さは変化する可能性がある。
システマティックレビューの結果統合されたエビデンス総体についての評価では、全体としてのバイアスリスク、研究間のばらつき=非一貫性=研究間の異質性、効果指標の信頼区間の広さ=不精確、全体としての非直接性、出版[報告]バイアスなどを評価する12)。また、バイアスリスクの評価は、論文の方法の欄に実施したと書かれているかどうかで判定するのではなく、研究結果をみて判断しなければならない。したがって、バイアスリスクの評価は評価者によって異なる可能性がある。エビデンス総体の評価は4段階:高(A)、中(B)、低(C)、非常に低(D)で行うが、担当者全員で意見を調整し一本化する必要がある。
非直接性については、AHRQは測定アウトカムと介入比較、すなわちいわゆる代理アウトカムかどうかと間接的な介入の比較かどうかの観点からのみ、非直接性を評価することを提唱している。それ以外のPopulationの年齢、性別、重症度、病期、併存疾患などの相違による非直接性は適用可能性Applicabilityとして取り扱い、エビデンスの強さの評価には含めない方針を採用している。
しかしながら、これらも非直接性として取り扱い、バイアスリスクと一元的に取り扱うほうが論理的にもまた理解の容易さの点からも優れていると考えられる。
■システマティックレビュー
システマティックレビューの定義はさまざまに行われているのが現状である。欧米では多くの場合システマティックレビューと言う言葉がメタアナリシスと同義語で用いられている。しかし、実際にはメタアナリシスを伴わないシステマティックレビューも存在し、システマティックレビューではないメタアナリシスもありうるので、完全な同義語ではない。
また、メタアナリシスでは効果指標の値が統計学的に統合され統合値と信頼区間が計算される。そのため、メタアナリシスが定量的統合であり、メタアナリシスと定性的統合とは異なると思われがちである。しかし、現状ではバイアスを定量的に評価して、それを定量的なメタアナリシスに取り込むことが一般化していないため、バイアスの評価がメタアナリシスによって得られる効果指標の統合値に反映されていないだけであって、定性的に行われるバイアスの評価はメタアナリシスの重要な構成要素である。この点はIOMの“Standards for systematic reviews”でも強調されている点である3)。定量的システマティックレビューと言う場合には、いわゆるメタアナリシスにバイアスの評価など定性的なシステマティックレビューを同時に行うことが求められている。
定量的システマティックレビューも定性的システマティックレビューもシステマティックレビューと呼べるための共通の条件としては、図3に示す項目があげられる。
図3.定量的システマティックレビューと定性的システマティックレビュー
また、研究デザイン、対象、介入、対照、アウトカムが類似していて同じ効果指標が得られる場合には定量的統合すなわちメタアナリシスで統合値を算出できるが、研究デザインが異なると定量的統合は困難である。たとえば、ある対象で同じ介入の効果を同じアウトカムで測定したランダム化比較試験と観察研究がそれぞれ複数あって、それらのエビデンス総体を評価する場合、たとえそれぞれの研究デザインごとに統合指標を算出できるとしても、バイアスの評価を定量的に行ってその結果で調整されたメタアナリシスを行わないと13)それらをさらに統計学的に統合することはできない。それができない場合には、エビデンス総体としては定性的な評価が必要である。したがって、エビデンス総体は定性的統合の結果と定量的統合の結果から構成される(図4)。
図4.エビデンス総体の構成
■益・不利益の評価から推奨へ
益・不利益あるいは益・害の評価法については、確立したものはないのが現状である13)。したがって、常識的な判断が求められるが、各クリニカルクエスチョンから考えうる益のアウトカムと不利益のアウトカム、特に害のアウトカムの重要性と効果の大きさから全体として益が不利益を十分上回るかどうかを判定することが求められる(図5)。
図5.益と不利益のバランスの評価
患者・介護者の価値観と好みを推奨にどのように反映させたらいいかについても、まだ試行錯誤の段階である。作成委員会にあるいは推奨決定委員会に代表者が参加する、あるいはドラフトについてフィードバックを得るなどの方法によって対処することが現時点でいえることである。
最後に診療ガイドライン作成手順を図示する(図6)。ここで述べたことが実現できるよう、診療ガイドライン作成グループの構成、利益相反の開示、外部フィードバックの反映、活用促進策、利用状況のモニタリング策などに考慮が必要とされる。
図6.診療ガイドライン作成手順
P:Population対象、 I:Intervention介入
C:Comparison, Comparator比較・対照、 O:Outcomeアウトカム
COI: Conflict of interest、 CQ: Clinical question.
考察
臨床研究のあり方に関しても、2009年に米国オバマ政権が”The American Recovery and Reinvestment Act”により比較効果研究Comparative Effectiveness Research (CER)に対して11億ドルの予算を配分し、Patient-Centered Outcomes Research Institute (PCORI)を設立し、National Institute of Health (NIH)、Agency for Healthcare Research and Quality (AHRQ)と共にCERを促進する活動が始まっている14,15)。
IOMの定義によれば、CERは“臨床状態の予防、診断、治療、モニターのため、あるいはケアの供給を改善するための方法の選択肢の益と害を比較するエビデンスの生成と統合を行うこと”である。そして、CERの目的は“個人および集団の両方で、消費者、臨床家、購入者と政策決定者が、ヘルスケアを改善するであろう、情報を与えられた上での決断を支援すること”である。
以上、診療ガイドライン作成方法の海外動向について述べ、それぞれポイントとなる概念、解釈、わが国での適用可能性について述べた。診療ガイドラインは当然のことながら社会的な意義を持つものであり、それだけで独立した学問的な意義のみで存在するものではない。診療ガイドライン作成方法も医学の進歩、社会科学の進歩、公衆の期待・受け止め方、医療のあり方などに影響され進化するものである。
参照文献
1) | http://www.gradeworkinggroup.org/publications/index.htm |
2) | http://www.iom.edu/Reports/2011/Clinical-Practice-Guidelines-We-Can-Trust.aspx |
3) | http://www.iom.edu/Reports/2011/Finding-What-Works-in-Health-Care-Standards-for-Systematic-Reviews/Standards.aspx |
4) | http://effectivehealthcare.ahrq.gov/index.cfm/search-for-guides-reviews-and-reports/?productid=318&pageaction=displayproduct |
5) | http://www.gradeworkinggroup.org/ |
6) | http://publications.nice.org.uk/the-guidelines-manual-pmg6 |
7) | Ansari S, Rashidian A: Guidelines for guidelines: are they up to the task? A comparative assessment of clinical practice guideline development handbooks. PLoS One 2012;7:e49864. (PubMed) |
8) | http://www.grade-jpn.com/ |
9) | Higgins JP, Altman DG, Gotzsche PC, Juni P, Moher D, Oxman AD, Savovic J, Schulz KF, Weeks L, Sterne JA; Cochrane Bias Methods Group; Cochrane Statistical Methods Group: The Cochrane Collaboration's tool for assessing risk of bias in randomised trials. BMJ 2011;343:d5928. (PubMed) |
10) | Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, Guyatt GH, Harbour RT, Haugh MC, Henry D, Hill S, Jaeschke R, Leng G, Liberati A, Magrini N, Mason J, Middleton P, Mrukowicz J, O'Connell D, Oxman AD, Phillips B, Schunemann HJ, Edejer T, Varonen H, Vist GE, Williams JW Jr, Zaza S; GRADE Working Group: Grading quality of evidence and strength of recommendations. BMJ 2004;328:1490. (PubMed) |
11) | Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. (PubMed) |
12) | Ioannidis JP, Trikalinos TA: The appropriateness of asymmetry tests for publication bias in meta-analyses: a large survey. CMAJ 2007;176:1091-6. (PubMed) |
13) | http://effectivehealthcare.ahrq.gov/search-for-guides-reviews-and-reports/?pageaction=displayproduct&productid=638 |
14) | Methodology Committee of the Patient-Centered Outcomes Research Institute (PCORI): Methodological standards and patient-centeredness in comparative effectiveness research: the PCORI perspective. JAMA 2012;307:1636-40. (PubMed) |
15) | Methodology Committee of the Patient-Centered Outcomes Research Institute (PCORI): Methodological standards and patient-centeredness in comparative effectiveness research: the PCORI perspective. JAMA 2012;307:1636-40. (PubMed) |
公益財団法人 日本医療機能評価機構 客員研究主幹 森實敏夫 |
英国National Institute for Health and Care Excellence (NICE)、米国National Institute of Medicine (IOM)などが、それぞれ新しい診療ガイドライン作成方法について検討を重ね、発表するに至っている。これらの背景には、予防、診断、治療、モニター、あるいはケア供給改善を目的とした介入の実臨床の現場での効果Effectiveness、益・害のバランス、患者の価値観や好みを重視する考えが普及してきたことにある。
診療ガイドライン作成方法にもさまざまな変化が生じているが、現時点では多くの診療ガイドライン作成主体は類似した方法論に到達している。本報告書では最近の海外動向をふまえ、現時点でのスタンダードと思われる診療ガイドライン作成方法について述べる。
目的
方法
結果
1990年のIOMの定義では、「特定の医療状況で医療供給者と患者・介護者の適切な医療のための意思決定を支援するために系統的に作成された文書」とされていた。IOMは2011年これを再定義し2)、「患者のケアを最適化する目的でエビデンスのシステマティックレビューとケアの異なる選択肢の益と害の評価に裏付けられた推奨を含む声明集」とした。
この定義の中には以下のようなさまざまな意味が含まれている。
- 単なるエビデンス集ではなく、推奨が提供され、推奨には強さが付けられている。
- 系統的に収集された研究から得られるエビデンスに基づいている。
- 最新・最善であるためにはエビデンスの評価が偏りなく公正に行われていることが必要である。
- 最新であるためには改訂時期が明示され必要に応じて改訂される必要がある。
- 臨床的問題ごとにすなわちクリニカルクエスチョン単位で推奨が記述されている必要がある。
- 推奨が実行されることにより患者アウトカムが改善し、全体としての医療の質が向上することが期待されている。
- 医師の意思決定を支援するだけでなく、患者・介護者の意思決定にも役立つ必要がある。したがって、医療者向けと一般向けの両方が望まれる。
IOMは”Clinical Practice Guideline We Can Trust”1), “Finding What Works in Health Care: Standards for Systematic Review”3)を2011年に出版しており、Agency for Healthcare Research and Quality (AHRQ)も米国議会、保健省の要請を受け”Methods Guide for Effectiveness and Comparative Effectiveness Reviews”4)など診療ガイドライン作成に関連する文書を数多く発行し、ウェブ上で公開している。これらの文書はすべてその領域のシステマティックレビューに基づいており、包括的な内容である。
あるべき診療ガイドラインの条件として以下の項目があげられる:
- 存在するエビデンスのシステマティックレビューに基づく。
- エビデンスの質と強さを提供する。
- 益と不利益(害・負担・費用)の両方を考慮する
- 患者・介護者の価値観や好みを考慮する。
- 推奨の強さを提供する。
これらの条件は国際的なGRADE Working Group5)や英国のNICE6)、その他諸外国の診療ガイドライン作成主体が共通にあげている7)。
■診療ガイドライン作成手順のコア
2004年にGRADE Working Groupが診療ガイドライン作成の方法を国際的に標準化する必要性を訴え、GRADE systemを発表した。GRADE Working Groupは国際的な標準として普及することを理念としているため、さまざまな国でキャンペーン活動としてワークショップを開催している。我が国では相原ら8)がマニュアルを翻訳し出版したりウェブ上で情報提供を行ったりしている。
GRADE systemは多くの機関が採用しているが、GRADE system自体が発展途上であることもあり、必ずしもそれぞれのガイドライン作成組織によって、オリジナルのままで用いられているわけではない。たとえば、NICEはThe guideline manualの中で、エビデンスの評価にはGRADE systemを採用するが、エビデンス総体の評価結果を図示することと推奨の強さを“強い”、“弱い”の2段階であることを明示することはしない、かわりに”must”, “should”, “could”の表現によって表すという2点で異なっていることを述べている。
細部では相違点があっても、IOM、NICE、GRADEのいずれも作業手順のコアの部分は共通であり、以下のプロセスである。
- 臨床的文脈(Clinical context)の中で取り上げるべき臨床課題(Clinical issue)を決める。
- 臨床課題に基づきクリニカルクエスチョン(Clinical question)を作成する。
- 益のアウトカムと不利益のアウトカム(害・負担・費用)をリストアップし重要性を決める。
- エビデンスを収集する。
- アウトカムごとにエビデンスを評価する。
- アウトカムごとにエビデンスを統合し(システマティックレビュー)エビデンス総体の強さを評価する。
- エビデンスの強さ(効果の大きさと不確実性)、益、不利益(害・負担)、患者・介護者の価値観や好みを評価、費用を評価して推奨の強さを決める。
以下ポイントについて解説する。
■臨床課題を解析するための枠組み
AHRQではクリニカルクエスチョンの作成時に、臨床的文脈の中における臨床課題の位置づけを明らかにするために、図1に一例として示すような枠組み(Analytic framework)を作成することを推奨している。
図1.臨床課題を解析するための臨床的文脈の枠組みの一例と臨床課題の例
臨床課題からあるいは臨床課題が分解されてクリニカルクエスチョンが作成される。クリニカルクエスチョンはPopulation, Intervention, ComparisonまたはComparator, Outcome(PICO)の各項目について定義される。
■個別の研究の評価からエビデンス総体の評価へ
いずれの機関もほぼ同様の方法論を推奨している。個別の研究について以下の項目の評価から始められる9)。
研究デザイン study design バイアスリスク risk of bias 選択バイアス:ランダム割り付け、コンシールメント 実行バイアス:医療供給者および患者に対する盲検化 測定バイアス:アウトカム測定者に対する盲検化 症例減少バイアス:アウトカム不完全報告バイアス、Intention-to-treat(ITT)解析 その他のバイアス:選択的アウトカム報告、早期試験中止、その他 非直接性:対象、介入、対照、アウトカム |
バイアスリスク 非一貫性 inconsistency 不精確 imprecision 非直接性 indirectness その他(出版[報告]バイアスなど) |
また、実際の研究が実施されて得られたデータはサンプリングエラーが含まれている。全く同じ研究を何回も実施した場合、対象者のエントリーはランダムに起きるとすると偶然による偏りが生じ、効果指標の値は同じにはならない。論文で提示されているデータはその中の1つであり(一般的に点推定値と信頼区間で示される)、それが観察された研究である。通常は同じPICOに対応する実際の研究がそれぞれ異なり、1回しか実施されないので、観察された研究間のばらつきは、サンプリングエラーにバイアスによるばらつきが加味されたものになる。
以上述べたことを図示したのが、図2である11)。
図2.エビデンス評価におけるバイアスと非直接性の評価
個々のクリニカルクエスチョンに対応したエビデンス総体の評価には、非直接性の評価を包含するので、同じエビデンス総体がエビデンスの質は同じであっても、クリニカルクエスチョンによってエビデンスの強さは変化する可能性がある。
システマティックレビューの結果統合されたエビデンス総体についての評価では、全体としてのバイアスリスク、研究間のばらつき=非一貫性=研究間の異質性、効果指標の信頼区間の広さ=不精確、全体としての非直接性、出版[報告]バイアスなどを評価する12)。また、バイアスリスクの評価は、論文の方法の欄に実施したと書かれているかどうかで判定するのではなく、研究結果をみて判断しなければならない。したがって、バイアスリスクの評価は評価者によって異なる可能性がある。エビデンス総体の評価は4段階:高(A)、中(B)、低(C)、非常に低(D)で行うが、担当者全員で意見を調整し一本化する必要がある。
非直接性については、AHRQは測定アウトカムと介入比較、すなわちいわゆる代理アウトカムかどうかと間接的な介入の比較かどうかの観点からのみ、非直接性を評価することを提唱している。それ以外のPopulationの年齢、性別、重症度、病期、併存疾患などの相違による非直接性は適用可能性Applicabilityとして取り扱い、エビデンスの強さの評価には含めない方針を採用している。
しかしながら、これらも非直接性として取り扱い、バイアスリスクと一元的に取り扱うほうが論理的にもまた理解の容易さの点からも優れていると考えられる。
■システマティックレビュー
システマティックレビューの定義はさまざまに行われているのが現状である。欧米では多くの場合システマティックレビューと言う言葉がメタアナリシスと同義語で用いられている。しかし、実際にはメタアナリシスを伴わないシステマティックレビューも存在し、システマティックレビューではないメタアナリシスもありうるので、完全な同義語ではない。
また、メタアナリシスでは効果指標の値が統計学的に統合され統合値と信頼区間が計算される。そのため、メタアナリシスが定量的統合であり、メタアナリシスと定性的統合とは異なると思われがちである。しかし、現状ではバイアスを定量的に評価して、それを定量的なメタアナリシスに取り込むことが一般化していないため、バイアスの評価がメタアナリシスによって得られる効果指標の統合値に反映されていないだけであって、定性的に行われるバイアスの評価はメタアナリシスの重要な構成要素である。この点はIOMの“Standards for systematic reviews”でも強調されている点である3)。定量的システマティックレビューと言う場合には、いわゆるメタアナリシスにバイアスの評価など定性的なシステマティックレビューを同時に行うことが求められている。
定量的システマティックレビューも定性的システマティックレビューもシステマティックレビューと呼べるための共通の条件としては、図3に示す項目があげられる。
図3.定量的システマティックレビューと定性的システマティックレビュー
また、研究デザイン、対象、介入、対照、アウトカムが類似していて同じ効果指標が得られる場合には定量的統合すなわちメタアナリシスで統合値を算出できるが、研究デザインが異なると定量的統合は困難である。たとえば、ある対象で同じ介入の効果を同じアウトカムで測定したランダム化比較試験と観察研究がそれぞれ複数あって、それらのエビデンス総体を評価する場合、たとえそれぞれの研究デザインごとに統合指標を算出できるとしても、バイアスの評価を定量的に行ってその結果で調整されたメタアナリシスを行わないと13)それらをさらに統計学的に統合することはできない。それができない場合には、エビデンス総体としては定性的な評価が必要である。したがって、エビデンス総体は定性的統合の結果と定量的統合の結果から構成される(図4)。
図4.エビデンス総体の構成
■益・不利益の評価から推奨へ
益・不利益あるいは益・害の評価法については、確立したものはないのが現状である13)。したがって、常識的な判断が求められるが、各クリニカルクエスチョンから考えうる益のアウトカムと不利益のアウトカム、特に害のアウトカムの重要性と効果の大きさから全体として益が不利益を十分上回るかどうかを判定することが求められる(図5)。
図5.益と不利益のバランスの評価
患者・介護者の価値観と好みを推奨にどのように反映させたらいいかについても、まだ試行錯誤の段階である。作成委員会にあるいは推奨決定委員会に代表者が参加する、あるいはドラフトについてフィードバックを得るなどの方法によって対処することが現時点でいえることである。
最後に診療ガイドライン作成手順を図示する(図6)。ここで述べたことが実現できるよう、診療ガイドライン作成グループの構成、利益相反の開示、外部フィードバックの反映、活用促進策、利用状況のモニタリング策などに考慮が必要とされる。
図6.診療ガイドライン作成手順
P:Population対象、 I:Intervention介入
C:Comparison, Comparator比較・対照、 O:Outcomeアウトカム
COI: Conflict of interest、 CQ: Clinical question.
考察
臨床研究のあり方に関しても、2009年に米国オバマ政権が”The American Recovery and Reinvestment Act”により比較効果研究Comparative Effectiveness Research (CER)に対して11億ドルの予算を配分し、Patient-Centered Outcomes Research Institute (PCORI)を設立し、National Institute of Health (NIH)、Agency for Healthcare Research and Quality (AHRQ)と共にCERを促進する活動が始まっている14,15)。
IOMの定義によれば、CERは“臨床状態の予防、診断、治療、モニターのため、あるいはケアの供給を改善するための方法の選択肢の益と害を比較するエビデンスの生成と統合を行うこと”である。そして、CERの目的は“個人および集団の両方で、消費者、臨床家、購入者と政策決定者が、ヘルスケアを改善するであろう、情報を与えられた上での決断を支援すること”である。
以上、診療ガイドライン作成方法の海外動向について述べ、それぞれポイントとなる概念、解釈、わが国での適用可能性について述べた。診療ガイドラインは当然のことながら社会的な意義を持つものであり、それだけで独立した学問的な意義のみで存在するものではない。診療ガイドライン作成方法も医学の進歩、社会科学の進歩、公衆の期待・受け止め方、医療のあり方などに影響され進化するものである。
参照文献
1) | http://www.gradeworkinggroup.org/publications/index.htm |
2) | http://www.iom.edu/Reports/2011/Clinical-Practice-Guidelines-We-Can-Trust.aspx |
3) | http://www.iom.edu/Reports/2011/Finding-What-Works-in-Health-Care-Standards-for-Systematic-Reviews/Standards.aspx |
4) | http://effectivehealthcare.ahrq.gov/index.cfm/search-for-guides-reviews-and-reports/?productid=318&pageaction=displayproduct |
5) | http://www.gradeworkinggroup.org/ |
6) | http://publications.nice.org.uk/the-guidelines-manual-pmg6 |
7) | Ansari S, Rashidian A: Guidelines for guidelines: are they up to the task? A comparative assessment of clinical practice guideline development handbooks. PLoS One 2012;7:e49864. (PubMed) |
8) | http://www.grade-jpn.com/ |
9) | Higgins JP, Altman DG, Gotzsche PC, Juni P, Moher D, Oxman AD, Savovic J, Schulz KF, Weeks L, Sterne JA; Cochrane Bias Methods Group; Cochrane Statistical Methods Group: The Cochrane Collaboration's tool for assessing risk of bias in randomised trials. BMJ 2011;343:d5928. (PubMed) |
10) | Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, Guyatt GH, Harbour RT, Haugh MC, Henry D, Hill S, Jaeschke R, Leng G, Liberati A, Magrini N, Mason J, Middleton P, Mrukowicz J, O'Connell D, Oxman AD, Phillips B, Schunemann HJ, Edejer T, Varonen H, Vist GE, Williams JW Jr, Zaza S; GRADE Working Group: Grading quality of evidence and strength of recommendations. BMJ 2004;328:1490. (PubMed) |
11) | Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. (PubMed) |
12) | Ioannidis JP, Trikalinos TA: The appropriateness of asymmetry tests for publication bias in meta-analyses: a large survey. CMAJ 2007;176:1091-6. (PubMed) |
13) | http://effectivehealthcare.ahrq.gov/search-for-guides-reviews-and-reports/?pageaction=displayproduct&productid=638 |
14) | Methodology Committee of the Patient-Centered Outcomes Research Institute (PCORI): Methodological standards and patient-centeredness in comparative effectiveness research: the PCORI perspective. JAMA 2012;307:1636-40. (PubMed) |
15) | Methodology Committee of the Patient-Centered Outcomes Research Institute (PCORI): Methodological standards and patient-centeredness in comparative effectiveness research: the PCORI perspective. JAMA 2012;307:1636-40. (PubMed) |