特別寄稿3   診療ガイドライン作成のためのシステマティックレビューの文献検索戦略

1   データベースの構造と検索

データベースはレコードが単位となりデータが保管されている。ひとつのレコードには複数のフィールドがありそこにフィールド名がラベルとして付与され、データが保管されている(図1)。
自由語検索の場合には、検索語句と一致する語句がいずれかのフィールドに含まれているレコードが引き出され一覧として表示される。一方、フィールドを指定して検索することもできる。たとえば、PubMedの場合、meta-analysis[ti]を検索するとtiすなわちTitleのフィールドにmeta-analysisという語句が含まれるレコードだけが引き出される。もし[ti]というフィールドタグ(以下タグ)を付けないでmeta-analysisという語句だけを検索すると、Title以外のフィールドにmeta-analysisという語句が含まれている場合でも引き出されることになる。
図1 データベースの構造
PubMedの場合は、タグによって検索対象フィールドを限定できるようになっている。検索語句の後ろに[フィールド名]を付けることによって、そのフィールドのみを検索対象として指定することになる。
これらのフィールドは複数あり、それぞれ文献の分類に用いられているとともに、同義語を介した検索を可能にしている。すなわち、論文のタイトル、アブストラクトに用いられている語句の同義語あるいは直接現れない語句でもその論文で取り扱われている概念を表す語句を共通のシソーラス用語として特定のフィールドに含めることによって、それらを検索可能にすることができる。
PubMedの場合は医学主題見出しMeSH (Medical Subject Headings)フィールドにインデクサーの手作業により、各論文の概念に基づく語句や同義語が記録されている。たとえば、humans[mh]で検索すると、タイトルやアブストラクトにhumansという言葉が含まれていない論文であってもヒトが対象になっている研究であるとインデクサーが判定した結果MeSHのフィールドにhumansと入力されている論文がすべて引き出されることになる。
PubMed では MeSH を意識しなくても入力されたキーワードを自動で適切な MeSH termや雑誌名、著者名などに変換して検索される。これをAutomatic Term Mappingという。通常の検索ではその機能を意識せずに使ってよいが診療ガイドライン作成のための検索の場合は必ず入力した後、detailsでノイズとなる言葉にマッピングされていないかどうか確認すべきである。
例えば川崎病について検索する場合、”kawasaki disease”と入力したとしよう。8000件強がヒットするがそのdetailsには以下の式が表示される。
"mucocutaneous lymph node syndrome"[MeSH Terms] OR ("mucocutaneous"[All Fields] AND "lymph"[All Fields] AND "node"[All Fields] AND "syndrome"[All Fields]) OR "mucocutaneous lymph node syndrome"[All Fields] OR ("kawasaki"[All Fields] AND "disease"[All Fields]) OR "kawasaki disease"[All Fields]
この検索式では著者や所属にkawasakiが含まれる、いわゆるノイズとなる文献がヒットしている。このノイズを削るよう式を修正し
"mucocutaneous lymph node syndrome"[MeSH Terms] OR "mucocutaneous lymph node syndrome"[TIAB] OR "kawasaki disease"[TIAB]
とすると5500件弱の“川崎病”に関する文献に絞ることができる。
また、思いついたキーワードが100%MeSH termに変換されるわけでは無いこと、MeSH自体ができた年が新しくそれ以前の文献を取りこぼす可能性があることから主要なキーワードについてはMeSH DatabaseでMeSHを探し、解説を確認したほうがよい。
MeSHのようなシソーラスは概念的階層構造になっており、下位の概念が設定されている場合には、それも自動的に検索されるが、[mh:noexp]と記述すると下位の概念は検索されなくなる。noexpはno explodeの略である。また、[majr]はMeSH Major Topicとして索引されたMeSH termに限定するタグで、より重要な主題での分類を検索対象とする。
PubMedのタグのうち、Text Words[TW]はタイトル、アブストラクト、MeSH term、その他の用語(著者の設定したキーワードなど)、化学物資の名称、GenBankなど二次ソースのIdentifier、個人名が検索対象となる。All Fields [ALL]はPlace of Publication, Transliterated Title, Create Date, Completion Date, Entrez Date, MeSH Date, Modification Date以外のすべてのフィールドが検索対象となる。雑誌名や著者の所属まで検索されるので[ALL]は用いず[TIAB]または[TW]を使うことが勧められる。ただし、[ALL]を用いるとAutomatic Term Mappingが働くので、適切なMeSHが探せない場合などには確認の手段として有効である。詳細はPubMedのPubMed Help ¹あるいはMEDLINE®/PubMed® Data Element (Filed) Descriptions ²にある。
医中誌WebでもPubMedのMeSHにあたる「医学用語シソーラス」により索引されており、同様にマッピング機能もある。例えば集中治療を受けている患者のストレスについて検索するつもりで“ストレス”と入力すると(ストレス/TH or ストレス/AL)にマッピングされるが「心停止蘇生後の脂質代謝と酸化ストレス」のような文献も検索されてしまう。このテーマの場合、正しいシソーラスは心理的ストレス/THである。適切なシソーラスを選ぶことによりノイズを減らし検索効率が向上する。
医中誌Webの場合、Publication Typeにあたるのは絞り込み項目内にある“研究デザイン”である。メタアナリシス、ランダム化比較試験、準ランダム化比較試験、比較研究、診療ガイドラインの5つがある。このうち「比較研究」は2003年以降の文献から、「メタアナリシス」と「診療ガイドライン」は1999年以降の文献から付与されているので注意が必要である。
医中誌Webの詳細は以下のヘルプを利用するとよい。
検索によって引き出される文献は医学文献スペース全体のごく一部である。また、検索結果は目的としている文献をすべて含んでいるわけではないし、目的としていない文献も含まれている。これらの関係を示したのが図2である。
図2 医学文献データベースに含まれる医学文献スペースの構成
通常の検索では検索結果Rは医学文献スペースのごく一部を占めるに過ぎず、検索結果以外Oが圧倒的多数を占める。たとえばPubMedであれば2000万件以上の文献が収載されているので、検索式で2000件の文献が引き出されたとしても全体の0.01%以下に過ぎない。

2   検索式の構成

データベース検索時にはそれぞれのPCから検索式Search queryがテキスト情報としてデータベースに送信され、データベースは検索式の条件に合致するレコードの一覧を返してくれる。
検索式は検索語句をAND、OR、NOTおよび( )で組み合わせたテキストで、ブール論理に従って、条件に合致する文献が引き出される(図3)。wを検索語句とすると、w1 AND w2はw1とw2の両方を含む文献、w1 OR w2はいずれかを含む文献、w1 NOT w2はw1を含むがw2は含まない文献を引き出す。
図3 検索語句と検索式
検索式はクリニカルクエスチョンのPICO (Population Intervention ComparatorOutcome)の構成語句から作成される。多くの場合、PICそれぞれの要素を表す複数の語句をORで結合し、それらを( )でくくったものをANDで結合し、さらに必要に応じて検索フィルターがANDで結合される。
たとえば、「肝細胞癌に対してラジオ波焼灼療法と肝動脈化学塞栓療法の併用はラジオ波焼灼療法単独より推奨できるか」というクリニカルクエスチョンでランダム化比較試験とメタアナリシスを検索したいのであれば、(“hepatocellular carcinoma”[tw] ORhepatoma[tw]) AND (radiofrequency[tw] OR rfa[tw]) AND (chemoembolization[tw] ORtansarterial[tw] OR tace[tw]) AND (meta-analysis[pt] OR randomized controlled trial[pt])となる。
( )はもし入れ子構造になっている場合は、より内側の( )が優先されて解釈される。
検索式は作成者の専門領域、経験、スキルの影響を受けるので、同じCQに対して結果としていくつかの異なる検索式が作成される可能性が高く、それぞれの検索式は感度・特異度も異なり、検索結果も異なる。

3   検索のロジック

検索語句wで検索した結果をRとするとRに含まれる文献はすべてwを含んでいる。これを条件付き確率の表記で表すとP(R|w)=1となる。すなわちwを含むという条件が満たされる場合その文献がRに含まれる確率は1である。検索式qで検索した結果をRとした場合も同じことがいえる。すなわちP(R|q)=1となる。すなわち検索式qという条件が満たされる場合その文献がRに含まれる確率は 1 である。これらが成立するのはデータベースがそのような規則で動作するからである。
条件付き確率の表記を用いると、検索式qの感度はP(q|T)、特異度は1-P(q|C)、正確度(的中率)はP(T|q)で表わされる。P(q|C)は対照文献で検索結果に含まれる率すなわち偽陽性率であり、1-P(q|C)が特異度に相当する。P(T)を標的文献の事前確率すなわち全文献Sに占める標的文献Tの割合、P(C)を全文献Sに占める対照文献Cの割合とすると検索式qの結果で標的文献Tである確率すなわち的中率P(T|q)はベイズの定理に従う(図4)。P(C)は1-P(T)であり、文献スペースに占める標的文献以外の文献、すなわち対照文献の割合である。
図4 検索式qで得られる文献集合に標的文献Tが含まれる率
的中率は標的文献が文献スペースに占める割合、すなわち事前確率と検索式の感度・特異度によって決定される。パフォーマンスの高い検索式は感度・特異度が高い検索式であり、結果として的中率が高くなる。

4   検索パフォーマンスの指標

検索式の検索パフォーマンスの指標として感度Sensitivity・特異度Specificity、正確度Precision、Number Needed to Read (NNR)などが用いられる。
感度は検索結果に占める標的文献の率、特異度は標的文献以外の文献集合(対照文献集合)で検索結果に含まれない率、正確度は検索結果の文献集合の内、標的文献である率でRecallあるいは的中率Predictive valueと呼ばれることもあるª。NNRは検索結果から1つの標的文献を得るために読む必要がある文献数で的中率の逆数である(図5)。
図5 医学文献スペースと感度・特異度、正確度
正確度すなわち的中率が100%であっても、標的文献がすべて検索結果に含まれているという意味ではない。検索結果がすべて標的文献で占められているという意味である。感度が100%であれば、標的文献はすべて検索結果に含まれていることを表しているが、対照文献がどの程度混在しているかは表していない。感度・特異度の両方が100%であれば、検索結果はすべて標的文献であり、なおかつ漏れがないことを意味する。
感度・特異度はトレードオフの関係にあり、感度を高めようとすると特異度が低下して、標的文献以外の文献がより多く混入する。網羅性を高めようとすると、感度を高く、特異度を低くした文献検索戦略が必要になるが、特異度が低くNNRが大きい場合には、選定作業でヒューマンエラーが起きる可能性が高くなることを認識する必要がある。
上記のごとく、感度・特異度が100%の検索式があれば検索結果がすべて標的文献であることになるが実際にはそのような検索式を作成するのは困難である。また、システマティックレビューのための文献検索では網羅性が重要視され、特異度は低くても感度を高くすることが求められる。そのため、正確度は低くなり、NNRは大きくなる傾向にある。
いくつかの検索式を組み合わせることによってできるだけ効率的、網羅的に標的文献を収集することが必要である。しかし、最終的な検索式はひとつの検索式で表すことができる。もし、4つの検索式q1, q2, q3, q4から選定作業を行った場合、それぞれの検索式の検索結果からの選定作業を逐次行った場合でも、全体としての検索式は(q1) OR (q2) OR (q3) OR (q4)で表すことができる。実際の検索・選定の作業では、それぞれ4つの検索結果には重複があるので、すでに選定作業を済ませた文献集合は除いて残りだけを対象に選定作業を行うことによって効率を上げることができる。
また、感度・特異度を知るためにはゴールドスタンダードとしての標的文献集合が必要である。一方で、ゴールドスタンダードを知るには完全な検索式が必要となる。検索式の感度・特異度を分析した研究、特に検索フィルターの開発と性能に関する研究論文では、ハンドサーチ結果も含めたゴールドスタンダード文献集合を用意し、それを基準に感度・特異度を明らかにする手法が用いられている。

ª 臨床診断における診断精度Diagnostic accuracyあるいは正確度(精度)Accuracyの場合とは異なる定義である。臨床診断における陽性的中率と同じ概念である。

5   通常の文献検索:コンセプトに基づくアプローチ

通常行われている文献検索ではクリニカルクエスチョンの構成要素を表す語句をキーワードとしてリストアップし、それらを組み合わせて検索式を作成する。検索語句を決める段階では、クリニカルクエスチョンの各構成要素のコンセプトを表す単語あるいは語句を考え出さなければならない。したがって、通常の文献検索はコンセプトに基づくアプローチが用いられているといえる。
コンセプトを言葉で表す際に医療者あるいは検索者のそのトピックに関する知識、データベースの構造に関する知識MeSHなどのシソーラスとその構造に関する知識、検索者の経験・スキルなどが影響し、作成される検索式は一様ではない。
したがって、コンセプトに基づくアプローチは主観的で個人差が出やすく、さまざまな検索式が可能なのでどこで完了とするか決めるのが難しく、検索式が長くなると綴りの間違いを起こしやすくなる可能性もあり、語句の選定の間違いや組み合わせの間違いが起きる可能性も高まる。そして、得られる文献数が多いと絞り込みの操作が必要になり、研究デザインで制限したり、雑誌で制限したり、年度で制限したりすることによって、網羅性が低下する可能性が高まる。全体の作業に要する時間も長くなりやすい ³。
誰が行っても同じ結果が出せるようにするためには、後述するようなより客観的な手法が必要となる。

6   検索フィルター

検索フィルターは、エビデンスを引き出すためデザインされたあらかじめ定義された検索語句の組み合わせで、研究デザイン ⁴, ⁵, ⁶、疾患・病態 ⁷、治療、予後 ⁸、診断 ⁹, ¹⁰, ¹¹, ¹²、副作用 ¹³, ¹⁴, ¹⁵ などさまざまなものが作成され発表されている ¹⁶。検索フィルターには主観的に作成され汎用性が不明のものと、客観的に作成されその性能について研究による裏付けのあるものがある。
研究として検証が行われ、適切なゴールドスタンダード標的文献集合に対して感度・特異度などの検索パフォーマンスの指標が明らかにされている検索フィルターは数多い。PubMedのClinical Query ¹⁷, ¹⁸, ¹⁹ はその一例で、病因、診断、治療、予後、臨床推測ガイドに対して、Sensitive/Broad(感度が高く特異度が低い)とSpecific/Narrow(感度が低く特異度が高い)の2種類が用意されている ²⁰。
これら以外に、多くの論文が発表されており ²¹, ²², ²³, ²⁴、検証が行われている検索フィルターの使用は検討されるべきである。

7   客観的検索式作成法

7.1事前情報の収集

検索式作成のための事前情報として2種類の情報がある。一つはコンセプトから導き出されるキーワードであり、もう一つは既知の論文(から客観的に導き出されるキーワード)である。
クリニカルクエスチョンあるいはテーマについて疾患専門家へのインタビューによってあるいは疾患専門家の立場でコンセプトをできるだけ明確にし、検索に用いうるキーワードの候補を明らかにすることが必要である。インタビューが難しい場合や疾患専門家でもあいまいな場合には、クリニカルクエスチョンに対応する主題の研究論文、学会発表、教科書の該当箇所などを読んでコンセプトを明らかにしつつキーワードの候補を探す。キーワードは標的文献のタイトル、アブストラクト、MeSHなどシソーラステーブルで用いられることが想定されるような用語である。この手順は既知の論文がないような場合には必須である。
既知の論文には、①疾患専門家がすでに知っている論文、②既存のシステマティックレビューで採用されている論文、③疾患専門家の提案するキーワードに基づいた試験的な検索で得られた文献集合から選定された文献の3種類がある。すべてあるいはいずれかを標的文献サンプル集合として用意する。さらに、同様に対照文献サンプル集合を用意する。試験的検索で除外された文献を対照文献のサンプルとして用いることができる。

7.2検索式の客観的作成

標的文献サンプル集合でタイトルおよびアブストラクトの語句の出現頻度の分析 ²⁵を行い、頻度の高い語句のリストを作成する。出現頻度はたとえば20%以上といった基準を設定することができるが、試験的な検索の結果を見ながら、基準を変更して検索式をチューニングすることも可能である。基準を高くするほど、特異度が高くなる。
たとえばゴールドスタンダードの標的文献で100%の出現頻度の語句をANDで組み合わせて検索すれば、これら標的文献が必ず引き出されるはずである。この場合、対照文献はほとんど引き出されない可能性が高くなる。
一方、対照文献のサンプル集合では出現頻度の低いキーワードを検索式に採用する。すなわち、標的文献サンプル集合で出現頻度の高い語句であっても対照文献でも出現頻度が高ければ標的文献と対照文献の識別における有用性は低くなる。したがって、標的文献サンプル集合で出現頻度の高い語句が対照文献サンプル集合での出現頻度が低いことを確認する必要がある。一つの目安として2%以下という基準が設定できるが、試験検索の結果を見ながら、基準を変更して検索式をチューニングすることも可能である。基準を低くするほど、特異度が高くなる。
標的文献サンプル集合で出現頻度が100%に達しない語句をANDまたはORで結合した場合の感度・特異度は、標的文献サンプルおよび対照文献サンプルの分析によって推定値を得ることができる。2つの語句が互いに関連していて同時に使われる可能性が高い場合には、個々の語句の出現頻度だけでなく2つの語句の相関を取り入れた感度・特異度を算出する必要がある。3つ以上の語句の組み合わせの場合も同様である。そのためには分析対象の各文献の各語句の有無に関するデータが必要となる。このデータを表形式で作成すれば、一覧することで感度・特異度の推定値を得ることは容易である。統計学的に処理して、複数の語句のANDまたはORで結合した検索式の感度・特異度を計算することも可能である。
このように標的文献サンプル集合と対照文献サンプル集合での語句の出現頻度の分析結果を用いることによって、客観的な検索式の作成が可能になる ²⁶。これらのサンプル集合は記録しておくことで、再現性と透明性を確保できる。
さらに、検索実行後に検索結果によって標的文献サンプルおよび対照文献サンプルに追加される文献が得られることが多い。その際は、必要に応じて新たに語句の出現頻度を分析し新しい検索式を作成して検索を繰り返すことでより精度の高い検索式の作成できる可能性がある ²⁷。
標的文献集合の異質性が高い場合は、できるだけ均質な集合に分割してそれぞれの集合に対応した検索式を作成し、後に結果を結合する方法が有効と考えられる。異質性の高い文献集合を網羅的に得ようとすると、キーワードをORで結合した検索式が必要になり、対照文献の混入が多くなる可能性が高く、選定作業の負担が大きくなる。
1
2


ページトップへ

ガイドライン解説

close-ico
カテゴリで探す
五十音で探す

診療ガイドライン検索

close-ico
カテゴリで探す
五十音で探す