photo by iStock

C型肝炎治療の評価をもゆがめる、医学統計の深い闇

医学はこうして統計学をハッキングした

医学における統計は濫用されている。その背景には統計に対する誤った期待があり、他方で統計を濫用する技術も編み出されてきた。

この記事は全3回で、医学における統計のハッキングとその対策について、いくつかの例を挙げて説明してきた(第1回第2回)。

最終回にあたる今回は、統計の濫用を防ぐための技術をかつてなく網羅的に取り込んだシステマティック・レビューという方法の興亡を中心に紹介する。

コクランとシステマティック・レビュー

スコットランドの医師のアーチボルド・コクランは、「エビデンスに基づく医療」の思想を準備したとされる人だ。コクランが1988年に死んでから、1991年にゴードン・ガイアットが「エビデンスに基づく医療(Evidence-based Medicine; EBM)」という言葉を作り、1993年にイアン・チャーマーズがEBMを体現するべくコクラン共同計画を創設した。

コクラン共同計画は2015年に「コクラン」と名前を変えていまも存続している。コクランの中心的な事業は、システマティック・レビューを作ることだ。システマティック・レビューとは、おおまかに言って、特定の問題についていま世の中に出ているデータをすべて集め、一定のルールで吟味し統合したものだ。

「すべて集める」という素朴で力任せな方法が、後出しジャンケン問題に対してどれほど強力でエレガントな解決に見えたか、想像してみてほしい。

単純に、単独のRCT(ランダム化比較試験、くわしい説明は第1回を参照)が何かの原因で偏った結果を出してしまったとしても、複数のRCTを集めて間を取れば相殺されて真実に近づくかもしれない。間を取っても、同じ方向に偏ったRCTを集めてしまったら解決にはならない。しかもチェリー・ピッキングのうえで「間を取れば」、都合のいいデータをもっともらしく見せることができてしまう。

しかし存在するデータをすべて集めるなら、定義上チェリー・ピッキングは不可能になる。さくらんぼだけを選んで摘むことを許さず、ブルドーザーで根こそぎ刈り尽くせば、その土地に生えていたものはよくわかるというわけだ。

さらに、多重比較に対しても効果があるかもしれない。多重比較の問題は、普遍性のない測りかたを場当たり的にこしらえることによって、偶然であるものを偶然でないように見せることができてしまうというものだった。測るルールを統一して、複数のデータで再現させてみれば、幻は霧消する。

システマティック・レビューの方法はGRADEシステムというかたちで記述されている。GRADEによるエビデンスの評価法を簡略化して図に示す。

GRADEシステムは医学統計についてなされてきた多くの議論を取り込み、個々の研究に対する評価とそれらを集めたうえでの評価を別の水準に分け、互いに異質な論点を一元的な4段階評価に回収したという、多くの画期的な利点によって、全世界のガイドラインに採用されている(日本では普及が遅れたのだが、詳しくは省く)

これほど完成度の高いシステムを導入したからには、後出しジャンケン問題はもとより、医学統計の諸問題は解決したと言わないまでも、体系的に=システマティックに取り組んでいけると思われた。GRADE、それに基づくシステマティック・レビュー、それを率先して行うコクランに対する信頼は篤かった。ゼロ年代から2010年代に書かれたテキストは至って素朴な信頼を表している。

コクラン共同計画の系統的レビューで得られた結論は、真相に近いと考えてまず間違いないと言ってよいだろう。(サイモン・シン+エツァート・エルンスト『代替医療解剖』青木薫訳、原著2008年)

システマティック・レビューは、現在ほぼ例外なく使われていて、医療上のある特定の問題に関する臨床試験すべての、望めるかぎり最も正確な要約を確実にもたらしてくれる。(ベン・ゴールドエイカー『悪の製薬』忠平美幸+増子久美訳、原著2013年)

ただし、ゴールドエイカーはシステマティック・レビューの大切さを十分に印象づけたうえで、出版バイアスが(GRADEが位置づけたような生易しいものではなく)システマティック・レビューの強みを根底から揺るがすものと位置づけている。

ゴールドエイカーが予感したように、システマティック・レビューは危機を迎え、骨抜きにされ、コロナウイルスのパンデミックによってとどめを刺された。