コロナウイルスが明らかにした「エビデンスに基づく医療」の虚構

医学はこうして統計学をハッキングした
大脇 幸志郎 プロフィール

新薬は2年寝かせろ

ひとつ補足しておこう。「厳格な試験は微妙な薬のためにある」という点はしばしば逆方向に誤解されている。相当詳しいはずの人ですら、たとえばこんなことを言ってしまう。

中国からはカレトラ群45人と比較してファビピラビル投与群35人ではウイルス消失時間が短縮され、画像所見の改善も早かったという80人規模の臨床研究が発表されています。この結果だけ見ると「ファビピラビルいいじゃん」という解釈をしてしまいがちですが、症例の数も多くありませんし、患者さんをファビピラビル治療群とカレトラ群とに割り付けるランダム化もしていませんし、どちらの薬剤が使用されているか患者にも主治医にも分からないようにする二重盲検も行われていません。(忽那賢志「アビガン 科学的根拠に基づいた議論を」。強調は引用者)

症例の数が多くなれば、現実にはないも同然のわずかな効果を検出してしまうことはあっても、逆はない。だから症例数が少ないことは「一見差があるように見えるが、実は差がないかもしれない」と考える理由にはならない。

もっと確信に満ちた人もいる。

「対象者の数(n)さえ増やせばどんな些細な違いにも統計的に有意差を出すことができる」ことは前述のとおりであるが、その実例は世の中に出版されている論文のなかではきわめて少数だ。些細な違いに有意差を出すためには、膨大な数の患者を対象にしなくてはならず、膨大な労力とお金が必要となるからだ。ところが逆に、nの数が少ないばかりに、本来は臨床的な意義があるのに、統計的に有意差が得られていない研究論文ならば、星の数ほど存在する。(野村英樹+松倉知晴『臨床医による臨床医のための本当はやさしい臨床統計』、143-144ページ。強調ママ)

この著者たちはフラミンガム研究という有名な研究を知らなかったのかもしれない。ほかにも無駄に膨大なデータを作ってしまったために不毛な論文を量産している研究といえば、NHANESとかNurses’ Health Studyとか、それこそ星の数ほど存在する。

ただし、まれな副作用に注目した場合には、話が逆になる。こんなふうに。

リリー社は自社でおこなった臨床試験――3000名以上の患者を動員した試験――を再考察して自殺行為について調べ、その結果を『英国医師会誌』(BMJ)で発表し、プラセボ投与群に比較して、プロザックのリスクの増加はまったく見られなかったと主張した。しかし、その論文のど真んなかに位置していたのは、次のまぎれもない数値だった――自殺行為に及んだのは、プロザック投与群1765名のうち6名、プラセボ投与群では569名のうち1名。(デイヴィッド・ヒーリー『ファルマゲドン』、330ページ)

リリー社は嘘を言っているわけではない。自殺者の割合は0.33%対0.17%で、2倍違うようにも見えるが「569名のうち1名」がたまたま2名ではなかっただけかもしれないので、統計的に差があるとは言えない。

photo by iStock

しかし、どうも怪しい。薬の副作用で自殺したくなるかどうかは重要だから、まれだとしても、もっとはっきりさせたくなる。どうやって? 人数を増やすのだ。

深刻な副作用はまれにしか現れない。だから、深刻な副作用を検出するには大規模で厳格な試験が必要になる。

この観点からすれば、新薬の承認審査のために行われる試験は、効果を判定することに最適化されているから、まれな副作用を検出するには対象者数がまったく足りない。

実際に、承認され発売されてからしばらくして深刻な副作用が見つかる薬は珍しくない。最近では2019年に、乳癌治療に使われるベージニオ®(一般名アベマシクリブ)による重篤な間質性肺疾患の症例が報告されていて、死亡に至った例もあるとして、製造販売元や厚生労働省から注意喚起がなされた。

一般に使われるようになってからが、副作用を知るための本番なのだ。

そこで、開業医などのあいだでは「新薬は2年寝かせろ」とか「3年寝かせろ」という格言がある。いちはやく新薬を使って論文でも書こうという立場ならともかく、地道に診療を続けるためには新薬のリスクを冒す理由がないのだ。既存の薬で昨日までうまくやれていたのだから。

同じ理由で、筆者の意見としては、新薬を一般向けのメディアが取り上げることは非常に危険であり、伝える人が「たとえ臨床試験では検出できない頻度で致死的な副作用があったとしても、現在報告されている効果が明らかに上回る」と確信しているのでなければ相当の注意を要する。まして、まだ承認もされていない、臨床試験の結果も出ていない新薬候補に期待を高めるなど言語道断だと思う。

とはいえ、薬の意義はまれな副作用よりもまず効果で決まる。よく効く薬なら多少の副作用があっても使うだろうし、効かない薬はどんなに安全でも役に立たない(気休めとして使えるという面もあるのだが、話が複雑になるので省く)

だから効果の面から言って、臨床試験の規模(サンプルサイズ)は期待する効果にちょうど合うように計算して計画するべきであり、大きすぎる試験はあまりに細かい効果を拾ってしまう。同様に、細かいバイアスを徹底して最小化しようとする試みは、そもそも細かいノイズに紛れてしまうような細かい効果を争うことを自明のこととして前提し、「効果はあったとしても小さい」という観点を遠ざけてしまう。

その結果、厳格な試験は微妙にしか効かない薬を生き延びさせてしまう。

次回 「あやしい臨床試験」と「後出しじゃんけん」で作られる薬の効果

関連記事

ABJ mark

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標 (登録番号 第6091713号) です。 ABJマークについて、詳しくはこちらを御覧ください。https://aebs.or.jp/