非劣性試験について=p値関係ない。笑　Δ（非劣性マージン）が最も関係あります。笑　でもこの(CHESTの)論文の著者はあんまりわかってないっぽい。笑

2025年2月7日 2025年2月7日

Toshi

どういう時に非劣性試験とするか？

既存の枠組みを覆したくないとき

慎重に言わないといけないとき

そういうときは非劣勢試験を行いましょう。

p値のカットオフは0.001とかにする。（慎重さを示すために厳しくする）

そして？マージンを設定する。

片側検定を行う

対立仮説　 m1(新しいものの成績)　- m0(古いものの成績)　>　m0* (-10%)=-0.1 m0

m1-m0≧-0.1m0

m1 ≧0.9 m0

キム仮説　　m1<0.9m0　

βは常識で考えればわかるんじゃない？って。笑

従来，Δは，抗菌薬では10％^4），抗レトロウイルス薬では12％に設定することが多いが，これは慣習である。統計的には，過去の標準薬のプラセボ対照試験の成績から95％信頼区間を構成し，その下限（つまり効果の最低値）の50％をΔに設定する方法が推奨される。それは，米国食品医薬品局（United States Food and Drug Administration：US FDA）によって推奨された「50％ルール」^5）6）という手法である。
SPORTIF V試験^7）の例を表1に詳解した。過去の5試験をメタ解析し，併合95％信頼区間の下限が1.36％なので，その50％である0.68％をΔに設定した。相対リスク表現では，ワルファリン群のイベント発生率を3.12％と想定し，Δは1.22に設定した。非劣性Δの設定は非劣性試験における核なのである。

(https://www.jmedj.co.jp/journal/paper/detail.php?page=2&id=4)

(https://www.jstage.jst.go.jp/article/jsgo/41/2/41_210/_pdf/-char/ja)

■"同等性"を示すにはどのような手続きが必要か

【例1】新薬と既存薬に10人ずつ割り付けた研究において，アウトカムの死亡率が新薬群で30％，既存薬群で20％でした。仮説検定を行い，この差に統計的な有意差があるかどうか調べたところ，P値は0.6でした。仮説検定は，"新薬と既存薬の死亡率の差が等しい"という帰無仮説を棄却するかどうかとなりますが，P値が0.05以上なので帰無仮説を棄却することはできませんでした。次のうち，この解析結果を正しく表しているのはどれでしょうか？A．新薬群の死亡率は既存薬群と同じである。
B．新薬群の死亡率が既存薬群と違いがあるとは言えない。
C．新薬群の死亡率（30％）が既存薬群（20％）より低いとは言えない。

　例1の答えはBです。通常の解析では，P値が0.05未満であれば有意差がある，つまり新薬は既存薬に比べて優れているという差（優越性）を示す解析が行われます。この優越性を示す解析の帰無仮説は"新薬群と既存薬群の死亡率の差が等しい（同等である）"ですが，棄却できなかったからといって，帰無仮説を採択できるわけではないのです。

　この場合は，"帰無仮説を棄却するに十分なエビデンスがない"ということに過ぎず，"同等性がある"と言えるわけではありません。今回の例では，サンプル数が各群10と非常に少ないために解析がパワー不足となり，有意差が出なかったに過ぎません。95％信頼区間はこの場合［－30％，50％］となります。つまり同様の研究が繰り返された場合，新薬群の死亡率が既存薬群の死亡率より50％も高くなることもあれば，その逆で新薬群の死亡率が既存薬群の死亡率より30％低くなることもあると解釈できます。差が50％となれば同等性を言うことはできないのは明らかですね。では，下記のような場合はいかがでしょうか。

【例2】新薬と既存薬に1000人ずつ割り付け，死亡率が新薬群，既存薬群ともに20％であったとします。この場合，2群間の差がゼロなのでP値は1.0となり，この例でも帰無仮説は棄却されません。では，この例では同等性を示すことはできるでしょうか？

　この場合，95％信頼区間は［－3.5％，3.5％］と計算できます。同様の研究が繰り返された場合，新薬群の死亡率は良い場合で既存薬群よりも3.5％低くなり，悪い場合で既存薬群より3.5％高くなる，と解釈できます。この場合も，P値を用いると例1と同様，P値が0.05より大きいので帰無仮説は棄却されませんが，意味合いがまったく違っているのがわかります。差を表す信頼区間がぐっと小さくなりましたね。

　各群10人の例でも，各群1000人の例でも，P値は0.05よりも大きくなり帰無仮説は棄却されませんでしたが，例1でP値が大きかったのはサンプル数が少なかったからです。一方，例2でP値が大きくなったのは2群の差が小さかったからです。このように，P値は群間の差とサンプル数のどちらによっても変わるので，P値が大きい（帰無仮説が棄却できなかった）だけでは，2群の差がないからなのか，単にサンプル数が不足しているだけなのか，その理由はわかりません。

　同等性を示すためにP値を用いることは禁じられています。"十分なサンプル数"で正確に同等だというために，同等性の解析にはP値ではなく信頼区間を用いる必要があります。例2において，良くても悪くてもプラスマイナス3.5％の差であれば臨床的に同等だとみなしてよいという判断ができれば，同等を示すことができます。ただしこの判断の基準になる，「良くても悪くてもこのくらいであれば許容できる」という同等性の許容範囲（同等性マージン）は研究を始める前に決め，研究計画書に記載しておくことが義務付けられています。

　このように，同等性を示す場合には信頼区間の下限・上限ともに同等性マージンの中にスッポリ入ることが必要ですが，そのためには信頼区間がかなり小さくなるようにサンプル数を十分大きく取ることが必要です。しかしそのような十分なサンプルサイズを確保することは臨床研究では至難の業です。その打開策として登場したのが非劣性試験です。

■信頼区間を使って，同等性，非劣性を見てみよう

　"非劣性"とは，すでに有効な治療薬が存在し，新薬は副作用が少ないなど既存薬よりも利点があるといった場合，既存薬に対し有効性において優越性が証明できなくても，劣っていないことが証明できればそれでよし，といった研究に使われます。同等性を示すマージンが両側であるのに対し，非劣性試験では，新薬が既存薬より劣っていないかどうかのみに注目し，新薬が既存薬より優れているという優越性が成り立っても成り立たなくてもよいので，信頼区間の片側のみに注目します。図は，信頼区間を優越性，同等性，非劣性にどう使用していくかを示したものです。それでは見分け方を以下に示します。

優越性："違いがない"という値（この場合はゼロ）を含まない。
同等性：臨床的に意味のある差の下限と上限（両側）のマージンの中にすべて入る。
非劣性：信頼区間の片方が非劣性マージン（片側）より小さい。

　図では，7種類の信頼区間を使って優越性，同等性，非劣性を表しています。それでは1つずつ見ていきましょう。優越性が言えるのは信頼区間がゼロを含まない（3）（5）（7）です。同等性は，臨床的に意味のある差（Δ）に下限も上限も入っている（3）（4）（5）です。非劣性とは新薬が既存薬に対して劣っていないことを示すことなので，既存薬が効果があるほうのマージン（Δ）から信頼区間がはみ出している（2）を除くすべてとなります。

　ここで面白いのが，（3）と（5）は優越性と同等性の両方が成り立っていることです。優越性は統計的判断，同等性は臨床的判断によるものなので，統計的に有意差が出ても（P値が0.05より小さくても），その差が臨床的に同等の範囲に入るものであれば，同等とみなすことができるのです。ですから，統計的な有意差と臨床的な差は区別されるべきものと言えます。

　同等性，非劣性，いずれを目標とした研究においても，その意図を，研究を開始する前に必ずプロトコールに記載することを心がけてください。優越性を目的として始められた研究であるのに，優越性が出なかったからと言って，途中から解釈が非劣性に変わっている研究をよく目にしますが，それはタブーです。同等性，非劣性の研究は解析方法だけでなく，研究のデザインにも考慮すべき点が多くあります。このような注意事項がCONSORT（Consolidated Standards of Reporting Trials；臨床試験報告に関する統合基準）声明に詳細に記されていますので，そちらを参照ください^1）。

Review＊統計的有意差なし≠同等性。
＊同等性，非劣性の解析には信頼区間を用いる。
＊同等性，非劣性のいずれを示すための研究なのかをプロトコールに記載し，解析に合った十分なサンプル数を確保する必要がある。

↑同等性を示すのは実は難しくて。非劣性を調べるほうが簡単なんや。

↑これは難しい！笑(https://www.gi-cancer.net/gi/study/04/page3.html)

95%信頼区間の算出法（意外と簡単）

✅ 95%信頼区間と仮説検定（p値）は基本的に同じ情報を提供している！
✅ 「95%CIが帰無仮説の値を含まない」＝「p < 0.05」
✅ 「95%CIが帰無仮説の値を含む」＝「p ≥ 0.05」
✅ 非劣性試験では「95%CIの上限が非劣性マージンを超えないか？」で判断

この記事を書いた人

Toshi

28歳の外科医（勤務医）です。経済的自由を目指しています。