医学研究のためのやっぱりわかりにくい統計解析
臨床研究・医学論文・看護研究で「どの統計を使えばよいのか」と迷う方へ
医学研究や臨床研究では、研究計画書、倫理審査、学会発表、投稿論文、査読対応のどの段階でも 統計解析の説明 が求められます。 しかし実際には、「p値は出たが、これで何が言えるのか」「平均値の比較でよいのか」 「ロジスティック回帰とCox回帰の違いがわからない」 「多変量解析を入れたほうがよいと言われたが、何を調整すればよいのか」 といった悩みが非常に多く見られます。
医学研究の統計解析がわかりにくい理由は、単に数式が難しいからではありません。 むしろ本当に難しいのは、 研究目的、データの種類、アウトカム、比較群、交絡因子、論文で主張したい内容をつなげて考えること です。 統計手法だけを暗記しても、実際の医学データに当てはめる段階で迷いやすいのはこのためです。
本記事では、 医学研究 統計解析、 臨床研究 統計解析、 医学論文 統計解析、 看護研究 統計解析、 投稿論文 統計解析 などを検討している方に向けて、医学研究で特につまずきやすい統計解析の考え方を具体的に整理します。 t検定、カイ二乗検定、Fisherの正確確率検定、Mann-Whitney U検定、相関分析、回帰分析、ロジスティック回帰、 Cox回帰、生存時間解析、傾向スコア、サンプルサイズ設計、欠測値処理、p値と信頼区間まで、 実務で迷いやすいポイントを中心に解説します。
まず押さえたいのは、 医学統計は「ソフトで数値を出す作業」ではなく、研究の問いに対してどこまで妥当な説明ができるかを整理する作業 だということです。 SPSS、EZR、R、Stata、JMPなどの統計ソフトは便利ですが、分析目的や変数の意味を誤ると、 もっともらしい結果が出ても医学論文では使いにくい結果になってしまいます。
医学研究で統計解析がわかりにくくなる理由
医学研究の統計解析では、単に「このデータにはこの検定」と決められない場面が多くあります。 たとえば、治療群と対照群の比較であっても、アウトカムが血圧やHbA1cのような連続変数なのか、 合併症の有無のような二値変数なのか、死亡までの期間のような時間データなのかによって、 選ぶべき分析方法は変わります。
さらに、患者背景が群間で異なる場合には、単純比較だけでは十分に説明できないことがあります。 年齢、性別、重症度、基礎疾患、既往歴、治療開始時点の状態などが結果に影響する場合、 交絡因子をどのように扱うか が重要になります。 つまり医学研究の統計解析では、検定名を選ぶ前に、研究の構造そのものを確認する必要があります。
統計手法より先に研究デザインを確認する
最初に確認すべきなのは、研究が横断研究、症例対照研究、コホート研究、介入研究、後ろ向き観察研究、 前向き観察研究、ランダム化比較試験のどれに近いのかという点です。 研究デザインによって、因果関係をどこまで主張できるか、調整すべき変数は何か、 結果の解釈にどのような限界があるかが変わります。
たとえば、後ろ向き観察研究では、既存カルテや診療録からデータを取得するため、 欠測値や測定タイミングのばらつきが生じやすくなります。 一方、前向き研究では測定項目を事前に設計しやすいものの、症例数の確保や追跡期間が問題になります。 このように、統計解析は研究デザインと切り離して考えることができません。
アウトカムの種類で分析方法が変わる
医学研究では、主要評価項目、つまり主要アウトカムをどのように設定するかが非常に重要です。 アウトカムが連続変数であれば平均値や中央値の比較が中心になります。 アウトカムが二値変数であれば割合の比較やロジスティック回帰が候補になります。 アウトカムがイベント発生までの時間であれば、Kaplan-Meier曲線、Log-rank検定、Cox比例ハザードモデルなどが候補になります。
この段階でアウトカムの性質を誤ると、統計手法も論文の書き方もずれてしまいます。 したがって、医学論文の統計解析では、 「何を明らかにしたいのか」と「その結果はどの型のデータなのか」 を最初に整理することが大切です。
まず確認すべきデータの種類と尺度
統計解析で最初につまずきやすいのが、変数の種類です。 医学データには、年齢、身長、体重、血圧、血液検査値のような連続変数、 性別、疾患の有無、治療反応の有無のようなカテゴリ変数、 重症度分類や疼痛スコアのような順序尺度、 生存期間や再発までの日数のような時間データがあります。
| 変数の種類 | 医学研究での例 |
|---|---|
| 連続変数 | 年齢、BMI、血圧、HbA1c、CRP、腫瘍径、在院日数など |
| カテゴリ変数 | 性別、喫煙の有無、合併症の有無、治療成功・不成功、再発の有無など |
| 順序尺度 | 重症度分類、疼痛スコア、ADL評価、満足度尺度、ステージ分類など |
| 時間データ | 死亡までの期間、再発までの期間、退院までの日数、イベント発生までの期間など |
たとえば、年齢は連続変数として扱うこともできますが、65歳未満と65歳以上のようにカテゴリ化することもあります。 ただし、カテゴリ化すると情報量が減る場合があります。 一方で、臨床的に意味のあるカットオフ値がある場合には、カテゴリ化したほうが解釈しやすいこともあります。 このように、変数の扱いは機械的に決めるのではなく、 医学的意味と統計的妥当性の両方から判断する 必要があります。
2群比較で迷いやすい検定の選び方
医学研究で最もよく出てくるのが、2群比較です。 治療群と対照群、術前と術後、疾患あり群と疾患なし群、改善群と非改善群など、 医学論文では多くの場面で群間比較が行われます。 しかし、2群比較といっても、比較する変数の種類によって検定は異なります。
連続変数の比較
連続変数を2群で比較する場合、代表的な方法はt検定です。 ただし、t検定はデータがある程度正規分布に近いことや、分散の扱いを考える必要があります。 データが大きく歪んでいる場合、外れ値が強い場合、サンプルサイズが小さい場合には、 Mann-Whitney U検定などのノンパラメトリック検定を検討します。
たとえば、CRPや在院日数のように分布が歪みやすいデータでは、 平均値より中央値と四分位範囲で示したほうが適切な場合があります。 逆に、血圧やBMIのように比較的連続的で分布が極端に歪みにくいデータでは、 平均値と標準偏差を用いた比較が理解しやすい場合もあります。
カテゴリ変数の比較
カテゴリ変数を比較する場合には、カイ二乗検定やFisherの正確確率検定が使われます。 たとえば、治療群と対照群で合併症発生率に差があるか、 あるいは疾患あり群と疾患なし群で喫煙率に差があるかを比較する場合です。
ただし、症例数が少ない場合や、期待度数が小さいセルが多い場合には、 カイ二乗検定ではなくFisherの正確確率検定が選ばれることがあります。 医学研究では少数例の症例研究や単施設研究も多いため、 症例数が少ないときほど検定方法の選択に注意が必要 です。
- 平均値を比較したい場合:t検定を検討する
- 分布が歪んでいる連続変数:Mann-Whitney U検定を検討する
- 割合を比較したい場合:カイ二乗検定を検討する
- 症例数が少ないカテゴリ変数:Fisherの正確確率検定を検討する
- 同一対象の前後比較:対応のあるt検定、Wilcoxon符号付順位検定、McNemar検定などを検討する
p値・信頼区間・効果量の読み方
医学論文では、p値が0.05未満であるかどうかに注目が集まりがちです。 しかし、p値は「差が大きいか」「臨床的に重要か」を直接示すものではありません。 p値は、帰無仮説のもとで観察されたデータ以上の偏りが生じる確率を示す指標であり、 研究結果のすべてを説明するものではありません。
そのため、医学研究ではp値だけでなく、 信頼区間と効果量をあわせて確認する ことが重要です。 たとえば、オッズ比が2.0であっても、95%信頼区間が1.01から10.5のように広い場合には、 推定の不確実性が大きいと考えられます。 一方、p値が0.06であっても、効果量が臨床的に重要であり、信頼区間の範囲から今後の研究価値が示唆される場合もあります。
査読では、「有意差があったか」だけでなく、 どの程度の差があり、その差が臨床的に意味のある大きさなのか、 研究デザインやサンプルサイズを踏まえてどう解釈するのかが問われます。 医学統計では、 統計的有意性と臨床的意義を分けて考える ことが非常に大切です。
多変量解析は何をしているのか
医学研究で「多変量解析を入れてください」と言われることがあります。 しかし、多変量解析は単に高級な分析を追加する作業ではありません。 多変量解析の目的は、複数の要因を同時に扱いながら、 ある要因とアウトカムとの関係をより適切に評価することです。
とくに医学研究では、年齢、性別、重症度、併存疾患、既往歴、治療前の状態など、 結果に影響しうる要因が多く存在します。 単純比較では差があるように見えても、背景因子を調整すると関係が弱まることもあります。 逆に、背景因子を調整することで、特定の要因の影響が明確になることもあります。
線形回帰分析
線形回帰分析は、アウトカムが連続変数の場合に使われます。 たとえば、治療後の血圧、検査値、QOLスコア、入院日数などを目的変数とし、 年齢、性別、治療群、重症度などを説明変数として投入する場合です。
線形回帰分析では、説明変数がアウトカムにどの程度関連しているのかを係数として示すことができます。 ただし、残差の分布、外れ値、多重共線性、説明変数の入れすぎなどには注意が必要です。 医学論文では、単にソフトの出力を貼るのではなく、 どの変数をなぜ調整したのか をMethodsに明確に記載する必要があります。
ロジスティック回帰分析
ロジスティック回帰分析は、アウトカムが二値変数の場合に使われます。 たとえば、再発あり・なし、死亡あり・なし、治療成功・不成功、合併症発生あり・なしなどです。 結果はオッズ比として示されることが多く、医学論文で非常によく使われる分析手法です。
たとえば、「術後合併症の発生に関連する因子」を検討する場合、 年齢、性別、手術時間、出血量、基礎疾患などを説明変数として投入し、 合併症発生の有無を目的変数としてロジスティック回帰分析を行います。 このとき注意すべきなのは、イベント数に対して説明変数が多すぎると、モデルが不安定になりやすい点です。
Cox回帰と生存時間解析
Cox比例ハザードモデルは、死亡、再発、退院、治療中止など、 イベント発生までの時間を扱う場合に使われます。 生存時間解析では、単にイベントが起きたかどうかだけでなく、 いつ起きたのか、追跡期間中にイベントが観察されなかった症例をどう扱うのかが重要になります。
Kaplan-Meier曲線は、群ごとのイベント発生までの経過を視覚的に示すために使われます。 Log-rank検定は群間の生存曲線の違いを検討します。 Cox回帰では、年齢や重症度などの共変量を調整したうえで、ハザード比を算出できます。 医学論文では、 ハザード比、95%信頼区間、p値、追跡期間、打ち切りの扱い を適切に示すことが求められます。
医学研究で重要な交絡因子と調整
交絡とは、曝露や治療とアウトカムの関係が、第三の要因によって歪められることです。 たとえば、ある治療を受けた群で死亡率が高かったとしても、その群に重症患者が多かった場合、 治療そのものが死亡率を高めたとは言い切れません。 この場合、重症度が交絡因子になっている可能性があります。
医学研究では、年齢、性別、重症度、基礎疾患、喫煙、BMI、既往歴、治療前の検査値などが交絡因子になりやすいです。 交絡因子を調整する方法としては、層別解析、多変量回帰分析、傾向スコア解析などがあります。 ただし、何でも投入すればよいわけではありません。 研究目的、先行研究、臨床的妥当性、症例数を踏まえたうえで、 調整すべき変数を事前に整理すること が大切です。
査読対応では、「なぜこの変数を調整したのか」「なぜこの変数は入れなかったのか」と問われることがあります。 そのため、統計解析計画の段階で、変数選択の理由を説明できる状態にしておくことが望ましいです。
傾向スコア解析が必要になる場面
傾向スコア解析は、ランダム化されていない観察研究で、群間の背景差を調整するために使われる方法です。 たとえば、治療Aを受けた患者と治療Bを受けた患者を比較する場合、 実際の臨床現場では患者背景が均等ではありません。 治療Aが重症患者に多く使われている場合、単純比較では治療効果を適切に評価できない可能性があります。
傾向スコアは、「その治療を受ける確率」を患者背景から推定したものです。 そのうえで、マッチング、重み付け、層別化などを行い、群間の背景差を小さくすることを目指します。 ただし、傾向スコア解析を行っても、 測定されていない交絡因子までは調整できない という限界があります。
医学論文で傾向スコアを使う場合には、使用した変数、マッチング方法、キャリパー、マッチング後のバランス、 標準化差などを示す必要があります。 傾向スコアは強力な方法ですが、使えば自動的に因果関係が証明されるわけではありません。 研究デザインと限界の説明が重要です。
サンプルサイズ設計と検出力の考え方
医学研究では、研究を始める前にサンプルサイズ設計が求められることがあります。 倫理審査や研究計画書では、必要症例数の根拠を示すことが重要です。 症例数が少なすぎると、本当は差があるのに検出できない可能性があります。 一方で、必要以上に多くの症例を集めることは、研究資源や倫理面で問題になる場合もあります。
サンプルサイズ計算では、主要アウトカム、想定される差、標準偏差、イベント率、有意水準、検出力などを設定します。 たとえば、平均値の差を検出したいのか、割合の差を検出したいのか、生存率の差を検出したいのかによって、 計算方法は変わります。 そのため、サンプルサイズ設計は統計ソフトに数値を入れる前に、 研究の主要評価項目を明確にする作業 でもあります。
後ろ向き研究では、すでに取得可能な症例数が決まっていることもあります。 その場合には、厳密な事前サンプルサイズ設計ではなく、利用可能症例数に基づく検出力の確認や、 記述的・探索的研究としての位置づけを明確にすることが必要になる場合があります。
欠測値・外れ値・多重比較で注意すべき点
医学データでは、欠測値が発生しやすいです。 カルテ記録の不足、検査未実施、追跡不能、回答漏れなど、欠測の理由はさまざまです。 欠測値を単純に除外すると、症例数が減るだけでなく、結果に偏りが生じる可能性があります。 そのため、欠測がどの程度あり、どの変数に多いのか、欠測理由は何かを確認することが重要です。
外れ値についても注意が必要です。 極端な値が入力ミスなのか、医学的にありうる値なのか、特殊な症例なのかを確認しなければなりません。 統計的に外れ値であっても、臨床的に重要な症例である場合があります。 医学研究では、外れ値を機械的に削除するのではなく、 データの由来と臨床的意味を確認したうえで扱いを決める 必要があります。
また、多くの項目で検定を繰り返すと、偶然に有意差が出る可能性が高まります。 これが多重比較の問題です。 多重比較補正を行うべきかどうかは、研究目的、主要評価項目と副次評価項目の区別、探索的解析か検証的解析かによって変わります。 医学論文では、どの解析が主解析で、どの解析が補助的・探索的なのかを明確にすることが大切です。
医学論文で統計解析を書くときのポイント
医学論文では、Methodsの統計解析欄に、使用した統計手法、連続変数の表記方法、カテゴリ変数の表記方法、 有意水準、使用ソフト、欠測値の扱い、多変量解析で調整した変数などを明記します。 投稿論文では、解析方法が不明確だと、結果そのものの信頼性が伝わりにくくなります。
| 記載項目 | 医学論文で書くべき内容の例 |
|---|---|
| 記述統計 | 連続変数は平均値±標準偏差または中央値[四分位範囲]、カテゴリ変数は人数と割合で示した、など |
| 群間比較 | t検定、Mann-Whitney U検定、カイ二乗検定、Fisherの正確確率検定など、使用した検定名 |
| 多変量解析 | ロジスティック回帰、線形回帰、Cox比例ハザードモデルなど、目的変数と説明変数の設定 |
| 有意水準 | 両側検定でp<0.05を統計的に有意とした、など |
| 使用ソフト | SPSS、EZR、R、Stata、JMPなど、解析に使用したソフトウェア名とバージョン |
結果欄では、p値だけでなく、平均差、オッズ比、ハザード比、95%信頼区間などを示すと、 読者が効果の大きさを理解しやすくなります。 Discussionでは、統計的有意差の有無だけでなく、臨床的意義、先行研究との一致・不一致、 研究の限界、今後の研究課題を整理することが重要です。
よくある質問
Q1. 医学研究では、どの統計ソフトを使えばよいですか?
SPSS、EZR、R、Stata、JMPなどがよく使われます。 重要なのはソフト名そのものより、研究目的に合った解析ができるか、結果を論文に使える形で説明できるかです。 初学者にはEZRやSPSSが扱いやすい場合がありますが、複雑な解析や再現性を重視する場合にはRが適していることもあります。
Q2. p値が0.05を少し超えた場合、研究として意味がないのでしょうか?
必ずしも意味がないとは言えません。 p値は一つの判断材料であり、効果量、信頼区間、サンプルサイズ、研究デザイン、臨床的意義とあわせて解釈する必要があります。 とくに探索的研究や少数例研究では、p値だけで価値を判断しないことが重要です。
Q3. 査読で「多変量解析を追加してください」と言われた場合、どうすればよいですか?
まず、アウトカムが連続変数なのか、二値変数なのか、時間データなのかを確認します。 そのうえで、線形回帰、ロジスティック回帰、Cox回帰などの候補を検討します。 また、調整変数をどのように選ぶかが重要です。 症例数が少ない場合には、説明変数を入れすぎるとモデルが不安定になるため注意が必要です。
Q4. 後ろ向き研究でもサンプルサイズ計算は必要ですか?
研究内容や投稿先によって異なります。 後ろ向き研究では、利用可能な症例数が決まっている場合が多いため、事前の必要症例数計算ではなく、 利用可能データに基づく検出力の確認や探索的研究としての位置づけを明確にする場合があります。 倫理審査や投稿規定で必要とされる場合には、主要アウトカムに基づいて根拠を示すことが望ましいです。
まとめ|医学研究の統計解析は「手法選び」ではなく「研究の問いを説明する設計」である
医学研究のための統計解析は、やっぱりわかりにくいものです。 その理由は、t検定、カイ二乗検定、ロジスティック回帰、Cox回帰といった手法名が難しいからだけではありません。 本質的には、研究目的、アウトカム、データの種類、交絡因子、サンプルサイズ、欠測値、論文での説明責任が複雑に関係しているからです。
重要なのは、最初から難しい統計手法を選ぼうとすることではなく、 何を明らかにしたい研究なのか、どのデータでそれを示せるのか、どこまでなら妥当に主張できるのか を整理することです。 そのうえで、適切な検定、多変量解析、生存時間解析、傾向スコア解析などを選ぶことで、 医学論文や投稿論文に耐えうる統計解析に近づきます。
スタットエージェントでは、医学研究、臨床研究、看護研究、医療系大学院研究、投稿論文、学会発表、査読対応に向けた 統計解析、研究デザイン相談、サンプルサイズ設計、SPSS解析、EZR解析、Rによる解析、図表作成、Methods・Resultsの整理などに対応しております。 データはあるが解析方針が決まらない、 査読で統計解析の修正を求められた、 医学論文として説得力のある表・図に整えたい といった場合でもご相談可能です。

