東京大学政策評価研究教育センター

論文プレビュー:メタボ健診の保健指導に効果はあるか?:エビデンスを活用した評価と改善


論文の著者:福間真悟(京都大学)・飯塚敏晃(東京大学)・池之上辰義(京都大学)・津川友介(カリフォルニア大学ロサンゼルス校)
論文:Fukuma S, Iizuka T, Ikenoue T, Tsugawa Y. (2020) "Association of the National Health Guidance Intervention for Obesity and Cardiovascular Risks with Health Outcomes Among Japanese Men," JAMA Internal Medicine, Published online October 05, 2020.


画像提供:tsukat / PIXTA(ピクスタ)

目 次
イントロダクション:データから健康診断の費用対効果を検証
なぜメタボ効果を測るのが難しいのか?
腹囲の基準値を利用した「回帰不連続デザイン」
大規模な個人単位の健康診断データを活用
肥満はわずかに改善するが心血管リスクの改善は見られない
エビデンスを活用した制度の改善を

イントロダクション:データから健康診断の費用対効果を検証

日本では2008年から、特定健診(いわゆる「メタボ健診」)・特定保健指導が導入された。メタボ健診で肥満に関する数値(体重、BMI、腹囲)と心血管リスクに関する数値(血圧、血糖値、コレステロール値)の高い人をみつけ、生活習慣と健康状態の改善を促すための特定保健指導を受けることを推奨するという施策だ。これは国が定める制度であり、メタボ健診は40歳から74歳までのすべての成人が毎年参加することが法律で義務づけられ、毎年約2800万人が受診している。さらに、そのうち毎年100万人以上が特定保健指導を受けている。

本稿で紹介する回帰不連続デザインとは、ある外的に定められた基準により施策の対象となるか否かが決まるような状況を利用して、因果関係の検証に迫る分析手法だ。一定の基準値に基づいてメタボ健診で特定保健指導の対象となるか否かが決まるここでの状況にはぴったりのアプローチである。「背景」で触れたように、メタボ健診で腹囲が基準値の「男性85㎝、女性90㎝」を上回り、かつ生活習慣病に関する心血管リスク要因の血糖値、血圧、コレステロール値(脂質値)が基準値を上回る人は特定保健指導の対象となり、受診を推奨されることになる(先にも述べたように、腹囲だけでなくBMI等も考慮される)。Fukuma S, Iizuka T, Ikenoue T, Tsugawa Y. (2020) では、メタボ健診で特定保健指導の対象となることが、健康状態の改善、特に肥満に関する数値(体重、BMI、腹囲)や心血管リスクに関する数値(血圧、血糖値、コレステロール値)の改善につながっているかどうかを、厳密な因果推論の手法を用いて検証した研究だ。

日本を含む主な先進国では高齢化が進み、医療費の上昇が懸念され、予防医療によって人々の健康を改善し、医療費の適正化を目指す政策に注目が集まっている。日本以外でも、たとえばアメリカの「ウェルネス・プログラム」など、健康増進と予防医療を推進するプログラムが実施されている。とはいえ、このようなプログラムの実施には大きなコストも掛かる。そのため、プログラムが人々の健康を改善する効果が本当にあるのか、その効果は費用に見合ったものなのかを実証的に確かめることで、制度の改善や見直しにつなげながら実施していく必要がある。

加えて、本論文の著者の一人である飯塚氏は、近年の技術革新に伴い、情報処理・蓄積にかかるコストが低下している点も、上記のような健康増進プログラムの評価を行ううえで重要だと指摘する。日本でも、医療レセプト(診療報酬明細書)などの大規模データの利用環境が整ってきており、またウェアラブル端末などによって健康状態に関するデータの蓄積も容易になっている。こうした豊富な医療・健康データを活用した健康増進プログラムの推進や政策評価の実施に、近年急速に注目が集まっている。また、データの充実とともに実証分析の手法もさまざまに開発され、洗練されてきており、それがまたデータの充実を促すという好循環が生まれている。こうした背景からも、日本におけるメタボ健診・特定保健指導の効果を、確かな分析手法で明らかにすることは、今後のさまざまな政策を議論するための重要なエビデンスを提供する、重要な研究だといえるだろう。

なぜメタボ効果を測るのが難しいのか?

それでは、どのようにメタボ健診・特定保健指導の効果を測ればよいのだろうか。実は、ある施策による介入の効果をデータから正確に見定めるのは、それほど簡単なことではない。しかし、近年では「因果推論」と呼ばれるアプローチが、経済学などさまざまな学問分野で定着し、政策やビジネスの現場でも活用されるようになっている。本稿では、まずなぜ効果の測定が難しいのかを整理したうえで、本研究で用いられた因果推論に基づく分析手法の考え方を紹介する。

施策の効果を測ることの何が難しいのだろうか。ある施策で人々の行動に介入したことによる効果を測定する方法として、最も素朴には、たとえばメタボ健診で特定保健指導を受けることを推奨された人々の肥満(体重、BMI、腹囲)や心血管リスク(血圧、血糖、コレステロール)に関する数値について、その前後の記録を調べ、どのように変化したかを通時的に確認するといったものが思いつくかもしれない。それで、数値が改善していれば、施策に効果があったのではないか、という考え方だ。しかしこれでは、施策の効果を正確に捉えることはできない。この方法では、仮に保健指導を推奨された翌年の数値の改善がしていたとしても、その改善が、たまたま食べ過ぎ・飲み過ぎで数値が悪化していたものが元に戻っただけで、保健指導の対象とならなくても改善していたのか、あるいは保健指導の対象となったことで改善したものなのかを区別できないからだ。

また、実際に保健指導を受けた人と受けなかった人とで、肥満や心血管リスクに関する数値を比べるという方法も考えられる。しかし、この方法にも少なからず問題がある。メタボ健診の結果、特定保健指導を受けることが推奨されたとしても、実際に受けに行く人もいれば、受けに行かない人もいる。このとき、保健指導を受けた人たちと受けなかった人たちの間には、指導を受けたか否かという事実以外にも、趣向や性質にさまざまな違いが存在することが考えられる。たとえば、保健指導を推奨されても受けに行かない人たちは、自身の肥満や健康リスクに対して無頓着かもしれない。一方、きちんと受けに行く人たちは、普段から健康に気を遣っている可能性が高い。このように、趣向や性質に違いのある人たちのグループ同士を比べた結果、仮に保健指導を受けた人々に何らかの改善がデータからみつけられたとしても、やはりそれが指導の効果なのかどうかを正確に判断することはできない。ここには、「肥満・健康への意識の高さ」という保険指導とは別の要因が介在しており、意識の高い人たちは保健指導の対象にならなくても数値が改善していた可能性があるからだ。この場合、その第三の要因によっても改善が引き起こされていることになり、健診・指導の効果を正確にデータから取り出すことができない。つまり、保健指導の効果だけを検証するためには、比較するグループ同士が「指導を推奨されたか否か」という介入に関するポイント以外は、同様の特徴を持っていなければならないということだ。

実は、これまでに行われてきた調査・研究の多くが、比べるグループの特徴が十分に統制されたとは言えないような形で、保健指導を受けた人々と受けなかった人々の数値を比較した結果を報告したものであった。そのため、メタボ健診・特定保健指導の効果を正確に測るという意味では問題が残っていることになり、この施策が人々の肥満や健康に関する数値の改善に寄与したかどうかは、よくわからない状況が続いていたといえる。

腹囲の基準値を利用した「回帰不連続デザイン」

それに対して本研究は、「回帰不連続デザイン」(Regression Discontinuity Design:RDD)と呼ばれる因果推論の手法を用いてこの問題に対処し、メタボ健診で特定保健指導の対象となることが肥満や健康に関する数値の改善にどの程度貢献するのか、その効果をより正確に検証した。

回帰不連続デザインとは、ある外的に定められた基準により施策の対象となるか否かが決まるような状況を利用して、因果関係の検証に迫る分析手法だ。一定の基準値に基づいてメタボ健診で特定保健指導の対象となるか否かが決まるここでの状況にはぴったりのアプローチである。「背景」で触れたように、メタボ健診で腹囲が基準値の「男性85㎝、女性90㎝」を上回り、かつ生活習慣病に関する心血管リスク要因の血糖値、血圧、コレステロール値(脂質値)が基準値を上回る人は特定保健指導の対象となり、受診を推奨されることになる(先にも述べたように、腹囲だけでなくBMI等も考慮される)。

ここではひとまず単純化して、回帰不連続デザインの考え方を紹介しよう。この場合は、ギリギリで基準値を上回った人々には保健指導の対象となる一方、ギリギリで基準値を下回った人々には保健指導の対象とはならない。たとえば、健診で腹囲が85.1㎝だった人々は保健指導の対象となり、84.9㎝の人々は対象とならない。しかし、この程度の差は同じ人でも測るタイミング次第で変動するかもしれないし、グループ分けされた人たちを基準値ギリギリのところで比べてみると、平均的には指導の対象となったか否か以外は、基本的に似通った特徴を持ったグループになっており、肥満や心血管リスクに関する数値は、基準値をまたいでもなめらかに分布していると考えられる。このように想定して、基準値の前後に位置する人々を、あたかも実験室で無作為にグループ分けされた同質の被験者グループであるとみなして比較することで、施策の効果に正確に迫ることができる。これが、回帰不連続デザインと呼ばれる手法のアイデアだ。

大規模な個人単位の健康診断データを活用

本研究で用いられたデータは、全国規模の被用者健康保険者である「全国土木建築国民健康保険組合」の、個人ごとの健康診断記録である。具体的には、2013年4月から2018年3月までの健康診断のデータであり、そこには年齢や性別など個人の属性、肥満に関する指標(体重、BMI、腹囲)、心血管リスク要因(血圧、血糖値、コレステロール値)、およびライフスタイル(喫煙、アルコール、運動習慣)等に関する情報が記録されている。

本研究では主に、分析に用いるための条件をクリアした7万4693人の男性に着目して検証が行われた。もとのデータにはもちろん女性も含まれているが、女性の被保険者のデータ自体が1万1235人と男性に比べて小さく、保健指導の対象となる条件を満たしているのがそのなかの11%とさらに小規模であったことから、メインの分析は男性を対象に行われた(論文では、女性のデータを用いた分析結果なども紹介されている)。

ところで前節では、「腹囲が基準値を上回るか下回るか」で保健指導の対象となるか否かが決まるという形で単純化して説明していたが、実際には「背景」でも述べた通り、BMIの数値や基準を超えた心血管リスク要因がいくつあったかでも、指導の対象となるか否かが決まる。そのため、腹囲85㎝を超えていない男性でも保健指導の対象となる場合がある。図1では、実際のデータで見た、腹囲ごとに保健指導の対象となった者の割合が示されている。これを見ると、腹囲が85㎝を下回った場合に保健指導を受ける者の割合が、ゼロにはならないものの、極端に小さくなることが見て取れ、ここを回帰不連続デザインの閾値として用いることが適切であることが確認できる。

図1 腹囲ごとの保健指導対象となる者の割合


また、図2では分析対象者である男性の腹囲の分布が示されている。データにおける腹囲の平均は86.3㎝であり、基準値は85㎝である(中央の縦の破線)。この分布を見ると、その基準値付近での意図的な操作が示唆されるような不自然な変化は起きておらず、なめらかな分布になっていることが見て取れる。この点でも、本分析で用いられたデータは回帰不連続デザインを行うために適したデータであったといえる。

図2 分析対象者の腹囲の分布


ただし飯塚氏は、ここで利用したデータにも限界はあることを指摘する。まず、データの規模は一見すると大きいように見えるものの、先にも触れたように女性のデータが少なく、女性の場合は特に基準値周りで統計分析に耐えうるほどの十分な規模を確保するのは難しい。そのことから、本研究ではメインの分析では男性に限定せざるをえなかった。また、「背景」で触れた特定保健指導の「積極的支援」と「動機づけ支援」を区別せずに分析を行っている。

しかし医療分野では、厚生労働省が整備する、レセプト情報・特定健診等情報を収集した「NDB(ナショナルデータベース)」という大規模なデータも存在する。飯塚氏は、こうしたより大規模で包括的なデータを用いることで、女性についてもより詳細な分析が可能となるだろうし、積極的支援と動機づけ支援のどちらを推奨されたかで区別した分析を行うことも可能で、そうした分析の意義は大きいと指摘する。ただし、NDBの研究利用は必ずしも容易ではなく、実際に研究に利用されるケースもそれほど多くはなっていない。この点は課題の1つとして、本稿の最後に改めて言及する。

肥満はわずかに改善するが心血管リスクの改善は見られない

それでは、本研究で行われた回帰不連続デザインによる実証分析で明らかになった、特定保健指導の対象となることが、肥満に関する数値(体重、BMI、腹囲)と、心血管リスクに関する数値(血圧、血糖値、コレステロール値)に与える改善効果の検証結果を紹介しよう。

まずは、肥満に関する数値に対する効果から確認する。図3に示されている腹囲の基準値を示す中央の縦の線の前後で、推定結果を示す直線にジャンプが見られる。これが、保健指導の対象となることによる効果を示している。保健指導の対象となった1年後の「体重、BMI、腹囲」の変化に着目すると、いずれの場合もジャンプが見られ、統計的にも改善効果が見られることがわかった。ただし、いずれの場合も約0.4%の減少と、効果としては非常に小さいことも明らかとなった。

図3 体重、BMI、腹囲の変化


一方で、心血管リスクに関する数値は、いずれも保健指導の対象となることによる改善効果が見られないことも明らかとなった。先ほどと同じ形で示した図4を見ても腹囲の基準値の前後で、肥満に関する数値の結果で見られたような明確なジャンプがないことが見て取れる。

図4 血圧、血糖値(HbA1c:ヘモグロビンA1c)、コレステロール値の変化


さらに、本研究では保健指導の対象となることによる効果を4年後まで追跡して検討している。この分析では、1年後にわずかに見られた肥満に関する数値の改善効果も、3年後以降は統計的にゼロと区別できるほどの効果が見られなくなることが明らかとなった。また、心血管リスクに関する数値については、1~4年後まで一貫して、統計的にゼロと区別できるほどの効果は見いだせなかった。つまり、回帰不連続デザインが対象とした、腹囲の基準値である85㎝周辺の人々に対しては、保健指導の対象となることによる効果はほとんどないか、あったとしても非常に小さく、しかも短期的にしか見られないという結果が示されたのである。

加えて、本研究では「保健指導の対象となったことによる効果」だけでなく、「実際に保健指導を受けたことによる効果」も分析されている。メタボ健診・特定保健指導という施策では、人々の行動に介入できるのは、保健指導を受けるように推奨するところまでであり、保健指導が強制され、違反したら罰則があるような制度ではない。そのため、メタボ健診・特定保健指導の政策効果を検証するうえでは、前者の分析結果が重要となる。一方、後者の場合は実際に保健指導を受けたことによる効果として解釈することができる。

データでは、実際に保健指導を受けたのは、対象となった人々のなかの約16%であった。この効果を確認すると、肥満に関する数値については、保健指導の対象となった場合の効果よりもやや大きな改善が認められたものの、心血管リスクに関する数値については、先ほどと同じく効果が確認されなかった。つまり、実際に指導を受けた人々に絞って確認しても、特定保健指導の効果はほとんどないか、非常に限定的効果しかないという結果は変わらなかった。「背景」でも述べたとおり、メタボ健診・特定保健指導の導入の目的は生活習慣病の予防とそれによる医療費の適正化であったが、本研究の因果推論に基づく分析結果に照らしてみると、現段階の制度ではその目的を達成しているとは言えないのではないかという示唆が得られたのである。

ただし飯塚氏は、この分析によって現在のメタボ健診・特定保健指導のすべてが否定されたわけではなく、今後もさらに研究を深めることが重要だと強調する。まず重要な点として、回帰不連続デザインでは因果的効果を正確に見いだすことができる反面、閾値として利用した腹囲85㎝前後の男性に対する効果だけしかわからない。つまり、基準値を大幅に超えた人たちなどに対してどのような効果があったかは、本研究の枠組みでは検証ができないのである。一般的には、より高リスクな人たちの方が、こうした保健指導の効果が高いと考えられる。この点は、今後新たな基準値を実験的に導入するなど、さらなる検証が必要となるだろう。

エビデンスを活用した制度の改善を

最後に、本研究から得られた政策的なインプリケーションと今後の課題を、飯塚氏へのインタビューに基づいてまとめておこう。本研究の結果、特定保健指導の対象となることで肥満についてはわずかに、かつ短期的な数値の改善が見られたものの、心血管リスクについては改善効果が確認されなかった。このことから、現時点のメタボ健診・特定保健指導制度による健康状態の改善効果は限定的であると評価せざるをえない。

なぜ保健指導の効果があまり見られなかったのだろうか。その原因として、基準値が適切でない可能性が指摘できる。つまり、現在の基準値である男性の腹囲85㎝に従って保健指導対象者を選ぶことで、本来は保健指導を必要としない健康な人たちも多く含まれてしまっているのではないか、ということだ。実際、データの腹囲の平均値は86.3㎝と基準値を上回っており、基準値が厳しすぎる可能性がある。今後、どのような人たちを保健指導の対象とすることでより高い費用対効果が見込めるのかについて検証を深めたうえで、エビデンスに基づいて基準値を見直していく必要があるだろう。

また、保健指導の対象とされても、実際に指導を受けた人は約16%にすぎなかった。どうすれば実際に指導を受ける人を増やせるかも、制度設計の一部として検討すべきだ。その際、保険者や個人のインセンティブへの考慮や行動経済学の知見の活用が求められる。たとえば、保健指導の対象となった人々が保健指導を受けなかった場合、保険料を引き上げるなど、新たなアプローチも検討すべきではないだろうか。

加えて、どのような内容の保健指導がより効果的なのかも検証が必要だ。先にも触れたように、本研究ではデータの制約から動機づけ支援と積極的支援を区別した分析が行われておらず、また具体的な指導内容に関する情報がないので、その点の検討も行われていない。効果的な指導内容が何かを検討する際には、事後的な効果検証が可能な形で指導方法を比較することが求められる。この場合も、しっかりしたエビデンスを蓄積しつつ効果を検証し、施策を改善していくことがきわめて有効だろう。

さらに飯塚氏は、現在行われている政府の大きな取り組みである「データヘルス計画」についても、確かなエビデンスを蓄積しつつ、それに基づく施策の検証と改善を行っていくことが必要だと強調する。データヘルス計画は、メタボ健診・特定保健指導のように国が一律に基準値や施策を規定するのではなく、各医療保険者が組合員の健康増進を目指して独自の施策を展開している。保険者の規模や財政基盤なども異なるため一律の施策展開を行うことが難しい面もあり、保険者の身の丈にあった施策を求めるという方向性だ。そのこと自体の是非はおいておくとしても、飯塚氏はバラバラに展開される施策の検証が行えるような体制になっていない点が問題だと指摘する。うまくいった保険者のプログラムの「横展開」も目指されてはいるものの、「何を持ってうまくいったと言えるのか」「なぜうまくいったのか」について、科学的な検証も行える状況ではない。飯塚氏はこの点でも、エビデンスをしっかりと蓄積し、エビデンスに基づいて施策を実施・改善していくことが重要だと強調する。

また飯塚氏は、そのためにもデータの利用環境の整備をより進めていくことが重要だと指摘する。日本で医療レセプト等のデータが研究利用できるようになってしばらく経過し、医療レセプト等を含むNDBと要介護認定情報・介護レセプト等情報を含む介護DB(介護データベース)を結合したデータ提供も行われるなど、利用可能なデータは充実してきている。また、先にも述べたようにウェアラブル端末から収集される健康に関するデータなども、分析に活用できる環境が整ってきている。

本稿で紹介したように、回帰不連続デザインは強力な因果推論の手法であるものの、大規模なデータを確保しないと実施しにくい分析だ。以前は実施できる環境が限られていたが、近年のデータ量の爆発的な増加によりその制約も緩和され、新しい分析上の工夫も次々に登場し、そのことがさらなるデータの蓄積につながるという好循環が生まれている。こうした因果推論の手法は、技術的にはそれほど難しくない場合も多いので、行政や政策形成の現場でも活用され、エビデンスが蓄積されていくことが望まれるし、研究者のデータ利用を促進し、ともにエビデンスを蓄積していくことも重要だろう。

しかし飯塚氏によれば、現在のNDBなどのデータの利用環境は非常に厳しく制限され、使いやすい状態であるとは言い難いという。重要な個人情報を含むものであるため、厳重な管理が必要であることは言うまでもないが、現状のデータ運用には課題があるとも考えられる。たとえば現在の制度では、データを不適切に利用した場合や、流出させてしまった場合などにも、重いペナルティなどが明確に規定されていない。そのため、貸し出す行政側が問題を避けるために必要以上に慎重になり、研究利用が促進されていないのではないかと指摘する。この点については、より大きなペナルティを規定したうえで、適切な研究利用等はむしろ促進していく方向に舵を切っていくべきであろう。

また、個人情報が流出しないよう、より安全な利用形態を工夫することも考えられる。たとえば現在は、利用者に直接ミクロデータを渡し分析を行っているが、データをクラウド上に置いてリモートでアクセスすることとし、データの持ち出しを難しくするなどの方法も考えられよう。NDBや介護DBはきわめて巨大なデータであり、政策決定に有用なエビデンスをもたらす潜在力がある。データの利用条件や利用環境を整備し、エビデンスに基づく政策形成をさらに加速させていくことが望まれる。

「背景:メタボ健診はその目的を達成できているのか?」へ

本フロンティアレポートは、CREPE編集部が論文の著者の一人である飯塚敏晃氏に行ったインタビューに基づいてまとめたものです。