The Ozempic Effect
数据告诉你,它改变生活了吗?
Kaestner, R., & Schiman, C. (2026). The Effects of GLP-1 Use on Mental Health, Self-rated Health, Employment and Marriage. NBER Working Paper No. 35198.
作者:Robert Kaestner(芝加哥大学)& Cuiping Schiman(佐治亚南方大学)
数据来源:MEPS(医疗支出调查),2012–2023 年
↓ 下载论文 PDF
一、为什么读这篇论文?
Ozempic、Wegovy、司美格鲁肽——这些名字最近几年频繁出现在新闻里。 它们都属于 GLP-1 类药物,最初是糖尿病的治疗手段,但因为惊人的减重效果, 迅速成为全球最热门的处方药之一。 2018 年 Ozempic 上市后,糖尿病患者中的 GLP-1 使用率从个位数飙升至 2023 年的 女性 31%、男性 23%。 47 项随机对照试验的荟萃分析显示,GLP-1 平均带来 4.6 公斤的体重下降; 针对司美格鲁肽和替尔泊肽的专项研究则报告了更大的效果——20 至 50 磅。
媒体的叙事通常是这样的:用了 Ozempic,瘦了二三十斤,人生从此不同。 一项对 2000 名 GLP-1 用户的调查显示,约 50% 的人认为它影响了自己与亲友的关系, 60% 的人说它影响了自己的工作效率。 有人说自信心回来了,有人说婚姻出了问题,有人说工作也顺了。
但这些都是个案故事。数据说什么?
这篇 NBER 工作论文试图用(比较)严肃的经济学方法回答这个问题。 它的结论出人意料——也充满值得追问的地方。
二、论文在问什么?
减肥会影响一个人的生活——这个逻辑不难理解。 体重下降,自我形象改变,外界的眼光也随之改变。 沿着这条链条往下推,作者识别出四个最可能被影响的结果变量:
自评健康:整体健康状况的主观感受是否提升?
就业:职场存在外貌歧视,瘦了之后是否更容易被雇用?
婚姻:体重影响婚恋市场,减肥之后婚姻状况是否改变?
研究对象是美国的糖尿病患者。 原因很实际:GLP-1 最初是糖尿病适应症, 2018 年 Ozempic 上市之前,几乎只有糖尿病患者在用。 而且糖尿病患者中 88% 超重或肥胖,减重需求最强,GLP-1 普及最快。
数据来源是 MEPS(医疗支出调查),覆盖 2012–2023 年, 横跨 GLP-1 爆发前后,提供了天然的时间对比。 最终样本:女性 4,284 条观测,男性 3,672 条, 平均年龄约 52 岁,约 66% 学历在高中及以下。
三、它是怎么研究的?
论文依次使用了三种模型,复杂度递增,可信度也递增。
第一种:横截面 OLS(仅作参考)
直接比较"用了 GLP-1 的人"和"没用的人"在结果上的差异。 这是最直觉的方法,但有一个致命问题: 这两组人本来就不一样。 比如,更注重健康、更配合医嘱的人,更可能用药, 同时也更可能本来就婚姻稳定。 我们看到的“用药者婚姻更好”,不是药的功劳,是选人的偏差。 这叫选择性偏差(Selection Bias)。
第二种:一阶差分(First Difference)
不再横向比较不同的人,而是纵向追踪同一个人——看他用药前后的变化量。 张三 2020 年心情 6 分、2022 年心情 5 分,变化是 −1。 做差之后,张三身上那些固定不变的特质(天生乐观、家庭背景)全部消掉了, 因为它们在两个时间点上相同,相减等于零。
第三种:Value-Added 模型(首选)
这是一阶差分的升级版,灵感来自 Grossman(1972)的人力资本健康模型:
就像银行账户:今日余额 = 昨日余额 + 收入 − 支出。
模型把上一期的结果也放进回归右边, 相当于同时控制了你的起点和你的历史轨迹。 这是作者最信任的估计方法。
三个模型同时跑,如果结论一致,说明结果很稳健; 如果不一致,差异本身就是信息。
四、发现了什么?
结论出奇地干净:纵向模型下,四个结果变量全部没有显著效应。
抑郁筛查(PHQ-2≥3):女性 −0.2%,男性 +2.2%,均不显著
自评健康好:女性 −3.6%,男性 −1.8%,均不显著
就业概率:女性 +0.1%,男性 −2.6%,均不显著
已婚概率:女性 −0.3%,男性 +0.9%,均不显著
最戏剧性的对比发生在婚姻上。 横截面模型显示,男性用 GLP-1 之后结婚概率 +14.9%,而且统计显著(p<0.01)。 但一换成纵向 Value-Added 模型,效应掉到 +0.9%,几乎消失。 女性的就业概率在横截面下显示 +4.6%,纵向模型同样缩水至 +0.1%。
这个落差本身就是一个发现:用 GLP-1 的男性,本来就更容易结婚, 不是因为药改变了他们,而是“更容易结婚的人”恰好也“更容易用这个药”。 纵向模型把这层假象戳破了。
五、Further…
1. 心理健康的测量,可能太粗糙了
论文用 K6 和 PHQ-2 衡量心理健康。 K6 问你最近 30 天有没有感到“无助、绝望、坐立不安”, PHQ-2 只有两个问题,是临床筛查工具。
问题在于:这两个量表设计之初是为了发现病情明显的人, 对于“自我感觉从 6 分变成 7 分”这种细腻改善根本感知不到。 GLP-1 带来的可能是自我形象提升、社交自信增加、日常活力改善—— 这些变化,K6 和 PHQ-2 几乎捕捉不到。 如果换用更精细的量表,结论未必相同。
2. “没发现效果” ≠ “没有效果”
作者最后说,GLP-1 的价值主要体现在控糖和减重上, 而不在于更广泛的幸福感维度。这句话应该小心解读。
这篇论文有几个结构性限制: 样本只有糖尿病患者(平均年龄 52 岁)、追踪窗口只有两年、 心理量表较粗。作者自己承认,研究的统计功效不足以可靠检测 小于均值 20% 的效应——就业均值是 47%, 也就是说,小于 9 个百分点的就业率变动在这个研究里根本发现不了。 在这些约束下,“没发现效果”,不能等同于“没有效果”。
如果换成年轻的非糖尿病减重用户、五年以上的追踪、更精细的幸福感量表, 结论可能完全不同。
3. 最大的遗憾:没有工具变量
论文自己承认无法确认因果效应。 纵向模型控制了个人固定特征,但同期发生的其他变化仍然是潜在干扰。
一个理想的工具变量应该满足两个条件: 与“是否使用 GLP-1”强相关,但只通过 GLP-1 影响结果,不直接影响心情、就业、婚姻。 可能的候选有:各州保险对 GLP-1 的报销政策差异、所在地区医生的平均处方率、 本地药店的价格波动。
如果未来有研究能找到一个干净的工具变量,我们对 GLP-1 真实社会效应的理解会更可靠—— 也许真的没什么影响,也许影响比这篇论文看到的大得多。