The Ozempic Effect

一、为什么读这篇论文？

Ozempic、Wegovy、司美格鲁肽——这些名字最近几年频繁出现在新闻里。它们都属于 GLP-1 类药物，最初是糖尿病的治疗手段，但因为惊人的减重效果，迅速成为全球最热门的处方药之一。 2018 年 Ozempic 上市后，糖尿病患者中的 GLP-1 使用率从个位数飙升至 2023 年的 女性 31%、男性 23%。 47 项随机对照试验的荟萃分析显示，GLP-1 平均带来 4.6 公斤的体重下降；针对司美格鲁肽和替尔泊肽的专项研究则报告了更大的效果——20 至 50 磅。

媒体的叙事通常是这样的：用了 Ozempic，瘦了二三十斤，人生从此不同。一项对 2000 名 GLP-1 用户的调查显示，约 50% 的人认为它影响了自己与亲友的关系， 60% 的人说它影响了自己的工作效率。有人说自信心回来了，有人说婚姻出了问题，有人说工作也顺了。

但这些都是个案故事。数据说什么？

这篇 NBER 工作论文试图用（比较）严肃的经济学方法回答这个问题。它的结论出人意料——也充满值得追问的地方。

二、论文在问什么？

减肥会影响一个人的生活——这个逻辑不难理解。体重下降，自我形象改变，外界的眼光也随之改变。沿着这条链条往下推，作者识别出四个最可能被影响的结果变量：

心理健康：减肥 → 自我感觉变好 → 焦虑抑郁改善？
自评健康：整体健康状况的主观感受是否提升？
就业：职场存在外貌歧视，瘦了之后是否更容易被雇用？
婚姻：体重影响婚恋市场，减肥之后婚姻状况是否改变？

研究对象是美国的糖尿病患者。原因很实际：GLP-1 最初是糖尿病适应症， 2018 年 Ozempic 上市之前，几乎只有糖尿病患者在用。而且糖尿病患者中 88% 超重或肥胖，减重需求最强，GLP-1 普及最快。

数据来源是 MEPS（医疗支出调查），覆盖 2012–2023 年，横跨 GLP-1 爆发前后，提供了天然的时间对比。最终样本：女性 4,284 条观测，男性 3,672 条，平均年龄约 52 岁，约 66% 学历在高中及以下。

三、它是怎么研究的？

论文依次使用了三种模型，复杂度递增，可信度也递增。

第一种：横截面 OLS（仅作参考）

直接比较"用了 GLP-1 的人"和"没用的人"在结果上的差异。这是最直觉的方法，但有一个致命问题：这两组人本来就不一样。比如，更注重健康、更配合医嘱的人，更可能用药，同时也更可能本来就婚姻稳定。我们看到的“用药者婚姻更好”，不是药的功劳，是选人的偏差。这叫选择性偏差（Selection Bias）。

第二种：一阶差分（First Difference）

不再横向比较不同的人，而是纵向追踪同一个人——看他用药前后的变化量。张三 2020 年心情 6 分、2022 年心情 5 分，变化是 −1。做差之后，张三身上那些固定不变的特质（天生乐观、家庭背景）全部消掉了，因为它们在两个时间点上相同，相减等于零。

第三种：Value-Added 模型（首选）

这是一阶差分的升级版，灵感来自 Grossman（1972）的人力资本健康模型：

健康是一种存量。今天的健康 = 上一期健康存量 + 这期投资 − 折旧。
就像银行账户：今日余额 = 昨日余额 + 收入 − 支出。

模型把上一期的结果也放进回归右边，相当于同时控制了你的起点和你的历史轨迹。这是作者最信任的估计方法。

三个模型同时跑，如果结论一致，说明结果很稳健；如果不一致，差异本身就是信息。

四、发现了什么？

结论出奇地干净：纵向模型下，四个结果变量全部没有显著效应。

心理健康（K6 评分）：女性 −0.24，男性 −0.12，均不显著
抑郁筛查（PHQ-2≥3）：女性 −0.2%，男性 +2.2%，均不显著
自评健康好：女性 −3.6%，男性 −1.8%，均不显著
就业概率：女性 +0.1%，男性 −2.6%，均不显著
已婚概率：女性 −0.3%，男性 +0.9%，均不显著

最戏剧性的对比发生在婚姻上。横截面模型显示，男性用 GLP-1 之后结婚概率 +14.9%，而且统计显著（p<0.01）。但一换成纵向 Value-Added 模型，效应掉到 +0.9%，几乎消失。女性的就业概率在横截面下显示 +4.6%，纵向模型同样缩水至 +0.1%。

这个落差本身就是一个发现：用 GLP-1 的男性，本来就更容易结婚，不是因为药改变了他们，而是“更容易结婚的人”恰好也“更容易用这个药”。纵向模型把这层假象戳破了。

五、Further…

1. 心理健康的测量，可能太粗糙了

论文用 K6 和 PHQ-2 衡量心理健康。 K6 问你最近 30 天有没有感到“无助、绝望、坐立不安”， PHQ-2 只有两个问题，是临床筛查工具。

问题在于：这两个量表设计之初是为了发现病情明显的人，对于“自我感觉从 6 分变成 7 分”这种细腻改善根本感知不到。 GLP-1 带来的可能是自我形象提升、社交自信增加、日常活力改善—— 这些变化，K6 和 PHQ-2 几乎捕捉不到。如果换用更精细的量表，结论未必相同。

2. “没发现效果” ≠ “没有效果”

作者最后说，GLP-1 的价值主要体现在控糖和减重上，而不在于更广泛的幸福感维度。这句话应该小心解读。

这篇论文有几个结构性限制：样本只有糖尿病患者（平均年龄 52 岁）、追踪窗口只有两年、心理量表较粗。作者自己承认，研究的统计功效不足以可靠检测 小于均值 20% 的效应——就业均值是 47%，也就是说，小于 9 个百分点的就业率变动在这个研究里根本发现不了。在这些约束下，“没发现效果”，不能等同于“没有效果”。

如果换成年轻的非糖尿病减重用户、五年以上的追踪、更精细的幸福感量表，结论可能完全不同。

3. 最大的遗憾：没有工具变量

论文自己承认无法确认因果效应。纵向模型控制了个人固定特征，但同期发生的其他变化仍然是潜在干扰。

一个理想的工具变量应该满足两个条件：与“是否使用 GLP-1”强相关，但只通过 GLP-1 影响结果，不直接影响心情、就业、婚姻。可能的候选有：各州保险对 GLP-1 的报销政策差异、所在地区医生的平均处方率、本地药店的价格波动。

如果未来有研究能找到一个干净的工具变量，我们对 GLP-1 真实社会效应的理解会更可靠—— 也许真的没什么影响，也许影响比这篇论文看到的大得多。