1 月 27 日消息,《华盛顿邮报》科技专栏作家 Geoffrey A. Fowler 测试 OpenAI 最新上线的 ChatGPT Health 功能,导入其十年积累的 Apple Watch 数据(含 2900 万步记录和 600 万次心跳测量),结果被错误判定心脏健康为“不及格”(F)。
Fowler 感到恐慌并立即联系了医生。医生在详细检查后,断然否定了 AI 的诊断,指出 Fowler 的心脏病发作风险极低,甚至无需进行额外的有氧适能测试来证伪 AI 的结论。

深入分析显示,ChatGPT 的误判主要源于误读数据性质。Fowler 指出,AI 将 Apple Watch 记录的 VO2 max(最大摄氧量)视为绝对精准的医疗数据,并据此给出了负面评价。实际上,苹果官方明确说明该数据仅为“估算值”,主要用于追踪趋势而非临床诊断。
此外,Fowler 更换新款 Apple Watch 后,因传感器升级导致的静息心率基准变化,也被 AI 错误地解读为生理机能的实质性改变,完全忽略了硬件迭代这一关键变量。
除了误读数据,ChatGPT Health 反馈结果还存在不稳定情况,当 Fowler 重复询问同一健康问题时,AI 的评分竟在“F”到“B”之间剧烈摇摆。
更严重的是,该系统表现出明显的“健忘症”和逻辑断层,在对话中多次遗忘用户的性别、年龄等基础信息,甚至在拥有近期血液检测报告的情况下,分析时却选择性忽略这些关键的临床证据。