人工智能健康应用正在呈爆炸式增长。大模特的“保健”可以信赖吗？我们进行真实测试 – 新京报

岁末年初，AI健康赛道进入爆发期。去年12月中旬，蚂蚁集团推出了AI健康应用“蚂蚁阿福”的更新版本，一度跻身苹果App Store排行榜前两名。次月，百度更新并推出了问心健康管家，OpenAI则推出了ChatGPT。在健康功能上，京东健康推出循证医疗人工智能产品“智医”，百川智能也打破长久以来的沉寂而受到关注，推出新一代开源医疗改善大规模语言模型百川-M3……各大厂商和独角兽公司在这个垂直领域吹响了“控诉”，引发了一波医疗AI热潮。在这种困惑中，用大模型“看病”靠谱吗？新京报贝壳财经记者测试了七款AI健康APP解读体检报告和解读体检报告的能力而且所有这些应用程序的解释都更加谨慎。主要差异在于治疗需求和后续问题。然而，人工智能并不是“防摔”的。一些应用程序还可以将评估甲状腺功能的核心指标 TSH（促甲状腺激素）解释为 HCG（人绒毛膜促性腺激素），并建议用户检查“是否怀孕”。面对行业的崛起，监管层纷纷发声。 2025年12月30日，北京“AI+医疗健康”新政在行业内划清界限。 1月7日，国家网信办《人工智能拟人互动服务管理暂行办法（征求意见稿）》也为AI医疗快速发展树立了“交通规则”和“安全护栏”。 AI解读体检报告非常谨慎，“幻觉”依然存在。测试解读健康检查的能力贝壳财经记者将甲状腺健康体检报告与市场上常见的七种健康模式（小河爱医生、夸克健康、平安好医生、科大讯飞小医、百度稳心健康、京东健康和蚂蚁阿福）进行了对比。七款机型均具备拍照识别解读报告、急救箱拍照、疫区拍照、AI会诊等基本功能。在这次评估中，几个大型模型表达了对症状诊断的“谨慎”态度，使用了概率、即时性、趋势等词语。例如，百度问心健康的建议往往会因为单项指标高于正常范围而认为用户患有甲状腺功能减退症。不同AI健康应用解读同一份健康检查报告。贝壳财经记者张晓慧/这份体检报告显示，TSH（促甲状腺激素）指标高于标准值，这is a common concern for several large models.壳牌金融评估发现，七个大型建模应用程序各自分析了特殊指标和其他指标。其中，只有百度问心健康根据可能有问题的异常指标分析其他正常指标，并提示用户的T3指标可能较低，同时TSH升高，尽管另一个T3指标在正常范围内。当谈到是否接受治疗的问题时，几个重要模型的反应存在明显差异。夸克健康、科大讯飞、蚂蚁阿福明确建议用户去医院就诊。也有应用建议定期检查，如果出现相关症状及时治疗。除上述常见分析外，小河AI医生和百度问心健康在问答后询问用户是否有相关症状，京东健康提供了问题和解答相关医生的答复。这可以被认为是应用程序为了提高用户保留率而采取的行动。在七个大型模型应用中，小河博士的语言风格明显是口语化，有“我们”、“勉强达标”、“导演”等表达方式。然而，大型模型并不“安全”。此前，有用户向记者透露，一些应用将TSH（促甲状腺激素）指标解读为HCG（人绒毛膜促性腺激素）指标，从而判断是否怀孕。对此，名模回复道：“之前的回答中提到的HCG（人绒毛膜促性腺激素）的检测项目，是与TSH（促甲状腺激素）混淆造成的，对此我们深表歉意。”这次，在真实测试中，记者也发现了类似的“错觉”。该应用程序混淆了 TSH 和 HCG 之间的差异，并且此错误发生了两次。”具体来说，在第一代中，该应用程序错误地显示了 ChiTSH的原名是“人绒毛膜促性腺激素”，但后来的解释是正确的。记者再次查看时，该APP直接将TSH识别为HCG，并主动提出“优先确认怀孕状况”。对此，一位使用医用脊柱模型的技术人员告诉贝壳财经记者，幻觉是大型模型的通病，脊柱模型的幻觉很难100%消除，所以唯一的选择就是尽可能减少幻觉。当医生的处方与人工智能建议相冲突时，一些医院警告患者不要过度依赖人工智能咨询。事实上，当前监管部门也意识到人工智能在医疗领域的崛起，并发出警告。《北京市支持医疗卫生领域人工智能应用发展行动计划（2026-2027年）》和《北京市支持人工智能产业创新发展办法》北京市卫生健康委发布的《医疗健康领域人工智能发展（2026-2027年）》强调医疗行业人工智能生态系统需要医疗企业的合作，并制定了以下政策：坚持包容审慎原则，遵循伦理标准，保护患者信息安全和生命健康安全，禁止用人工智能完全取代医疗专业人员的专业判断。目前，医生处方与人工智能建议存在差异。据媒体报道，被告带孩子去医院治疗感冒，医生开了一种“人干扰素”喷雾剂，由于受访者对该药物不熟悉，《大众健康》A询问该药物，并表示“目前该药物在儿童中的临床数据相关”。贝壳财经记者注意到，公立医院官方账号提醒患者，不要因过度依赖人工智能治疗而错过住院治疗的黄金窗口期。汕头大学医学院第一附属医院发布的案例显示，两名新家长在孩子出现反复咳嗽、发烧等症状时，到人工智能咨询平台进行咨询，确定为常见呼吸道感染，建议家庭用药。结果，男孩的症状得到了缓解。回来快一个月了，到医院的时候，发现是腺病毒感染，有类似感冒的症状。事实上，早在大规模医疗模式流行之前，ChatGPT 就已经开始流行“ChatGPT Health”了。每周都有大量的人向 ChatGPT 询问与身心健康和幸福相关的问题。住院医师孙亚轩在Deepseek出现后首先注意到这一现象。 “当时我们主任很惊讶，没想到用Deepseek搜索医学相关知识这么全面。在会议上，他特意告诉我们，处理病人问题要更加小心。”虽然向某人咨询“有帮助”，但“它当然不符合医疗保健的资格。它只能用作了解病情和支持决策的工具。”该健康应用程序的用户告诉壳牌财经记者，AI的作用更多的是“助手”，可以用来帮助医生。 “当我遇到小问题时，豆博向我保证，我不必担心。如果他认为这是一个小问题，他告诉我，我会感到平静一些。”我问他有关健康的问题。经过频繁使用后，他开发了一种使用方法everal large models in a balanced way.对于小吴来说，这些大规模健康模型应用的重要性不是取代医生和医院，而是像小助手一样，拥有随时随地可用的医学知识。如果症状较轻，“即使去医院，医生也会无语”，小吴直接询问健康模型。在他看来，这些应用缓解了焦虑，但并不打算完全采纳AI提供的建议。 There are many users like Xiao Wu.许多受访者表示，他们在日常生活中向健康模型寻求健康问题的帮助。不过，受访者的评价褒贬不一，“ntada说得很有道理”，也有人坦言“应该避免大雷击”。记者注意到，蚂蚁阿福、百度健康、平安好医生等均推出了在线医疗咨询功能，用户只需支付问诊费，即可在线咨询合适的医生。三种类型的咨询的价格各不相同：图形、文本、音频和视频。其中平安好医生和百度健康只为用户列出了可以在线就诊的医生。选择。蚂蚁阿福的“AI寻医”接入“好医生在线”互联网医疗平台，通过大规模模型识别和分析用户需求并提供针对性建议。从使用工具到带朋友，AI也能产生流量。事实上，互联网健康并不是一个新的互联网概念。在人工智能时代，访问大规模模型似乎是一个相当自然的行为。目前主要有蚂蚁阿福、小河AI医生、科大讯飞小医三大公司。健康模型应用程序正在推出一个独立的应用程序。夸克和百度已将人工智能健康模块集成到其搜索引擎应用程序中。平安好医生和京东健康在他们的应用程序中添加了人工智能功能，例如人工智能问答。从这点来看，测试了三个应用：蚂蚁阿福、小河AI医生和科大讯飞小医。最显着的垂直特征。随着“大厂”倒闭，大规模C端健康建模应用的竞争愈发激烈。其中，说得最多的就是“小辈”阿里·阿夫。该应用的前身是蚂蚁集团于2025年6月开始推出的“AQ”AI健康应用。六个月后，AQ更名为“Afu”，定位从“AI工具”变为“AI健康朋友”。从使用工具到带上朋友，虽然表面上是品牌策略的更新，但“走下去”意味着提高使用频率和用户留存率。这可能会影响健康模型“货币化”的能力。贝壳财经记者对上述审慎模式的应用进行了评估，发现垂直审慎模式在某种程度上已经成为“引流”的切入点，其功能不再局限于单一属性。蚂蚁阿芙的子公司蚂蚁集团与字节跳动旗下小河AI医生再次展现出相似之处。两款应用中的“拍药”功能都会要求你跳转到其他平台，方便地购买药品。前者可以去淘宝限时抢购，后者可以在抖音平台买药。此外，蚂蚁阿福还可以让您在接受治疗时使用支付宝查询健康保险。不过，这些应用对于营销也比较谨慎。蚂蚁阿芙公开声明其健康问答内容不存在任何广告支持、商业收视以及任何其他商业元素的干扰。在智元研究院公布的“2026年AI十大技术趋势”中，当前C端AI应用竞争目标越来越明确，其核心就可以在“超级应用”战略中找到。一个典型的特点是“一体化”的功能设计，直接生产基于高性能基础的产品模型，不受单一工具属性的限制，通过单一入口实现从信息获取到业务规划再到问题解决的闭环。从这个角度来看，作为互联网“大公司”的产品，AI健康应用背后有着丰富的平台生态，其中一些平台呈现出不同应用之间互联互通的趋势。倪先生接受贝壳财经记者采访新京报贝壳财经记者张晓辉罗一丹实习主编徐谦一校对王金玉赵林杨丽