近日,研究人员测试了谷歌最新的视频生成AI模型Veo-3,结果显示,尽管该模型可以生成非常逼真的手术视频,但在理解医疗程序方面存在明显的不足。在这项研究中,研究团队提供了一张手术图像,并要求 Veo-3 预测手术接下来 8 秒内会发生什么。为此,他们创建了一个名为 SurgVeo 的评估标准,其中包括 50 个真实的腹腔镜和神经外科视频。
研究团队邀请了四位经验丰富的外科医生对AI生成的视频进行独立评分,评估标准涵盖视觉真实性、器械使用合理性、组织反应和手术逻辑四个方面。尽管外科医生对 Veo-3 生成的视频质量给予了很高的评价,称其“非常清晰”,但深入分析表明,人工智能在医学逻辑方面的表现受到了显着影响。在腹腔镜手术测试中,Veo-3的视觉合理性得分为3.72,但器械作得分仅为1.78,组织反应得分仅为1.64,手术逻辑得分低至1.61。
尤其是在神经外科场景中,Veo-3的表现更差,8秒后手术逻辑得分仅为1.13。研究团队发现,超过93%的错误源于医学逻辑问题,例如发明不存在的手术器械和违反生理规律的组织反应。尝试为模型提供更多上下文信息,例如手术类型和具体程序阶段,并没有显着提高其性能。
这项研究表明,目前的视频生成人工智能距离真正理解医疗程序还很远。尽管这些系统未来可能会用于医生培训和术前规划,但现有型号尚未达到安全可靠的应用水平。研究团队计划开源SurgVeo数据集,以促进人工智能医学理解的学术进步。同时,这也提醒我们,在医疗培训中使用此类生成的视频会带来严重的风险,可能导致误导性学习和不正确的手术技术
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
