近日,美国生命科学公司泰禾生物(原Vevo Therapeutics)正式推出了其开创性的AI基础模型——泰禾-x1(Tx1),这是一个30亿参数的大模型,专门用于解码基因、细胞和药物之间的复杂关系。该模型的发布标志着AI正式从“支撑工具”升级为“生命系统建模引擎”,为癌症靶点发现和个性化治疗开辟了新的途径。
架构创新:30亿参数,为单细胞世界而生
Tahoe-x1 基于 Transformer 编码器架构,并使用掩码语言建模 (MLM) 进行预训练。训练数据包括惊人的2.66亿个单细胞转录组,其中包括泰禾生物自建的Tahoe-100M扰动数据集——一个记录了数千个分子扰动对癌细胞系的反应的数据集,该数据集已被全球科学界下载近20万次。
为了平衡性能和实用性,该模型系列提供了多种尺寸版本(如Tx1-70M),并通过FlashAttention v2等优化技术,实现了比同类蜂窝模型高出3至30倍的计算效率,即使在常规GPU上也能实现高效运行,大大降低了研究门槛。
能力一:精准识别癌症“要害”,超越现有所有模型
在基因本质预测任务中,Tahoe-x1全面超越权威DepMap数据集上的现有模型,准确识别出在不同癌症亚型中维持肿瘤存活的“核心驱动基因”。这种能力有助于研究人员快速识别高价值靶点,显着缩短从发现到验证的周期,特别适用于异质性和难治性癌症。
能力二:自动重构致癌途径,揭示分子协同网络
该模型不仅可以识别单个基因,还可以捕获在致癌过程中协同激活的信号通路。在使用 MSigDB 数据库的测试中,Tahoe-x1 在重建“致癌标志程序”方面取得了最高的准确性,自动分析了不受控制的细胞周期和 DNA 修复缺陷等关键生物学过程,为多靶点联合疗法提供了系统见解。
能力三:药效零样本预测,虚拟临床试验成为现实
Tahoe-x1 最令人兴奋的方面是它的零样本泛化能力——即使面对以前从未见过的细胞类型或患者样本,该模型也可以根据现有知识进行“类比推理”,以预测它们对特定药物的反应。这意味着未来的药物开发可以在计算机中模拟数千种治疗方案,筛选出最有希望的组合,然后进入实验室或临床阶段,从而显着降低试错成本和失败率。
结合训练后框架,该模型还可以适应不同的患者背景,加速个性化癌症治疗的实施。
AIbase 观察:开源 + 数据驱动,生物技术 AI 生态正在加速成熟
泰禾生物已共筹集了4200万美元,正在构建全球最大的单细胞扰动图,目标是10亿个数据点。此次,Tahoe-x1 不仅开放了源码模型权重(Hugging Face)和代码(GitHub),还提供了交互式演示,预印本也上传到了 bioRxiv,充分拥抱科学界内部的合作。
AIbase认为,Tahoe-x1的真正突破在于让AI从“统计相关性”走向“机制理解”。当模型能够像生物学家一样思考基因如何调节、药物如何干预以及细胞如何反应时,药物开发范式将完全从“反复试验”转变为“预测”。
未来,随着数据规模的不断扩大,Tahoe-x1 可能会成为精准医疗的基础设施——在虚拟世界中模拟数百万种治疗可能性,只为在现实世界中为患者赢得那一次最有效的治疗机会。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
