每日人工智能资讯|大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相-数智化转型网

近日，开发者社区发现 MiniMax M2系列模型在输出特定人名“马嘉祺”时出现异常。MiniMax 官方随即进行了全链路排查，并发布技术报告，揭示了这一现象背后的深层机制:后训练阶段（Post-training）导致的低频 Token 退化。数智化转型网www.szhzxw.cn

一、根因定位:被“挤压”的词元

排查显示，分词器将“马嘉祺”切分为 ['马'， '嘉祺']。由于“嘉祺”在预训练阶段出现频次高，被合并为独立 Token（编号190467）。然而，在决定模型对话能力的“后训练”阶段，包含该 Token 的样本不足5条。

这种极低的出现频次导致该 Token 在向量空间中长期未被优化，被频繁更新的高频 Token（如代码符号、工具调用标记）挤压偏移。最终，模型虽然保留了关于马嘉祺的知识，却失去了输出对应 Token 的能力，转而选择音近的“佳琪”或“琪琪”。数智化转型网www.szhzxw.cn

二、连锁反应:日语与垃圾词的“遗忘”

通过对20万词表的扫描，MiniMax 发现约 4.9% 的 Token 存在显著退化。退化最严重的是日语内容（退化率29.7%），这解释了为何模型在日语对话中偶尔会混入俄语或韩语字符——因为日语 Token 发生了参数漂移，与其它语言在空间中产生了混淆。数智化转型网www.szhzxw.cn

此外，退化名单中还包括大量的互联网 SEO 垃圾词（如“传奇私服”、“无痛人流”等）。由于这些词汇在对话数据中几乎为零，模型在后训练中逐渐“遗忘”了它们。数智化转型网www.szhzxw.cn

三、解决方案:建立生成频率“底线”

针对该问题，MiniMax 提出了三项核心修复策略:

全词表合成数据: 构造复读任务，确保每个 Token 在后训练阶段都有最低限度的练习频率。目前，日语混淆率已从47% 降至1%，全词表参数稳定度大幅提升。数智化转型网www.szhzxw.cn
混入预训练语料: 在 SFT 数据中按比例加入预训练语料，利用其广度缓解遗忘。
词表裁剪与监控: 移除永远不会被使用的冗余 Token，并将 Token 覆盖度纳入后训练质量监控指标。

总结: “马嘉祺”事件并非孤例，它折射出大模型分词器设计与实际使用场景之间的脱节。MiniMax 表示，未来的数据覆盖策略需兼顾语义层面与统计层面，确保模型在习得“聊天能力”的同时，不丢失底层的词汇表达力。数智化转型网www.szhzxw.cn

若您对人工智能感兴趣或为人工智能创始人，可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数智化转型网小助手思思（17757154048，微信同号）

若您为人工智能服务商，可添加数智化转型网小助手Jasper，加入人工智能行业交流群。

声明：本文来自数智化转型网，版权归作者所有。文章内容仅代表作者独立观点，不代表数智化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。

本文由数智化转型网（www.szhzxw.cn）转载，编辑/翻译：数智化转型网（Professionalism Achieves Leadership 专业造就领导者）白龙

每日人工智能资讯|大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

一、根因定位:被“挤压”的词元

二、连锁反应:日语与垃圾词的“遗忘”

三、解决方案:建立生成频率“底线”

洞察律：数据挖掘增大对业务的认知

数据相关专题|关联分析有哪些步骤？

企业出海专题|科沃斯出海的三大核心突破点是什么？

“内外合力”推动民营经济高质量发展

服务商资讯|全球智造添新力，上海本菱德沃克OBF智能工厂启动

联系我们

微信扫一扫关注我们

一、根因定位:被“挤压”的词元

二、连锁反应:日语与垃圾词的“遗忘”

三、解决方案:建立生成频率“底线”

每日人工智能资讯|美团入局AI社交赛道：首个数字生命共生社区“觅游”开启公测

每日人工智能资讯|OpenAI推出GPT-5.5-Cyber预览版 面向安全团队限量开放

相关推荐

联系我们

微信扫一扫关注我们

每日人工智能资讯|OpenAI推出GPT-5.5-Cyber预览版面向安全团队限量开放