
- 试错成本:现实里撞车可不便宜,不像游戏里随便重来。
- 奖励设计:奖励定不好,机器可能学歪。比如想让它开车快点,结果它学会超速闯红灯。
- 时间长:训练得试几百万次,慢得像乌龟爬。
科学家们在想办法,比如“模拟环境”先练手(像游戏里练级),或者“迁移学习”借经验。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
