谷歌人工智能研究团队最近推出了DS STAR(通过迭代规划和验证的数据科学代理),这是一个多代理框架,旨在将模棱两可的业务问题转换为可执行的Python代码,而无需人工分析师。与依赖结构化 SQL 数据库的传统数据科学代理不同,DS STAR 能够直接处理混合格式的数据文件,例如 CSV、JSON、Markdown 和非结构化文本。
DS STAR 的工作流程分为几个阶段。首先,系统使用名为 Aanalyzer 的代理分析数据湖中的每个文件,生成 Python 脚本来提取列名、数据类型和元数据等关键信息。此步骤确保系统能够获得每个文件的结构化视图,为后续分析提供上下文信息。
完成数据分析后,DS STAR 进入迭代规划和验证循环。此过程包括多个代理,包括 Aplanner、Acoder、Averifier 和 Arouter。Aplanner 负责创建初始可执行步骤,而 Acoder 将这些步骤转换为 Python 代码,执行这些代码以获得观察结果。Averifier 根据执行结果评估当前计划的充分性,必要时,Arouter 决定如何修改计划。此循环一直持续到获得满足要求的结果或达到最大迭代次数。
此外,DS STAR还配备了Adebugger和Retriever模块,以增强系统的鲁棒性。Adebugger 会在脚本失败时修复脚本,确保系统即使在面对模式漂移和缺失列的情况下也能继续运行。检索器负责从大型数据集中检索最相关的文件,以在分析过程中提供上下文支持。
通过一系列基准测试,DS STAR在DABStep、KramaBench、DA Code等多个任务中展现出了出色的性能,显著提高了分析的准确性。这表明DS STAR可以有效地将复杂的数据科学问题转化为可靠的Python解决方案,推动数据分析的自动化。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
