谷歌最近宣布发布 Magika 1.0,这是其基于人工智能的文件类型检测系统的最新稳定版本。此版本标志着性能和安全性的显着改进,因为核心引擎已完全迁移到 Rust 语言。自去年开源发布以来,Magika 已在开源社区中得到广泛应用,每月下载量超过 100 万次。
新版Magika的架构进行了彻底的重构,显著提升了处理速度和内存安全性。谷歌表示,该工具可以在单核处理器上每秒识别数百个文件,并且可以使用多核 CPU 扩展到每秒数千个文件。Magika 1.0 使用 ONNX Runtime 进行模型推理,使用 Tokio 框架进行异步处理,确保高效运行。
在文件格式支持方面,Magika 1.0 的检测能力已扩展到 200 多种文件格式,几乎是初始版本的两倍。新添加的文件类型包括数据科学和机器学习中的 Jupyter Notebooks、Numpy、PyTorch,以及现代编程和 Web 开发中的 Swift、Kotlin、TypeScript。此外,它还支持 DevOps 相关文件以及各种数据库和图形格式文件,例如 SQLite 和 AutoCAD。
Magika 1.0 不仅提高了识别相似文件格式的能力,还增强了不同编程语言文件之间的区别,例如 C 和 C++、JavaScript 和 TypeScript。谷歌在技术实施方面面临许多挑战,包括训练数据的庞大量和某些文件类型的样本稀缺。为了解决这个问题,谷歌开发了自己的数据集库SedPack,并使用生成式AI工具Gemini创建了高质量的合成训练数据,从而提高了模型的泛化能力。
值得注意的是,Magika 还更新了其 Python 和 TypeScript 模块,使开发人员更容易集成。用户可以在不同的作系统上通过简单的命令安装 Magika,谷歌鼓励开发人员参与该项目,以继续优化和扩展该工具的功能。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
