数智化转型网szhzxw.cn AI 京东科技言犀基础大模型助力企业快速构建、部署、应用人工智能

京东科技言犀基础大模型助力企业快速构建、部署、应用人工智能

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

一、概述

京东作为一家新型实体企业,拥有着深厚的产业基因和供应链场景,源于真实的业务需求、深度复杂的场景任务和广泛的实体经济发展要求,促使京东的AI技术是面向知识密集型、任务型场景,解决真实产业问题的技术。且京东云旗下的言犀团队在任务型智能对话交互关键技术方向拥有丰富的积累和广泛的落地,拥有包括文本生成、语音生成、对话生成等系列领先技术,并打造出了智能客服系统、京小智平台商家服务系统、智能政务热线、言犀数字人等系列产品和解决方案。

京东科技深耕人工智能领域多年,形成了从算法到应用场景的链路,并通过自研推出言犀基础大模型,赋予客户在各自行业中快速构建,部署,应用人工智能的能力。通过言犀基础大模型,企业可以建立从业务的大量数据中自我学习、自驱迭代的能力,并实现对企业实施、运营、维护的一体化覆盖,同时言犀大模型中的小型化技术能够使企业具备云管边端协同运营的能力,增强企业面对非标准化、算力通讯资源受限场景的应对能力,和面对业务变化的快速响应能力。

二、需求分析

目前基础大模型正处于蓬勃发展阶段,各行业、各领域以构建数字化、线上化、搭建虚拟仿真场景为主要应用。在当前阶段下,基础大模型面临着以下问题:

一、 由于基础技术的限制以及大部分企业在大模型应用和硬件设备开发能力的不足,从而导致无法自主生产原生AI模型。 数字化转型网www.szhzxw.cn

二、 除了用户单点大模型开发技术能力的不足,在各行业链条中的软硬件互通、数据标准化和应用功能融合等问题中都存在着无法克服的壁垒。

三、 大模型训练硬件的能源消耗问题,在当前全球绿色经济的背景下,平稳运行离不开大规模的数据中心和云计算中心等基础设施的支撑,而大部分企业则无法满足以上的要求,从而无法实现大模型的应用。

针对以上情况,开发言犀基础大模型,以实现低门槛构建基于人工智能技术的解决方案,是本项目需要解决的问题。 数字化转型网www.szhzxw.cn

三、案例介绍

京东推出的言犀基础大模型,将着力围绕内容生成、人机对话、用户意图理解、信息抽取、情感分类等几大类任务,围绕零售、物流、金融、健康、政务场景进行落地应用。

1. 优质的场景和数据让模型产业属性更强

京东的言犀大模型,是扎根产业的原生大模型。凭借着从基础设施、模型层、MaaS层、SaaS层全栈的技术布局,打造多款端到端的大模型技术产品。

言犀大模型拥有三个差异化的特性: 数字化转型网www.szhzxw.cn

第一,它是产业原生的,有更强的产业属性。

第二,它是价值驱动的,有更高的应用价值。

第三,它是开放协同的,有更快的迭代效率。

图1:京东言犀大模型概览

另一方面,京东连接着产业互联网和消费互联网,在对内实践和对外产业数智化过程中积累了众多优质的数据,区别于一些通用域数据的静态数据,京东的数据是“鲜活的”,凭借每年产生数百亿的交互数据,保证了模型的持续迭代和优化。 数字化转型网www.szhzxw.cn

京东的大模型是在预训练阶段就接了70%通用域数据和接近30%京东特有的产业数据相结合去做训练,这就保证了模型拥有大模型的“常识”,并拥有产业模型的“专业”。

图2:京东言犀大模型数据概览

2. 京东言犀大模型技术架构

京东言犀大模型是基于京东云的高性能计算集群,采用Megatron+DeepSpeed的分布式训练框架,训练的Decoder-Only架构模型。在通用知识获取方面,言犀大模型添加了约30%的京东域自身的产业数据,并通过构建高质量的指令数据,帮助模型具备更强的产业属性。除了模型训练本身,京东言犀大模型还在模型的转换层和服务层进行了自研算法的深耕,提升了大模型本身的推理速度和部署性能,让大模型的能力能够充分的下沉到业务端,并通过集成平台能力打造真正的模型及服务。

图3:京东言犀大模型架构

3. 前沿的算法能力保证模型具备高应用价值

(1)预训练层面

源于业务应用需求,京东在2020年就提出了K-PLUG模型,将领域知识注入大模型中,以提高大模型的专业性和忠实度,并在2021年对该项工作进行了发表。K-PLUG方法是基于Transformer模型架构X京东的产业知识进行的预训练。 数字化转型网www.szhzxw.cn

该算法帮助模型在实体属性抽取准确率为96%;在生成式多轮对话 ROUGE-L(指标主要是对比机器生成的内容与人类的标准内容的匹配度),以27%领先于斯坦福经典的Pointer-Generator;在上下文多轮问答知识检索率以74%准确率领先于行业。 数字化转型网www.szhzxw.cn

图4:京东言犀大模型K-PLUG算法

(2)推理部署层面

除了在大模型的预训练阶段,言犀大模型通过上述算法增强了产业领域知识,在模型的推理层面,京东言犀采用量化矩阵算子融合、自适应参数矩阵量化、自动算子切分与卡间并行、内存优化与缓存等多种策略,将推理速度提升6.2倍,且在“首字”推理速度的大模型推理难点上,京东言犀大模型采用自研的算法,极大程度的提升了大模型在推理方面的性能。在部署方向,依靠流式推理有效解码传输机制、动态批处理、异构集群部署等方法,将部署成本降低了90%。

此外,京东言犀大模型还拥有配套的AI开发计算平台,用于快速的模型迭代,效率提升10倍以上,让模型能够不断的学习新的知识。 数字化转型网www.szhzxw.cn

图5:京东言犀大模型推理部署

4. 澎湃算力打造开放协同的大模型生态

为了训练大模型,京东早在2021年就在重庆建成了大模型集群,也是全国首个基于DGX SuperPOD架构的超大规模计算集群—天琴⍺,该集群在保障京东自身大模型训练的同时,还将集群的每秒浮点运算次数提升40%,多卡线性加速比提升90%,为后续大模型的持续发展打下良好的基础。

另一方面,为了更好的应对大模型背景下的海量数据存储问题,京东还自研了向量数据库Vearch,支持百亿级向量监检索,召回实现毫秒级延迟,智能储存分层实现成本降低60%,大幅提升了模型推理泛化能力与推理效率。 数字化转型网www.szhzxw.cn

四、效益分析

该解决方案以JD全产业链为核心优势,从产业场景、软件平台、安全合规等多个方面为用户带来价值。

产业场景方面,用户将借助JD积累的历史行业知识,低成本快速构建该用户所在细分领域大模型应用,使用户快速取得局部市场的先发优势(量化标准为缩短开发周期及成本降低)。

软件应用方面,为了让模型有更好的能力和应用,京东将开发言犀大模型过程中积累下来的能力解耦整合出来,以大模型开发平台的形式开放给京东的合作伙伴。该平台以京东云的私有云、公有云和混合云等高性能计算集群为底座,内置了包括数据、模型训练和部署推理等工具能力,不仅支持京东自身的言犀框架,也同时会支持各个主流的开源模型框架,促进大模型生态的发展。

安全合规方面:言犀AI大模型具备数据隐私和内容安全可控的价值:

1. 数据隐私安全

我司在人机交互研究中进行训练数据处理、人工智能模型的训练时,严格遵守使用深度合成技术中的个人隐私保护要求,确保训练数据数据来源合法性,并使用脱敏数据进行模型训练。

2. 内容生成可控性

恶意代码、插件和网络钓鱼电子邮件有可能被ChatGPT生成。为了杜绝此安全隐患,京东云言犀团队会在模型训练时引入人工反馈机制降低和杜绝模型生成有害信息的回复。同时引入审核API来阻止某些有害内容的输出,例如,当收到要求编写用于从被黑客攻击的设备窃取数据的代码或制作网络钓鱼电子邮件时,模型会拒绝该要求并指出此类内容是“非法、不道德且有害的”。

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入! 数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于中国信通院华东分院;编辑/翻译:数字化转型网宁檬树。

数字化资料下载-思思
此图片的alt属性为空;文件名为%E5%AE%98%E7%BD%91%E8%AF%BB%E8%80%85%E7%BE%A42.png
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/41923.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部