数智化转型网szhzxw.cn 数字化转型网专题栏目 人工智能专题系列文章|AI 核心概念大串联,一篇文章带你读懂AI底层逻辑

人工智能专题系列文章|AI 核心概念大串联,一篇文章带你读懂AI底层逻辑

8 个核心概念,一层一层往上搭,看完你对 AI 的理解会上一个台阶。核心概念地图:LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent SkillAI 圈子里每天都在冒一些看似高大上的新名词,这篇文章目的是让我们从最底层的工程视角出发,一个一个把这些词语拆开、揉碎、讲清楚,帮你对这些词语去魅的同时,理解 AI 运行的底层逻辑。我们先从最底层的东西开始,一层一层往上搭。

一、LLM:大语言模型

LLM 全称 Large Language Model(大语言模型),简称大模型。你日常接触到的 ChatGPT、Claude、Gemini、豆包、文心一言,它们的核心都是一个 LLM。

1、工作原理:本质上就是一个文字接龙游戏

大模型的工作原理其实非常朴素——本质上就是一个文字接龙游戏。想象你跟朋友玩成语接龙:你说”龙飞凤舞”,朋友要接”舞”开头的成语。大模型干的事差不多,只是它接的不是成语,而是任何文字。你说一句话,它根据前面的所有内容,猜下一个最合适的词是什么,吐出来,再猜下一个……一个词一个词地往外蹦,直到它觉得话说完了,才停下来。

2、关键点: 大模型本质上是一个庞大的数学函数

这就是为什么大模型要一个词一个词地输出答案——因为它就是这么运作的。就像你写作文时一个字一个字地写,它也是一个词一个词地”写”出回答。但这里有个关键问题:大模型本质上是一个庞大的数学函数,里面跑的全是矩阵运算。它接收的是数字,输出的也是数字,压根就不认识人类写的文字。那它是怎么理解我们的语言的?数智化转型网www.szhzxw.cn

3、类比:一个只懂数字的外星人来到地球,它完全看不懂中文和英文

想象一个只懂数字的外星人来到地球,它完全看不懂中文和英文。但如果你给它一本「密码本」——比如”苹果=42,好吃=77″——它就能把人类的文字翻译成自己懂的数字来处理了。大模型就是这个外星人,而帮它翻译的「密码本」就是我们下一节要讲的东西。

二、Token:语言的积木块

Token是什么?Token是大模型处理文本的最基本单元。在人类和大模型之间,必须有一个「翻译官」来做转换。这个翻译官叫 Tokenizer,它负责两件事:编码(把文字变成数字)和解码(把数字还原成文字)。数智化转型网www.szhzxw.cn

1、编码过程:两步走

第一步:切菜。 就像厨师做菜之前要先把食材切成小块一样,Tokenizer 会把你的一句话切成一个个小片段,这些片段就叫做 Token。比如「我喜欢人工智能」会被切成:[我][喜欢][人工][智能]。

第二步:编号。 切好之后,给每个小片段贴一个数字标签(叫 Token ID)。就像超市里每件商品都有一个条形码——”苹果”的条形码是 48231,”牛奶”的条形码是 15097。Token ID 和 Token 本质上是同一个东西,只是换了一种大模型能看懂的表达方式。

2、Token ≠ 词

很多人以为一个 Token 就等于一个词,但其实不是。这就像切菜——你以为”西红柿”会被整个保留,但厨师可能把它切成了”西红”和”柿”两块:

文本你以为实际切分
工作坊1 个 Token工作 + 坊 = 2 个
程序员1 个 Token程序 + 员 = 2 个
helpful1 个 Tokenhelp + ful = 2 个
✓(对勾)1 个 Token需要 3 个 Token 表示

3、关键点: Token 是模型自己学会的一套切分规

Token 是模型自己学会的一套切分规则,跟我们理解的”词”不完全对应。平均来讲,1 个 Token ≈ 0.75 个英文单词 ≈ 1.5~2 个汉字。数智化转型网www.szhzxw.cn

三、Context:上下文

Context是什么?Context可以理解为AI 的「临时记忆体」。我们平时和大模型聊天,它好像能记住之前说过的话。比如你开头告诉它「我叫小明」,后面再问「我叫什么」,它还能回答出来。但大模型只是一个数学函数,并不像人一样真的有记忆。那它是怎么做到的?

1、类比:大模型是一个”永远的新服务员”

 想象你去一家餐厅,每次叫服务员过来,服务员都会换一个新人。新服务员对你之前点过什么菜一无所知。但餐厅有个规矩:每次叫服务员时,他会先看一遍桌上的点菜单——上面记录了你从进门到现在所有的点单记录。所以虽然每次来的都是「新人」,但他看完点菜单就知道你之前点了什么。大模型就是这个”永远的新服务员”。每次你发消息,背后的程序会自动把你之前的整段对话历史一起发过去。模型每次看到的都是完整的”点菜单”,所以它才能”记住”之前发生了什么。Context(上下文) 就是这张”点菜单”——大模型每次处理任务时所接收到的信息总和,包括用户问题、对话历史、模型正在输出的内容、工具列表、System Prompt 等等。数智化转型网www.szhzxw.cn

2、Context Window:点菜单的纸有多大

这张点菜单不是无限长的。Context Window(上下文窗口) 就是这张纸的大小——它代表 Context 能容纳的最大 Token 数量。

模型Context Window约等于
GPT-5.4105 万 Token≈ 157 万汉字
Gemini 3.1 Pro100 万 Token≈ 150 万汉字
Claude Opus 4.6100 万 Token≈ 150 万汉字

100 万个 Token 差不多是 150 万个汉字,整套《哈利波特》都能装得下。但即便如此,对于超大文档(比如上千页的产品手册),把全部内容塞进去也不现实——太贵了。

3、类比: 人去图书馆查资料的行为

这就像你去图书馆查资料。你不会把整个图书馆的书都搬到桌上,而是先去目录柜查一下,找到最相关的几本书,只把这几本带到座位上翻阅。AI 领域有个技术叫 RAG(检索增强生成),干的就是这个事——先从海量文档中抽取跟你问题最相关的几个片段,只把这几段喂给模型。

四、Prompt:提示词

Prompt是什么?Prompt可以理解为和 AI 对话的「技术」。Prompt 就是大模型接收的具体问题或指令。你在聊天框里输入的每一句话,都是一个 Prompt——它并不是什么高端概念。但 Prompt 怎么写,直接决定了大模型的输出质量。

1、类比:人去理发店跟Tony老师的对话方式

你去理发店,跟 Tony 老师说”帮我剪短一点”,结果可能千差万别——他不知道你要哪种短。但如果你说”两边推 3mm,顶部保留 5cm,打薄,不要刘海”,Tony 就知道该怎么下刀了。跟 AI 说话也是一样,说得越具体,结果越靠谱

普通 Prompt(模糊)高质量 Prompt(具体)
帮我写一首诗请写一首五言绝句,主题秋天落叶,风格悲凉
帮我写个邮件你是职场沟通顾问,请写一封给客户的跟进邮件,语气友好且专业

2、两种 Prompt

实际应用中,Prompt 分为两种:数智化转型网www.szhzxw.cn

User Prompt(用户提示词) ——你自己输入的具体任务。比如「帮我看看这道数学题」。

System Prompt(系统提示词) ——开发者在后台偷偷塞给模型的”人设卡”,你看不到,但它一直在生效。

3、类比: 剧本杀的角色卡

你去剧本杀,拿到的角色卡上写着”你是一个冷面侦探,说话简洁,从不开玩笑”。之后不管玩家问你什么,你都会按照这个人设来回应。System Prompt 就是大模型的「角色卡」——开发者在后台给它发了一张,用户根本看不到,但模型的一切行为都受它影响。

举个例子:你做了一个数学辅导机器人,在后台设置 System Prompt:「你是一个耐心的数学老师,不要直接给答案,要引导学生思考。」当学生问「3+5 等于几」时,模型不会直接说 8,而是回答:「你手里有 3 个苹果,又拿了 5 个,现在一共有多少个呢?」

五、Tool:工具

Tool是什么?Tool是让 AI 感知和影响外部世界的。大模型有一个致命弱点——它无法感知外界环境。你问它「今天上海天气怎么样」,它会说「抱歉,我无法获取实时天气信息」。数智化转型网www.szhzxw.cn

1、类比: 被关在隔音房间里的超级学霸

大模型就像一个被关在隔音房间里的超级学霸。他脑子里装满了知识,你递纸条进去问问题,他能写出精彩的回答递出来。但你要是问他”外面现在下雨了吗”,他完全没辙——因为房间没有窗户,他看不到外面的世界。Tool(工具) 就是给这个隔音房间开的窗户和装的电话。Tool 本质上就是一个函数——你给它输入,它就给你输出。比如一个天气查询工具,输入「上海 + 今天」,输出天气信息。

2、完整流程:四个角色的协作

但这里有个重要细节:学霸自己不能打电话,他只能写一张纸条说”请帮我打电话给气象局查一下上海天气”,然后由房间外的助理来真正执行这个操作。

整个流程涉及四个角色:用户、平台(助理)、大模型(学霸)、工具(电话/窗户)

步骤谁 → 谁做了什么
用户 → 助理 → 学霸把问题递进去,同时告诉学霸”你可以让我帮你打电话查天气”
学霸 → 助理学霸写纸条:”请帮我查一下上海今天的天气”
助理 → 工具助理真正打电话给气象局,拿到结果
助理 → 学霸 → 用户学霸收到天气数据,组织成一句人话回复用户

3、关键点:谁能打电话

 大模型(学霸)能做的仅仅是写一张纸条,告诉助理它想查什么。真正打电话的是助理(平台),不是学霸(模型)——这是很多初学者容易搞混的地方。数智化转型网www.szhzxw.cn

六、MCP:统一接口

MCP是什么?MCP可以理解为AI 世界的「Type-C」。工具有了,但工程上有个大问题:每个平台的工具接入规范都不一样。比如,可以想象你买了一部手机、一个平板、一副耳机,结果发现手机用 Lightning 线,平板用 Micro-USB,耳机用 Mini-USB——三根线,三种接口,出门要带一堆线,崩溃。

AI 领域也一样。同一个天气工具,接 ChatGPT 要写一套代码,接 Claude 再写一套,接 Gemini 又写一套——同一个工具写三遍,开发者直接裂开。MCP(Model Context Protocol,模型上下文协议) 就是 AI 世界的 Type-C 接口。名字听起来很学术,但本质就是一套统一的工具接入标准。有了 MCP,工具开发者只需按一个规范开发一次,工具就能被所有支持 MCP 的平台使用。一根线走天下。

没有 MCP(各种接口)有了 MCP(统一 Type-C)
开发成本同一工具写 N 遍代码写一次即可
接入方式每个平台规范不同统一标准协议
可复用性低,各平台互不兼容高,一次开发处处可用

七、Agent:智能体

Agent是什么?Agent是会自己「想办法」的 AI。有了大模型和工具,还差什么?让我们看一个更复杂的例子:「今天我这里的天气怎么样?如果下雨的话,帮我查一下附近有没有卖雨伞的店。」之前讲的 Tool,是你告诉 AI”用这个工具查一下”,它就查一下。但现在这个问题不一样——它需要 AI 自己拆解任务、自己决定调用哪些工具、甚至根据中间结果改变策略。

比如,之前的 AI 像一个只会执行命令的实习生——你说”帮我查个天气”,他就查个天气,然后坐着等下一个指令。但现在我们需要的是一个靠谱的私人助理——你只说一句”我要出门,帮我搞定”,他就会自己想:先查你在哪儿、再查天气、发现下雨了就帮你找附近卖伞的店,最后把所有结果整理好告诉你。全程不需要你一步一步指挥。

步骤助理的脑回路行动
“主人问天气,我得先知道他在哪”调用定位工具 → 获取经纬度
“好,位置有了,查天气”调用天气工具 → 结果:有雨
“下雨了,主人说要找伞,我来查查”调用店铺工具 → 附近 100m 全家有卖
“齐了,整理一下汇报”综合信息,给出最终答案

我们称这种能够自主规划、自主调用工具、直至完成任务的系统为 Agent(智能体)。目前市面上已有很多 Agent 产品,比如 Claude Code、Codex、Gemini CLI 等。数智化转型网www.szhzxw.cn

八、Agent Skill:智能体技能

Agent Skill是什么?Agent Skill可以理解为Agent 的「操作手册」。有了靠谱的私人助理(Agent),事情是不是就完美了?还差一步。比如说, 你新招了一个助理,很聪明,什么都能做。但他不了解你的个人习惯。你喜欢出门前检查天气、根据天气带不同的东西(下雨带伞、太阳大带帽子、空气差带口罩)、而且你希望他每次用固定格式汇报。

如果你不把这些规矩写下来,每次出门前你都得口头交代一大堆——”记得查天气啊,下雨提醒我带伞啊,格式按这个来啊”——第二天又得重新说一遍。太累了。Agent Skill 就是你给助理写的那份 《工作手册》。写一次,助理永远照着执行,你再也不用重复交代。

1、本质:一份给 Agent 看的说明文档

Agent Skill 本质上就是你提前写好塞给 Agent 的一份说明文档(一个 Markdown 文件)。它的结构分为两部分:

封面(元数据层) ——相当于手册的标题页,告诉助理”这本手册叫什么名字,管什么事”。至少包含 Name 和 Description。数智化转型网www.szhzxw.cn

正文(指令层) ——具体的执行步骤、判断规则、输出格式和示例。就像你写给新员工的 SOP(标准操作流程)——第一步做什么,第二步做什么,遇到什么情况怎么处理,最后结果用什么格式输出。

2、智能加载机制:不是一股脑全看完

这里还有一个巧妙的设计:助理上班时不会把所有手册从头到尾全看一遍,他只会先扫一眼每本手册的封面——看看标题和简介。只有当你提的问题跟某本手册相关时,他才会翻开那本手册仔细看正文。

比如,有一个高效的员工,桌上放着十本操作手册。来了一个关于”出差报销”的问题,他不会把十本全翻一遍,而是一眼扫到《出差报销手册》的封面,然后只打开这一本来按规定处理。这种「渐进式披露」机制可以节省大量 Token,避免把所有 Skill 的完整内容都塞进 Context。

3、实操提示

 以 Claude Code 为例,Skill 文件需存放在 ~/.claude/skills/ 目录下,文件名必须叫 SKILL.md(大写)——这是硬性规范,算是个「接头暗号」,随便起名字系统不会认。

九、全景回顾

一张表串起所有概念

概念一句话解释类比
LLM基于 Transformer 的文字接龙引擎会玩成语接龙的超级学霸
Token模型处理文本的最小单位,由 Tokenizer 切分食材切成的小块
Context模型每次处理任务时接收的信息总和餐厅里的点菜单
Prompt给模型的指令,分 User / System 两种跟 Tony 老师说的发型要求
Tool让模型感知和影响外部世界的函数隔音房间里的电话和窗户
MCP统一工具接入格式的标准协议所有设备通用的 Type-C
Agent能自主规划、调用工具、完成任务的系统靠谱的私人助理
Agent Skill给 Agent 的可复用说明文档给助理写的《工作手册》

记住这条主线:LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill。从底层智能到上层应用,一层一层,逐步构建。理解了这些概念,你就看懂了 AI 圈子里的各种新产品、新技术。无论是 Claude Code、Codex、Cowork 还是 OpenClaw,它们本质上都在这个框架下运作。AI 技术发展很快,新概念层出不穷,但万变不离其宗——理解了这 8 个核心概念,你就掌握了当前 AI 技术栈的主干。无论未来出现什么新概念,大概率都可以在这个框架里找到它的位置。

若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)数智化转型网www.szhzxw.cn

此图片的alt属性为空;文件名为image-82.png

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

此图片的alt属性为空;文件名为image-83.png

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

此图片的alt属性为空;文件名为image-84.png

声明:本文来自风骨,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

此图片的alt属性为空;文件名为image-12.png

本文由数智化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)邵敏

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/111248.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部