小白必看:一文搞懂AI大模型核心概念,收藏学习提升技能!

张开发
2026/5/5 9:55:43 15 分钟阅读
小白必看:一文搞懂AI大模型核心概念,收藏学习提升技能!
AI 圈有非常多的名词tokenLLMcontextpromptmcpskillsAgent…可能很多词你都听说过但说实话你真的都懂它们到底是什么底层逻辑是什么作用是什么如果让你去面试 AI 的岗位你是真的能讲清楚是什么还是阿巴阿巴说不清就拿 Token 来说很多人只知道 Token 消耗多 烧钱 但不知道它的原理不信你就往下看。本文我将从小白的角度从最底层的东西一层一层的往上讲把这些概念全部串起来一文全部讲清楚。看完本期内容你将对 AI 底层逻辑的理解将有一个质的飞跃。全文目录LLMLLM 的全称是 Large Language Model 翻译成中文就是大语言模型简称大模型。目前市面上的大模型基本上都是基于 Transformer 这套架构设计出来的。看起来很复杂但实际上也不简单看不懂是正常的只需要知道大模型的底层引擎就是它就好了。它最早是由 Google 在 2017 年提出来的但把它带火的却是 OpenAI 。OpenAI 可以说的上是目前大模型的鼻祖了毕竟是它开创了大模型的热度先河到今天 GPT 模型依旧是业界的标杆。大模型的工作原理简单来说的话它本质上就是一个文字接龙游戏根据你前面说的话一个字一个字猜下一个最可能出现的字。比如你输入我今天去公园看到了一只___大模型要做的就是猜下一个字。它在脑子里飞快算概率小 → 很高猫 → 很高狗 → 很高山 → 很低飞机 → 极低桌子 → 几乎不可能它选概率最高的比如小现在句子变成我今天去公园看到了一只小___它继续猜下一个字猫 → 最高狗 → 次之鸟 → 也还行象 → 不太对输出猫句子变成我今天去公园看到了一只小猫___再继续。 → 概率最高在 → 也有可能跑 → 也有可能它选句号结束。最终你看到我今天去公园看到了一只小猫。但我们要知道的是它是不会思考的只会预测你问它问题的时候它不是在理解你、然后查资料、再进行推理回答。而是在做一件事在当前这句话后面推测哪个字概率最高就输出哪个。那你可能会问了我看现在好多 AI 模型都带有深度思考啊你怎么说没有呢现在的模型看起来会深度思考但其实不是它真的会思考而是它学会了【模仿人类思考的步骤】。Token很多人只知道大模型干活烧 Token 烧钱但是不知道原理是什么。如果你了解 Token 的在大模型中的运行逻辑原理那你在使用大模型的时候就能够极大的帮你省下不少的 Token 钱当我们提问题给大模型之后大模型就会源源不断回复你一些词但其实这是为了方便你理解而简化的一种方式。实际情况是大模型本质上是一个庞大的数学函数里面是以矩阵运算来进行的它接收的是数字输出的也是数字它并不认识人类写的文字/英文只认识数字Token ID。因此在用户与大模型之间需要存在一个中间层作为翻译这个中间层就叫做 Tokenizer 。Tokenizer 它负责的是编码和解码两件事情。编码就是把文字变成数字解码反过来就是把数字还原成文字。比如当我向大模型输入今天天气很好我想去公园散步。文字就会【经过】Tokenizer 把内容进行【切分】变成 Token然后再把 Token【转化成】Token ID。例子中这段内容就会经过 Tokenizer 先切出三个 Token 分别是今天天气公园然后再把这三个 Token 进行编码 今天 → 编号 1832天气 → 编号 5961公园 → 编号 3047。然后模型看到的就是【183259613047】这就是编码的过程。Token 在这里是文字是大模型切出来的碎片Token ID 是数字这两者本质上是一个意思只不过是换了种表达的方式。刚才我们了解了我们向大模型【提问】时的编码过程我们继续了解大模型向我们【回答】时的解码过程。大模型接收到 Token ID 之后会根据概率较大情况进行匹配 Token ID 也就是上一节说的 LLM 原理返回一些 Token ID 给到中间层 Tokenizer 再翻译成中文给我们。比如刚才的公园【编号 3047】大模型收到后返还一个【编号3088】然后 Tokenizer 收到编号后将编号翻译成公园很大给我们。一句话总结来说Token 就是大模型眼里的 “文字最小单位”不是字也不是词是模型切出来的碎片。我们提问的时候它会根据我们的问题切成碎片 Token 然后回答的时候也会根据 Token 一个个返回。平均来说 1 个 Token 0.75 个单词 1.5 - 2 个汉字。ContextContext 翻译成中文的意思是上下文语境背景环境它代表的是大模型每次处理任务时所接收到的信息总和。大模型的本质就只是一个数学函数你输入问题提问它就输出答案它并不像人一样真的有记忆。那它究竟是怎么记住之前的聊天内容的呢答案就是当我们提问时除了当前的问题以外还会连带历史对话一起发送给大模型这里的历史对话是包含了我们对大模型的提问以及大模型给我们的回复。比如对话历史我你好我叫偶然。大模型你好偶然我再次向大模型提问我叫什么大模型就会知道我叫偶然。这种操作就会让我们误以为大模型是拥有记忆能力的其实并不是而是我们提问的时候连带历史对话一并发送给了大模型。由于我们向大模型提问的时候会连带历史对话一并发送所以我们在与大模型对话时需要及时的总结内容。这样会减少 Token 的消耗同时也避免了上下文内容过多导致大模型处理内容过多而造成的卡顿回复时间长。此外Context 除了对话的内容以外还会有一些工具系统提示词也会被记录进来在大模型执行我们给他的任务的时候一并使用比如说一些天气工具啥的。Context Window了解了 Context 的底层逻辑之后我们就要 Context Window 翻译过来就是上下文窗口也就是 Context 能容纳的最大 Token 数量。比如说 Context 为 1 万那就代表这个模型最多能够处理 1 万个 Token 。不过目前的大模型 Context Window 都是很大的比如 GPT 5.4 的是 105 万Gemini 3.1 pro 是 100 万Claude Opus 4.6 是 100 万。之前我们说过 Token 在 1.5 - 2 个汉字那 100 万的话就是 150 万 - 200 万个汉字。PromptPrompt 是中文提示词是大模型接收的具体问题或者指令。Prompt 的概念虽然简单但我们需要注意的是它的质量好的指令它的回复才能符合你的预期。一个好的 Prompt 应该是清晰的具体的明确的。比如你向大模型提问帮我写一首古诗这样就不够具体应该把故事的风格字数主题也加上。其实说白了就是把话说清楚让大模型更精准的理解你的意图是什么。如果你不会写好的 prompt 那你就把你的大概意思描述出来让 AI 帮你写 prompt 然后再根据个人情况进行微调就好了。Tool大模型有一个缺点就是它无法感知外界环境。比如你问它今天广州的天气怎么样它会回答你抱歉我无法获取实时天气信息。我的知识库数据截止到 2025 年 10 月无法提供当前的天气数据。因为大模型本质就是一个文字接龙概率匹配的游戏它的能力是根据训练的数据来预测下一个词。它是真没有办法直接去查天气预报网站拿到实时的天气数据。这个时候我们就需要用到 Tool 了Tool 翻译成中文就是工具的意思。Tool 的本质是一个函数你输入内容给它它就会给你输出。比如天气查询工具它可能包含城市日期这两个参数当然还有其他的参数。我们输入城市广州日期2026年4月6日这个工具就会去调用一些气象局的接口然后输出天气阴天温度24°~29°。有了它大模型就可以回答天气相关的问题了。我们来看一下大模型调用工具完成任务的整个过程是怎么样的我们先看一下这个过程中所涉及到的角色有那些。这里有人可能会问为什么需要平台这一角色用户大模型天气查询工具这三个不就够了吗因为用户大模型天气工具没办法直接进行对话所以就需要一个平台来打通用户大模型天气工具三者之间的信息沟通。平台的本质就是一段代码。当我们向大模型发送内容时并不是直接就能发给大模型而是先通过平台这一媒介来进行传达的。比如我问今天广州的天气怎么样内容会先发送给平台然后平台再发送给大模型大模型收到后请求平台调用“天气查询”工具。你要记得开始说的大模型只会接龙游戏。平台收到请求之后会去调用“天气查询工具”然后天气查询工具查询了天气之后就会返回天气查询的结果。平台收到天气查询的结果之后会给告诉大模型大模型会调整相应的回答内容给到平台然后平台再给到用户。在整个过程中每个角色都承担了不同的职责。大模型承担选择工具归纳总结。工具实现查询天气。平台串联流程。用户给出指令。到这里我们更加了解了大模型完成任务的一个底层原理接下来咱们继续。MCP刚才我们说了平台把工具列表传给模型然后平台还要调用工具。我们把工具接到平台里面这样平台才知道那些工具可以使用以及每个工具的用途参数调用方法。但会有一个问题就是接入规范每个平台都不一样。比如你用的是 Chatgpt 你就要按照 OpenAI 的规范接入工具写一套接入代码。比如你用的是 Claude 你就得按照 Anthropic 的规范接入规范再写一套接入代码。比如你用的是 Gemini …从上面的举例来看一个工具接入不同的平台你需要写不同的规范因为每个平台的标准不一样。因此就出现了 MCP 这个统一的标准让所有的平台都遵循这个标准。这样工具的开发者只需要写一次代码就可以在所有的平台上使用了。因此 MCP 就是统一接入规范。这就像手机的 Tpye c 接口一样有统一的标准大家就会很方便。Agent其实智能体去年的时候就非常的火了从去年的 Coze N8NDify再到今年爆火的通用智能体 Openclaw 小龙虾。但其实到今天懂的人还是不多的而且懂的人大概也只懂概念不懂原理。这里我给大家举一个例子吧。比如我给大模型说今天广州的天气怎么样有没有下雨如果下雨了的话帮我看看附近有没有店铺可以买雨伞从过程来看大模型并不是只调用一次工具而是一步步思考当前的情况然后决定下一步做什么。这也是为什么过往我的 Agent 文章都是画流程图出来的因为要梳理出 Agent 的一个执行情况只有梳理了才能更好的搭建出来。我们称这种能够自主规划自主调用直到完成用户任务的系统为 Agent 。目前市面上比较火的 Agent 产品有 Claude CodeCodexGemini CLI 等等比较经典的 Agent 构建模式有ReActPlan And Execute。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

更多文章