常熟企业网站建设价格,淘宝网店装修,如皋电子商城网站建设,最干净在线代理本文介绍了大模型入门知识#xff0c;重点解析了messages和tools两大核心参数。通过RAG和ReAct两大范式#xff0c;展示了大模型的三种使用方式#xff1a;提示词调优、增加调用次数和模型微调。文章通过翻译和计算器案例#xff0c;详细说明了如何优化提示词和使用Agent框…本文介绍了大模型入门知识重点解析了messages和tools两大核心参数。通过RAG和ReAct两大范式展示了大模型的三种使用方式提示词调优、增加调用次数和模型微调。文章通过翻译和计算器案例详细说明了如何优化提示词和使用Agent框架解决实际问题。最后提醒读者大模型应用需结合业务能力和拟人化因素不能盲目追求技术而忽视业务本质。前言大模型作为新兴领域不断地冒出来新的专有术语和新的概念让大家觉得很神秘捉摸不透。但是大部分复杂性的背后都会有一个极其简单便于理解的模型本次分享最主要就是大模型的基本范式通过范式将这些神秘感去除。大模型虽然很厉害很神秘但作为使用人员门槛是非常非常非常低的。模型基础虽然市面上的大型语言模型LLMs种类繁多但在使用层面大家平等的都是API调包侠因此从接口层面来剖析大模型有哪些能力。LLM的接口通常都遵循或类似于 OpenAI 的规范。这里我们以 OpenAI 的接口为例进行说明。在与大型模型交互时除了控制模型输出随机性的参数外最核心的参数只有两个messages和tools。可以说市面上各种各样的大模型应用都是基于这两个参数的基础上设计而来。messages-大模型是怎么实现记忆的messages是一个对话数组其中角色主要有system代表当前对话的系统指令一般放提示词user用户指令assistantLLM的回复…不同厂商会有不同的扩展定义大模型所谓的对话记忆实际上就是依赖该数组做信息传递如下图所示第一轮我告诉我的名字叫屈定第二轮的时候在问他是谁他已经知道了我的名字之所以知道因为我在messages的上下文中传递给了他这个信息。使用user传递用户的对话使用system设置系统指令提示词的不稳定容易被指令注入攻击三张图看完先总结下大模型为什么能记住之前的对话只是因为后台系统给了他之前的对话并不是他自己记住。大模型的请求调用就是一个无状态的取决于每次给的对话内容。大模型的提示词有什么用大模型的提示词可以进一步控制(覆盖)模型的行为具备高优先级但存在不稳定性。接下来我们就可以来理解第一个重要的大模型范式检索增强生成也就是RAG(Retrieval Augmented Generation)。直白的理解为用检索到的知识来增量生成答案的质量。比如我有一个关于数仓各种问题处理的QA想要做一个问答机器人这个问答机器人要基于我的QA回复用户。这个 检索QA - 基于检索到的QA回复用户这个流程就是一个典型的RAG链路。也显而易见RAG的最终目标是生成靠谱的答案给到用户。RAG链路的搭建是很简单但是效果却很难从流程里面我们能发现两个关键点1.知识库检索召回这里要解决如何召回最靠谱的答案。2.LLM基于知识回答这里要解决的是如何让模型在一堆知识中给出自信准确的回答。这些都是业界在不断探索的东西没有所谓的标准答案只有适合当前业务的最佳方案。tools-大模型能执行任何工具经常有同学会问一些大模型是否能查询odps或者大模型能够把数仓数据导入到ob之类的问题。这些问题的背后是对LLM存在错误的理解也就是tools参数的理解。tools也是一个数组包含了一堆工具集合核心为工具的作用描述和工具需要的参数如下图天气工具的定义。接下来就是使用工具基于工具的回答至少要两次大模型请求调用1.将用户的对话和工具一起给到大模型大模型需要执行的工具以及工具参数2.后端系统依据大模型选择结果去执行对应的工具拿到结果3.再次请求大模型此时上下文中给到了工具执行结果大模型基于信息回复先总结下1.大模型并不能够执行任何工具但是大模型能够选择接下来要执行的工具。选择后工具由配合的系统来执行获取结果。接下来我们就可以来理解第二个重要的大模型范式ReAct(ReasonAct)。这里需要强调下大模型的很多范式都是对生活中人类行为的模拟因此我们也是从生活中的案例来理解大模型。案例主题老板让写一份调研外部大模型框架的报告工具互联网搜索PPT思维导图思考 (Reasoning): 需要调研外部大模型框架明确调研目标是了解行业内的主要框架、特点和应用场景。需要先明确有哪些主流框架然后针对性地收集资料。 行动 (Acting): 行动 使用互联网搜索“主流大模型框架 2024/2025”、“开源大模型框架”。 观察 (Observation): 观察 搜索结果显示PyTorch、TensorFlow、JAX等是主流框架还有一些新兴框架如MindSpore、Paddle等。思考 (Reasoning): 我已经拿到了想要的资料接下来使用思维导图搭建汇报思路 行动 (Acting): 行动 使用思维导图工具搭建报告的初步框架包括框架名称、开发语言、主要特点、优势、劣势、应用场景。 观察 (Observation): 观察 初步框架包括框架名称、开发语言、主要特点动态图/静态图、分布式训练支持等、优势、劣势、应用场景NLP、CV等。思考 (Reasoning): 信息基本收集完毕需要将所有信息整理成结构化的报告并使用PPT进行总结和分析。 行动 (Acting): 行动 使用PPT工具将思维导图中的内容整理成PPT并撰写文字说明。 观察 (Observation): 观察 完成了PPT初稿内容比较全面但需要进行排版美化。这个思考的流程就是ReAct后面有实际案例这里先理解这个概念。模型使用大模型的应用五花八门但都离不开上述两个核心参数接下来围绕上述的参数我们能利用的现有的模型交互手段主要有以下三种包括调优提示词大模型工程中的核心提示词的优秀与否决定了你是否需要链路上做额外的兜底增加调用次数将一个任务拆分为多个子任务执行最后判断结果。这是一种常用的对提示词能力的补充手段降低单一提示词的复杂性。模型微调通过引入特定业务场景案例让模型能更好地理解用户的意图和需求。用大模型提示词做翻译 [提示词调优]为了更好的评价我们选择哪吒中的英文台词然后将英文翻译成中文看还原度如何The prejudice in peoples hearts is like a mountain. No matter how hard you try, you cant move it. Looking back on it, three years isnt that long. Be quick to obey my command Im the captain of my destiny, not heaven. If you ask me whether people can change their own destiny, I dont know. But defying fate is Nezhas destiny.方案一直接使用提示词进行翻译## Role and Goal: 你是一个翻译专家尤其擅长英文到中文的翻译接下来我给你多段英文台词帮我翻译成中文. ## Constraints - 翻译时保持译文格式不变 ## Background: 原文来自《哪吒》系列电影的第二部中的台词讲述了天劫之后哪吒、敖丙的灵魂保住了但很快会魂飞魄散。太乙真人打算用七色宝莲给二人重塑肉身但是在重塑肉身的过程中却遇到重重困难哪吒、敖丙的命运将迎来更多的挑战。 ## Guidelines: 1. 结合背景将文本直接翻译成中文保持原始格式不省略任何信息。 ## Source - The prejudice in peoples hearts is like a mountain. No matter how hard you try, you cant move it. - Looking back on it, three years isnt that long. - Be quick to obey my command - Im the captain of my destiny, not heaven. - If you ask me whether people can change their own destiny, I dont know. But defying fate is Nezhas destiny. ## Output {译文}绝大多数情况下直接使用提示词能做到的效果就已经能达到60%了现在的模型确实强大了下方的问题在于一些短的语句翻译不够传神。模型方案一翻译结果gemini-2.0-flash* 人心中的成见就像一座大山任你怎么努力也无法搬动。 * 如今想来三年光阴也不算长。 * 还不快快听我号令 * 我命由我定不由天 * 要问我人能否改变自己的命运我不知道。但是逆天而行就是哪吒的命。方案二提示词中引入COTChain-of-ThoughtCOT被称为思维链简单点来说是要告诉模型针对问题的思考步骤是什么引导模型去按照特定思维解决问题。概念很抽象以翻译为例我们思考一般人是如何进行翻译的1.先直接翻译2.结合上下文再审视这个翻译是否合理有哪些改进点3.针对改进点再斟酌修改那么我们也让模型按照这个思路来执行翻译。## Role and Goal: 你是一个翻译专家尤其擅长英文到中文的翻译接下来我给你多段英文台词帮我翻译成中文. ## Constraints - 翻译时保持译文格式不变 - 严格按照output中定义的范式输出 ## Background: 原文来自《哪吒》系列电影的第二部中的台词讲述了天劫之后哪吒、敖丙的灵魂保住了但很快会魂飞魄散。太乙真人打算用七色宝莲给二人重塑肉身但是在重塑肉身的过程中却遇到重重困难哪吒、敖丙的命运将迎来更多的挑战。 ## Guidelines: 翻译的过程分为三部分 1. 直译结合背景将文本直接翻译成中文保持原始格式不省略任何信息。 2. 评估和反思结合背景道教封神主人公对命运反抗识别直接翻译中的具体问题例如 - 非母语常用的中文表达 - 笨拙的措辞 - 过于口语化的表达 - 等等 提供解释但不要添加或省略内容或格式。 3. 意译根据字面翻译和已识别的问题重新解释翻译确保它保持与原始输入格式一致不要删除任何内容。 ## Source - The prejudice in peoples hearts is like a mountain. No matter how hard you try, you cant move it. - Looking back on it, three years isnt that long. - Be quick to obey my command - Im the captain of my destiny, not heaven. - If you ask me whether people can change their own destiny, I dont know. But defying fate is Nezhas destiny. ## Output ### 直译 {直译} *** ### 评估和反思 {评估和反思} *** ### 意译 {意译}该方案取得了意想不到的效果针对长句翻译成短句组合形式 相比官方的来看更像是修道者的口吻但针对一些特殊短句用法仍然不够理想。模型方案一翻译结果方案二翻译结果gemini2.0 flash* 人心中的成见就像一座大山任你怎么努力也无法搬动。 * 如今想来三年光阴也不算长。 * 还不快快听我号令 * 我命由我定不由天 * 要问我人能否改变自己的命运我不知道。但是逆天而行就是哪吒的命。* 人心存偏见如山岳难移。纵使竭尽全力亦不可撼动分毫。 * 如今想来三年光阴弹指一挥间。 * 奉我号令不得有误 * 我命由我不由天 * 若问世人能否逆天改命吾不得而知。然抗争宿命乃哪吒之命也。方案三引入动态few shotfew shot指的是提示词中的少样本技巧动态就是将这部分样本抽离到一个知识库每一次走翻译前先去知识库里面召回TOP最相关的然后放入到提示词的Example中。假设我的知识库中召回了如下两句Item1: 原文Be quick to obey my command 意译急急如律令 Item2: 原文Life is not long, but its not short either. 意译人生说长不长说短不短。结合后提示词如下## Role and Goal: 你是一个翻译专家尤其擅长英文到中文的翻译接下来我给你多段英文台词帮我翻译成中文. ## Constraints - 翻译时保持译文格式不变 - 严格按照output中定义的范式输出 ## Background: 原文来自《哪吒》系列电影的第二部中的台词讲述了天劫之后哪吒、敖丙的灵魂保住了但很快会魂飞魄散。太乙真人打算用七色宝莲给二人重塑肉身但是在重塑肉身的过程中却遇到重重困难哪吒、敖丙的命运将迎来更多的挑战。 ## Guidelines: 翻译的过程分为三部分 1. 直译结合背景将文本直接翻译成中文保持原始格式不省略任何信息。 2. 评估和反思结合背景道教封神主人公对命运反抗识别直接翻译中的具体问题例如 - 非母语常用的中文表达 - 笨拙的措辞 - 过于口语化的表达 - 等等 提供解释但不要添加或省略内容或格式。 3. 意译根据字面翻译和已识别的问题重新解释翻译确保它保持与原始输入格式一致不要删除任何内容。 ## Example 1. 原文Be quick to obey my command 意译急急如律令 --- 2. 原文Life is not long, but its not short either. 意译人生说长不长说短不短。 ## Source - The prejudice in peoples hearts is like a mountain. No matter how hard you try, you cant move it. - Looking back on it, three years isnt that long. - Be quick to obey my command - Im the captain of my destiny, not heaven. - If you ask me whether people can change their own destiny, I dont know. But defying fate is Nezhas destiny. ## Output ### 直译 {直译} *** ### 评估和反思 {评估和反思} *** ### 意译 {意译}模型方案一翻译结果方案二翻译结果方案三翻译结果gemini2.0 flash* 人心中的成见就像一座大山任你怎么努力也无法搬动。 * 如今想来三年光阴也不算长。 * 还不快快听我号令 * 我命由我定不由天 * 要问我人能否改变自己的命运我不知道。但是逆天而行就是哪吒的命。* 人心存偏见如山岳难移。纵使竭尽全力亦不可撼动分毫。 * 如今想来三年光阴弹指一挥间。 * 奉我号令不得有误 * 我命由我不由天 * 若问世人能否逆天改命吾不得而知。然抗争宿命乃哪吒之命也。* 人心之偏见如山岳岿然纵移山填海亦难撼其分毫。 * 事过境迁三年光阴亦不过弹指一挥间。 * 急急如律令 * 我命由我不由天 * 若问人定胜天否我亦茫然。然逆天而行乃哪吒之宿命。few shot这种开卷考试方法是大模型链路中一种重要的优化手段few shot是提示词中为数不多能够动态变化的部分且对模型整体效果影响较小更为可控。此外业务流量一般都是符合2:8分布的且是可收敛的可能只需要20%的few shot案例就能满足80%的场景诉求。用大模型Agent做计算器 [增加调用次数]大家应该都看过下面的案例大模型是很不擅长数学计算的那么用大模型直接做计算器就非常容易出问题。这里使用llama_index的agent框架做演示1.定义了三个工具函数乘法加法减法2.构建一个Agent执行模式import os from dotenv import load_dotenv from llama_index.core.agent import ReActAgent from llama_index.core.tools import FunctionTool from llama_index.llms.azure_openai import AzureOpenAI def multiply(a: int, b: int) - int: Multiply two integers and returns the result integer return a * b def add(a: int, b: int) - int: Add two integers and returns the result integer return a b def subtract(a: int, b: int) - int: subtract two integers and returns the result integer return a - b # 加载 .env 文件 load_dotenv() # 初始化工具 multiply_tool FunctionTool.from_defaults(fnmultiply) add_tool FunctionTool.from_defaults(fnadd) subtract_tool FunctionTool.from_defaults(fnsubtract) llm AzureOpenAI(modelgpt-4o, # 或者 gpt-4 enginegpt-4o, deployment_namegpt-4o, api_keyos.getenv(AZURE_KEY), azure_endpointhttps://ilm-dev.openai.azure.com, api_version2023-07-01-preview) # 初始化Agent agent ReActAgent.from_tools([multiply_tool, add_tool, subtract_tool], llmllm, verboseTrue) response agent.chat(What is 60-(20(2*4))? Calculate step by step ) Running step cba1a160-74c3-4e34-bcc4-88e6a678eaf9. Step input: What is 60-(20(2*4))? Calculate step by step Thought: The current language of the user is: English. I need to use a tool to help me answer the question. To solve the expression \(60 - (20 (2 * 4))\) step by step, I will first calculate the multiplication inside the parentheses. Action: multiply Action Input: {a: 2, b: 4} Observation: 8 Running step 5455108e-ac53-4115-8712-68f2457a9b82. Step input: None Thought: Now that I have the result of the multiplication, I can proceed to the next step, which is to add 20 and 8. Action: add Action Input: {a: 20, b: 8} Observation: 28 Running step 4d8fae00-83bd-4205-9993-f0e0119f408d. Step input: None Thought: Now that I have the result of the addition, I can proceed to the final step, which is to subtract 28 from 60. Action: subtract Action Input: {a: 60, b: 28} Observation: 32 Running step ce5d1075-ff11-47a2-b286-d7a715dc40ba. Step input: None Thought: I can answer without using any more tools. Ill use the users language to answer. Answer: The result of the expression \(60 - (20 (2 * 4))\) is 32.上次有同学问那么大模型在这种链路里面到底发挥了什么作用大模型最大的能力就是自然语言理解我们可以尝试把规则再复杂化输入改成张三代表减法,李四代表加法,王二代表乘法,What is 60张三(20李四(2王二4))? Calculate step by step表现仍然可以这就带来了对自然语言的容错会像人一样去思考而不是固定死的逻辑。Thought: The current language of the user is English. I need to use a tool to help me answer the question. The expression given is 60张三(20李四(2王二4)), which translates to 60 - (20 (2 * 4)). I will calculate step by step. First, I need to calculate the multiplication part: 2王二4, which is 2 * 4. Action: multiply Action Input: {a: 2, b: 4} Observation: 8 Running step 48262cb8-5c3a-47b7-b13b-449787c27078. Step input: None Thought: The result of 2王二4 is 8. Now, I need to calculate the addition part: 20李四8, which is 20 8. Action: add Action Input: {a: 20, b: 8} Observation: 28 Running step 1cccd5c6-3d96-4014-a579-1c997765a1da. Step input: None Thought: The result of 20李四8 is 28. Now, I need to calculate the subtraction part: 60张三28, which is 60 - 28. Action: subtract Action Input: {a: 60, b: 28} Observation: 32 Running step 65d33d20-1009-4482-a6d2-7af20333640c. Step input: None Thought: I can answer without using any more tools. Ill use the users language to answer. Answer: The result of 60张三(20李四(2王二4)) is 32.模型微调这部分具体案例就不好说了我举个实际生产的案例在给WorldFirst做客服的时候存在很多特殊的业务知识比如用户在万里汇下载银行对账单 ! 下载交易流水单。这里有业务背景银行对账单是亚马逊要求的账户证明文件。这些业务背景是模型难以掌握的此时就需要引入微调将这部分知识内置到模型里面。现在主流的方式都在慢慢弱化微调因为费时费力还不一定起到正向的效果更多的工程实践是将提示词复杂化动态化工程上做更多的兜底工作。一些感想大模型能带来很大的工作和问题思考方式的革新让一些问题解决方式变成取决于你的想象力但对客的业务的效果并非完全取决于大模型。很多同学认为有了LLM业务效果开发效率交付质量都能很方便解决什么都往LLM上靠拢这是很大的误区。以笔者参与的客服场景感想最早都认为客服是非常适合大模型的场景笔者同样也是这样认为。实际深入后并非如此尤其是在对专业度和准确率有明确要求的场景。客服作为售后用户是带着问题带着情绪来的他需要的是明确的解决方案不需要机械式的安抚和吐答案。因此业办能力 拟人化是客服成功的两大主要因素确定主要因素后再去思考LLM在这些因素点上能带来什么接着思考构建你的方案这样的应用才是靠谱的方式。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取