LLM:大语言模型的基础知识
AI 大模型的关键术语:提示词、Token、上下文长度、模型幻觉。
模型与产品
GPT(Generative Pretrained Transformer)是模型,是一种被预训练的生成式模型,它的目标是学习一种能够生成人类文本的能力。
ChatGPT 是一个特定的应用,它使用了GPT的能力,并在此基础上进行了特别的优化,以便能够进行更像人类的对话。
提示词
提示词:驱动大语言模型运行的命令
提示词在大语言模型的运行中起着至关重要的角色,提示词通俗地说就是输入大语言模型的文字,这很容易理解,但提示词实际是驱动大语言模型运行的命令。
虽然大语言模型通过学习大量的文本数据获得了强大的文本生成能力,但它仍然是基于模式匹配的算法,而非真正的思考实体。这意味着它并不能真正理解提示词的含义,它只是通过在大量的训练数据中寻找并生成与提示词匹配的文本来给出答案。所以,在选择提示词时,需要细心考虑,精心组织,确保命令清晰、具体、并能够引导模型生成想要的结果。同时也要认识模型的局限性——它们并不能真正理解我们的命令,只是在模仿人类的语言。
提示词结构化模板
模板 | 提示词 |
---|---|
定义角色 | 明确模型需要扮演的角色,例如专家、助手、创作者等 |
任务目标 | 用一句话清晰描述任务目标,如生成、分析、优化等 |
输入要求 | 主题/对象:指定任务涉及的核心主题,如产品名称、行业领域、数据类型 背景补充:提供必要的上下文,如用户需求、技术参数、历史数据 示例参考:可选,提供期望输出的样例或格式 |
输出要求 | 内容维度:内容覆盖范围,如需要包含哪些模块、知识点 风格与语气:正式/口语化、简洁/详细、幽默/严谨等 格式规范:文本长度、分点/段落、Markdown/JSON/表格等 限制条件:避免的内容、敏感词过滤、合规性要求 |
高级控制(可选) | 推理逻辑:指定分析框架,如SWOT、5W1H、对比论证] 多步骤指令:分阶段完成任务,例如”先列出大纲,再生成正文” 外部知识:指定依赖的数据库、API或参考资料 |
不同任务类型的模板示例
场景 | 模板要素组合 | 示例 |
---|---|---|
内容生成 | 角色+ 风格+ 结构+ 示例 |
“作为资深营销文案师, 为智能手表撰写一篇小红书风格的 推广文案,要求包含3个使用场景, 语言活泼带emoji, 示例:[附案例链接]” |
数据分析 | 数据输入+ 分析框架+ 可视化要求 |
分析附件中2023年电商销售数据, 按月份和品类生成增长率对比表格, 用柱状图展示TOP5品类趋势, 总结不超过200字的洞察” |
代码开发 | 功能描述+ 输入输出+ 语言/框架+ 测试用例 |
用Python编写一个OCR图片 转Excel的工具函数, 输入为图片路径, 输出为Pandas DataFrame, 需处理中文表格, 提供单元测试样例 |
决策建议 | 背景约束+ 评估维度+ 风险提示 |
作为财务顾问, 对比A/B两款投资方案的回报率和风险, 考虑5年周期和20%通胀率, 用SWOT分析给出推荐, 标注关键假设条件” |
多模态生成 | 媒介类型+ 元素要求+ 版权声明 |
“生成一张科技感十足的汽车海报, 包含电动汽车、星空背景、 动态光影效果,避免使用真人形象, 需符合CC0协议” |
优化提示词的4个技巧
- 渐进式细化:先通过基础指令获得初步结果,再逐步追加细化要求(如”将第二段改为对话体,并加入数据支撑”)。
- 角色强化:通过身份绑定提升专业性,例如”你是有10年经验的全栈架构师,请用技术评审会报告格式回答…”。
- 思维链引导:要求展示推理过程,如”请分步骤解释选择该方案的原因,先列出标准再评估选项”。
实际应用示例
角色与目标
你是一名医学知识科普专家,向非专业读者解释糖尿病预防方法
输入信息
- 主题:2型糖尿病日常预防
- 背景:针对办公室久坐人群,年龄25-40岁
- 示例参考:类似《丁香医生》的图文风格
输出要求
- 内容维度:涵盖饮食、运动、监测3个方面
- 风格与语气:口语化,带比喻和日常生活场景举例
- 格式规范:分点陈述,每点配1个emoji图标,总长500字以内
- 限制条件:避免复杂医学名词,需标注信息更新时间(2024年7月)
Token
Token:大语言模型的基本单位
Token 是自然语言处理中的一个重要的概念,它是大语言模型理解和处理文本的基本单位。
在英文中,一个 Token 可能是一个单词,一个标点符号,或者一个数字。在其它处理语言时,如中文,一个 Token 可能是一个单字符。
Token 还具有一些更深层次的功能。首先,通过把文本拆分为 Token,模型能更好地理解和捕捉文本的结构。其次,大语言模型能通过预测给定的一系列 Token 后面可能出现的下一个 Token,从而学习语言的规律和结构。
Token 也是大语言模型的商用计费单位。
上下文长度
上下文长度:指的是模型在生成新的文本或理解输入的语句时,可以考虑的最多字数,可以理解成大语言模型的脑容量。
大语言模型支持上下文长度的能力提升是以更记的计算成本为代价的。更长的上下文长度意味着需要更强大的处理能力和更多的存储空间。
大模型幻觉
大语言模型应用过程中,偶而给出看似合理但偏离事实的预测,这被称为幻觉现象。这是因为这类模型并不能真正理解语言和知识,而是模仿训练数据中的模式来生成预测,这种预测可能看似合理,但实际上并无依据。