八股-大语言模型基础

张

张建站

2026/6/5 20:54:32

10分钟阅读

一、LLM的概念LLM 大型语言模型Large Language Models主流的开源模型体系都是基于Transformer架构Encoder 在抽取序列中某一个词的特征时能够看到整个序列中所有的信息即上文和下文同时看到而Decoder 中因为有 mask 机制的存在使得它在编码某一个词的特征时只能看到自身和它之前的文本信息。Prefix/Causal LMPrefix LM 前缀语言模型Encoder和Decoder共享了同一个Transformer结构EncoderAE-自编码前缀序列中任意两个token都相互可见Auto EncodingDecoderAR-自回归待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token但不能看未来尚未产生的tokenCausal LM 因果语言模型DecoderAuto Regressive 自回归GPT训练目标最大化模型生成训练数据中观察到的文本序列的概率最大似然估计 MLE涌现能力模型在训练过程中能够生成出令人惊喜、创造性和新颖的内容或行为Decoder only结构Encoder的双向注意力存在低秩问题削弱模型表达能力更好的Zero-Shot性能、更适合于大语料自监督学习效率decoder-only支持一直复用KV-Cache多轮对话更友好每个Token的表示和之前输入有关LLMs复读机问题依赖输入文本的复制解决多样性训练数据、引入噪声、温度参数调整、Beam搜索调整、后处理和过滤、人工干预Bert通用、LLaMA英文、ChatGLM中英文适用场景让大模型处理更长的文本解决方法分块、层次建模文本分为段落、句子或子句、部分生成模型生成文本的一部分、引入注意力机制、模型结构优化结构、参数

【Redis】Docker 部署集群补充说明

Docker 部署集群上一节的Redis部署集群还有些不太清楚的地方，这里做补充说明， 这次我们用 docker 部署 11 个 redis 节点，九个用于部署集群，两个用于扩容练习，集群的结构类似于如图，由于 redis 部署集群时…...

2026/6/5 20:52:10 阅读更多 →

IPATool：高性能iOS应用包下载命令行工具架构设计与实现原理

IPATool：高性能iOS应用包下载命令行工具架构设计与实现原理【免费下载链接】ipatool Command-line tool that allows searching and downloading app packages (known as ipa files) from the iOS App Store 项目地址: https://gitcode.com/GitHub_Trending/ip/i…...

2026/6/5 20:51:35 阅读更多 →

Inter字体完整指南：为什么它是现代数字排版的终极解决方案？

Inter字体完整指南：为什么它是现代数字排版的终极解决方案？ 【免费下载链接】inter The Inter font family 项目地址: https://gitcode.com/gh_mirrors/in/inter Inter字体是现代数字排版的革命性突破，作为一款开源无衬线字体家族&…...

2026/6/5 20:47:50 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/6/5 17:30:17 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/5 17:30:20 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/5 17:30:23 阅读更多 →