八股-大语言模型基础
一、LLM的概念LLM 大型语言模型Large Language Models主流的开源模型体系都是基于Transformer架构Encoder 在抽取序列中某一个词的特征时能够看到整个序列中所有的信息即上文和下文同时看到而Decoder 中因为有 mask 机制的存在使得它在编码某一个词的特征时只能看到自身和它之前的文本信息。Prefix/Causal LMPrefix LM 前缀语言模型Encoder和Decoder共享了同一个Transformer结构EncoderAE-自编码 前缀序列中任意两个token都相互可见Auto EncodingDecoderAR-自回归 待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token但不能看未来尚未产生的tokenCausal LM 因果语言模型DecoderAuto Regressive 自回归GPT训练目标最大化模型生成训练数据中观察到的文本序列的概率最大似然估计 MLE涌现能力模型在训练过程中能够生成出令人惊喜、创造性和新颖的内容或行为Decoder only结构Encoder的双向注意力存在低秩问题削弱模型表达能力更好的Zero-Shot性能、更适合于大语料自监督学习效率decoder-only支持一直复用KV-Cache多轮对话更友好每个Token的表示和之前输入有关LLMs复读机问题依赖输入文本的复制解决 多样性训练数据、引入噪声、温度参数调整、Beam搜索调整、后处理和过滤、人工干预Bert通用、LLaMA英文、ChatGLM中英文适用场景让大模型处理更长的文本解决方法分块、层次建模文本分为段落、句子或子句、部分生成模型生成文本的一部分、引入注意力机制、模型结构优化结构、参数