1.书籍《GPT图解大模型是怎样构建的 (黄佳)》《图解大模型生成式AI原理与实战 》2. 技术点睛原始文本-分词器-词元 - 词袋 - word2vec词元嵌入 -词向量 - RNN - Transformer - GPTword2vec通过神经网路实现共现稀疏矩阵到词向量稠密矩阵的压缩。通过需要先进行分词然后通过滑动窗口加速训练。训练完成后每个词对应一个新的向量每个词向量在工程中使用的维度通常为128-1024之间经验值。这个过程叫词嵌入纯英文翻译实际上可以叫生成高效词向量。词向量不仅仅是把词变成一个数字列表它同时编码了词与词之间的“关系”。这个“关系”就是通过向量空间中的距离和方向来体现的。skip-gram模型本身就可以把上下文相近的词表示为距离相近的两个向量这个能力本身就可以实现一些推荐文本聚类的应用。Transformer训练时可以并行推理时只能自回归的串行处理词元。因为推理时下一个词元的预测需要依赖前一个词元的计算结果所以需要使用KV缓存缓存上一步的结果否则就需要重新计算。使用KV缓存实现空间换时间。预训练参数和输入之前是怎么计算的对于输入的某个词元token