【LLM】技术栈

张

张建站

2026/7/18 13:30:20

10分钟阅读

1.书籍《GPT图解大模型是怎样构建的 (黄佳)》《图解大模型生成式AI原理与实战》2. 技术点睛原始文本-分词器-词元 - 词袋 - word2vec词元嵌入 -词向量 - RNN - Transformer - GPTword2vec通过神经网路实现共现稀疏矩阵到词向量稠密矩阵的压缩。通过需要先进行分词然后通过滑动窗口加速训练。训练完成后每个词对应一个新的向量每个词向量在工程中使用的维度通常为128-1024之间经验值。这个过程叫词嵌入纯英文翻译实际上可以叫生成高效词向量。词向量不仅仅是把词变成一个数字列表它同时编码了词与词之间的“关系”。这个“关系”就是通过向量空间中的距离和方向来体现的。skip-gram模型本身就可以把上下文相近的词表示为距离相近的两个向量这个能力本身就可以实现一些推荐文本聚类的应用。Transformer训练时可以并行推理时只能自回归的串行处理词元。因为推理时下一个词元的预测需要依赖前一个词元的计算结果所以需要使用KV缓存缓存上一步的结果否则就需要重新计算。使用KV缓存实现空间换时间。预训练参数和输入之前是怎么计算的对于输入的某个词元token

深入解析EAS调度器中的WALT算法：移动设备性能与功耗的平衡艺术

1. 为什么移动设备需要WALT算法？ 用手机刷短视频时突然卡顿，玩游戏时莫名发热——这些糟心体验背后，往往藏着CPU调度器的秘密。传统Linux内核的CFS调度器就像个固执的老管家，总想把所有任务平均分给每个CPU核心，却忽略…...

2026/7/18 13:29:19 阅读更多 →

深入解析printf缓冲区与fork进程复制机制

一、printf 缓冲区机制 printf 函数不会直接将数据输出到屏幕，而是先将数据写入缓冲区。满足以下任一条件时，缓冲区内容才会输出到屏幕： （1）缓冲区被写满； （2）强制刷新缓冲区&a…...

2026/7/13 18:05:24 阅读更多 →

如何应对高竞争行业中的SEO链接优化挑战

如何应对高竞争行业中的SEO链接优化挑战在当今互联网时代，搜索引擎优化（SEO）已经成为各行业企业提升网站流量和品牌知名度的重要手段。特别是在高竞争行业中，如何有效地进行SEO链接优化是每个企业都必须面对的难题。本文将深入探…...

2026/7/13 18:05:25 阅读更多 →

3步解锁音乐自由：ncmdumpGUI终极NCM文件解密转换指南

3步解锁音乐自由：ncmdumpGUI终极NCM文件解密转换指南【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了心爱的歌曲&#…...

2026/7/18 2:03:14 阅读更多 →

Play Integrity Fix终极指南：解决Android设备验证失败的完整方案

Play Integrity Fix终极指南：解决Android设备验证失败的完整方案【免费下载链接】PlayIntegrityFix Fix Play Integrity (and SafetyNet) verdicts. 项目地址: https://gitcode.com/GitHub_Trending/pl/PlayIntegrityFix PlayIntegrityFix是一款专为Root设备…...

2026/7/18 2:42:18 阅读更多 →

Codex CLI 接入 GPT 模型指南

Codex CLI 是一个用于与 GitHub Copilot 进行交互的命令行工具，目前并没有 GPT-5.6 这个模型。GitHub Copilot 使用的是基于 OpenAI 的 GPT 模型，但具体版本信息并未公开。如果你有其他关于 Codex CLI 或 GitHub Copilot 的问题，欢迎继续提问…...

2026/7/18 9:57:07 阅读更多 →

SingleFile：让网页永久保存的终极解决方案，告别链接失效的烦恼

SingleFile：让网页永久保存的终极解决方案，告别链接失效的烦恼【免费下载链接】SingleFile Web Extension for saving a faithful copy of a complete web page in a single HTML file 项目地址: https://gitcode.com/gh_mirrors/si/SingleFile …...

2026/7/18 2:23:30 阅读更多 →