Large Language Models 技术栈
深度解析 Transformer 架构、优化技术与工程实践
01. 基础架构
神经语言模型基础
从 RNN 到 Transformer 的架构演进,语言建模的数学原理
已发布
理论基础
Tokenization 算法
BPE、WordPiece、SentencePiece 分词算法的实现与对比
已发布
预处理
嵌入与位置编码
词向量表示、绝对位置编码、相对位置编码(RoPE)技术
已发布
表示学习
02. Transformer 核心机制
Self-Attention 机制
注意力计算的数学推导、多头注意力的并行实现
已发布
核心算法
Encoder-Decoder 架构
编码器解码器的设计原理、Cross-Attention 交互机制
已发布
架构设计
LayerNorm & 残差连接
层归一化的数学原理、残差网络在 Transformer 中的作用
已发布
网络组件
Feed-Forward Networks
前馈网络设计、激活函数选择、参数初始化策略
规划中
网络组件
03. 推理优化技术
KV Cache 机制
键值缓存的内存管理、推理加速原理与实现细节
已发布
内存优化
模型量化技术
INT8/FP16 量化、动态量化、量化感知训练(QAT)
已发布
压缩技术
推理引擎优化
TensorRT、ONNX Runtime、Triton 推理服务器部署
规划中
部署优化
批处理与流水线
动态批处理、连续批处理、推理流水线并行
规划中
并行技术
04. 训练与微调技术
分布式训练
数据并行、模型并行、ZeRO 优化器、梯度同步策略
规划中
分布式系统
参数高效微调
LoRA、AdaLoRA、Prefix-Tuning、P-Tuning v2 技术
规划中
微调技术
指令微调与对齐
Instruction Tuning、RLHF、PPO 算法、安全对齐技术
规划中
对齐技术
05. 应用架构模式
RAG 系统设计
检索增强生成、向量数据库、嵌入模型、重排序算法
规划中
系统架构
Agent 系统
ReAct 框架、工具调用、多智能体协作、决策树构建
规划中
智能代理
多模态融合
视觉-语言模型、CLIP 架构、跨模态注意力机制
规划中
多模态
安全与隐私保护
模型安全评估、对抗攻击防护、差分隐私、联邦学习
已发布
安全技术