https://cookllm.com/docs/fundamentals/systems/flash-attention/02-naive-to-flash
从朴素实现到 Auto-Tuning | CookLLM | 大模型全栈工程体系:架构、训练与应用
编写第一个 Flash Attention Kernel,并利用 Auto-Tune 进行性能优化。
auto tuningcookllm
https://fazier.com/launches/cookllm
CookLLM | Fazier
Go deep. Build real things.
cookllmfazier
https://cookllm.com/docs/fundamentals/systems/distributed-training/02-zero-optimizer
ZeRO 优化器 | CookLLM | 大模型全栈工程体系:架构、训练与应用
渐进式去冗余,从优化器状态到参数的三级分片
zerocookllm
https://cookllm.com/docs/fundamentals/systems/flash-attention/05-grouped-query-attention
Grouped Query Attention | CookLLM | 大模型全栈工程体系:架构、训练与应用
实现 GQA/MQA 支持,让多个 Query Head 共享 KV,优化 KV Cache 内存占用。
grouped query attentioncookllm
https://cookllm.com/docs/fundamentals/basics/architecture/rope/01-position-encoding
位置编码基础 | CookLLM | 大模型全栈工程体系:架构、训练与应用
为什么 Transformer 需要位置信息,以及绝对位置编码的方案与局限
cookllm
https://cookllm.com/docs/training/01-pretraining/03-model-architecture
模型架构 | CookLLM | 大模型全栈工程体系:架构、训练与应用
从 bento_29m.yaml 读懂 BentoLM 的结构和参数规模
cookllm
https://cookllm.com/
CookLLM | 大模型全栈工程体系:架构、训练与应用
深度揭示大语言模型的底层逻辑与工程细节。课程覆盖架构设计、训练基建、MLLM 与 Agent 等核心领域。通过清晰的文档与从零构建 (From-Scratch) 的代码实现,助你将复杂的 AI 技术融会贯通,实现从理论到落地的完全掌握。
cookllm
https://newtool.site/item/cookllm
CookLLM - NewTool - Rising Star Tools Directory
CookLLM is a hands-on LLM engineering course where you build everything from scratch — tokenizer, model architecture, GPU kernels, Flash Attention,...
rising startools directorycookllmnewtool
https://cookllm.com/terms
服务条款 | CookLLM | 大模型全栈工程体系:架构、训练与应用
管理 CookLLM 服务使用的条款和条件
cookllm
https://cookllm.com/pricing
早鸟通行证 | CookLLM | 大模型全栈工程体系:架构、训练与应用
CookLLM 处于烹饪阶段,当前以 3 折价格邀请您成为终身会员。价格将随路线图进度逐步上调,越早加入越划算
cookllm
https://cookllm.com/docs/fundamentals/basics/tokenization/01-tokenization-basics
Tokenization 基础 | CookLLM | 大模型全栈工程体系:架构、训练与应用
为什么需要 Tokenization?从字符级到子词级,理解 Unicode 和 UTF-8 编码
tokenizationcookllm
https://discord.com/invite/dKxBk7f9KB
CookLLM
来 Discord CookLLM 社区瞧瞧——结交近 137 名成员,畅享免费语音与文字聊天。
cookllm
https://cookllm.com/docs/fundamentals/basics/tokenization
Tokenization | CookLLM | 大模型全栈工程体系:架构、训练与应用
深入理解 LLM 的词元化机制,从 BPE 算法到 GPT 系列实现
tokenizationcookllm
https://cookllm.com/docs/fundamentals/systems/flash-attention/04-causal-masking
Causal Masking 优化 | CookLLM | 大模型全栈工程体系:架构、训练与应用
为自回归模型实现因果注意力机制,通过跳过上三角计算实现 ~2x 加速。
causalmaskingcookllm
https://cookllm.com/docs/fundamentals/basics/architecture/rope
旋转位置编码 | CookLLM | 大模型全栈工程体系:架构、训练与应用
从位置编码基础到 RoPE 的数学推导、代码实现与长度外推
cookllm
https://cookllm.com/contact
联系我们 | CookLLM | 大模型全栈工程体系:架构、训练与应用
cookllm
https://cookllm.com/docs/fundamentals/basics/tokenization/03-gpt-tokenizers
GPT 系列 Tokenizer | CookLLM | 大模型全栈工程体系:架构、训练与应用
GPT-2/GPT-4 的 Tokenization 方案,Regex 预处理与 tiktoken 库
gpttokenizercookllm
https://swanlab.cn/@cookllm
个人主页 · cookllm | SwanLab
cookllm 的主页,展示在 SwanLab 的最新动态、项目成果和个人简介。
cookllmswanlab
https://cookllm.com/docs/fundamentals/systems/flash-attention/01-attention-memory-trap
Flash Attention 原理详解 | CookLLM | 大模型全栈工程体系:架构、训练与应用
通过交互式可视化,深入理解 Flash Attention 的核心技术:内存瓶颈、Online Softmax、与分块矩阵乘法。
flash attentioncookllm