Robuta

https://cookllm.com/docs/fundamentals/systems/flash-attention/02-naive-to-flash 从朴素实现到 Auto-Tuning | CookLLM | 大模型全栈工程体系:架构、训练与应用 编写第一个 Flash Attention Kernel,并利用 Auto-Tune 进行性能优化。 auto tuningcookllm https://fazier.com/launches/cookllm CookLLM | Fazier Go deep. Build real things. cookllmfazier https://cookllm.com/docs/fundamentals/systems/distributed-training/02-zero-optimizer ZeRO 优化器 | CookLLM | 大模型全栈工程体系:架构、训练与应用 渐进式去冗余,从优化器状态到参数的三级分片 zerocookllm https://cookllm.com/docs/fundamentals/systems/flash-attention/05-grouped-query-attention Grouped Query Attention | CookLLM | 大模型全栈工程体系:架构、训练与应用 实现 GQA/MQA 支持,让多个 Query Head 共享 KV,优化 KV Cache 内存占用。 grouped query attentioncookllm https://cookllm.com/docs/fundamentals/basics/architecture/rope/01-position-encoding 位置编码基础 | CookLLM | 大模型全栈工程体系:架构、训练与应用 为什么 Transformer 需要位置信息,以及绝对位置编码的方案与局限 cookllm https://cookllm.com/docs/training/01-pretraining/03-model-architecture 模型架构 | CookLLM | 大模型全栈工程体系:架构、训练与应用 从 bento_29m.yaml 读懂 BentoLM 的结构和参数规模 cookllm https://cookllm.com/ CookLLM | 大模型全栈工程体系:架构、训练与应用 深度揭示大语言模型的底层逻辑与工程细节。课程覆盖架构设计、训练基建、MLLM 与 Agent 等核心领域。通过清晰的文档与从零构建 (From-Scratch) 的代码实现,助你将复杂的 AI 技术融会贯通,实现从理论到落地的完全掌握。 cookllm https://newtool.site/item/cookllm CookLLM - NewTool - Rising Star Tools Directory CookLLM is a hands-on LLM engineering course where you build everything from scratch — tokenizer, model architecture, GPU kernels, Flash Attention,... rising startools directorycookllmnewtool https://cookllm.com/terms 服务条款 | CookLLM | 大模型全栈工程体系:架构、训练与应用 管理 CookLLM 服务使用的条款和条件 cookllm https://cookllm.com/pricing 早鸟通行证 | CookLLM | 大模型全栈工程体系:架构、训练与应用 CookLLM 处于烹饪阶段,当前以 3 折价格邀请您成为终身会员。价格将随路线图进度逐步上调,越早加入越划算 cookllm https://cookllm.com/docs/fundamentals/basics/tokenization/01-tokenization-basics Tokenization 基础 | CookLLM | 大模型全栈工程体系:架构、训练与应用 为什么需要 Tokenization?从字符级到子词级,理解 Unicode 和 UTF-8 编码 tokenizationcookllm https://discord.com/invite/dKxBk7f9KB CookLLM 来 Discord CookLLM 社区瞧瞧——结交近 137 名成员,畅享免费语音与文字聊天。 cookllm https://cookllm.com/docs/fundamentals/basics/tokenization Tokenization | CookLLM | 大模型全栈工程体系:架构、训练与应用 深入理解 LLM 的词元化机制,从 BPE 算法到 GPT 系列实现 tokenizationcookllm https://cookllm.com/docs/fundamentals/systems/flash-attention/04-causal-masking Causal Masking 优化 | CookLLM | 大模型全栈工程体系:架构、训练与应用 为自回归模型实现因果注意力机制,通过跳过上三角计算实现 ~2x 加速。 causalmaskingcookllm https://cookllm.com/docs/fundamentals/basics/architecture/rope 旋转位置编码 | CookLLM | 大模型全栈工程体系:架构、训练与应用 从位置编码基础到 RoPE 的数学推导、代码实现与长度外推 cookllm https://cookllm.com/contact 联系我们 | CookLLM | 大模型全栈工程体系:架构、训练与应用 cookllm https://cookllm.com/docs/fundamentals/basics/tokenization/03-gpt-tokenizers GPT 系列 Tokenizer | CookLLM | 大模型全栈工程体系:架构、训练与应用 GPT-2/GPT-4 的 Tokenization 方案,Regex 预处理与 tiktoken 库 gpttokenizercookllm https://swanlab.cn/@cookllm 个人主页 · cookllm | SwanLab cookllm 的主页,展示在 SwanLab 的最新动态、项目成果和个人简介。 cookllmswanlab https://cookllm.com/docs/fundamentals/systems/flash-attention/01-attention-memory-trap Flash Attention 原理详解 | CookLLM | 大模型全栈工程体系:架构、训练与应用 通过交互式可视化,深入理解 Flash Attention 的核心技术:内存瓶颈、Online Softmax、与分块矩阵乘法。 flash attentioncookllm