flashattention3 论文解读

【2024-10-06】flashattention3 论文解读

flashattention2 论文解读

【2024-10-05】flashattention2 论文解读

flashattention1 论文解读

【2024-10-02】flashattention1 论文解读

online-softmax 论文解读

【2024-10-01】online-softmax 论文解读

理解 triton 之基础知识

【2024-09-26】triton 内核编程的背景知识总结

cuda 教程推荐

【2024-09-26】推荐一些不错的 cuda 编程教程。

理解 triton 内核教程 4

【2024-09-24】flashattention 算子 triton 编程总结

理解 triton 内核教程 3

【2024-09-24】layernorm 算子 triton 编程总结

理解 triton 内核教程 2

【2024-09-22】matmul 算子 triton 编程总结

llm 推理 latency 分析

【2024-09-21】考虑基于 roofline 模型和的 llm decode 阶段的 latency 分析，对于小 batch 的模型推理，单个 token 的推理 latency 可能受限于 gpu 的内存带宽，即内存读取时间 > 计算时间；对于大 batch，单个 token 的推理 latency 受限于 gpu 的算力，即内存读取时间 > 计算时间。