Pytorch显存管理机制与显存占用分析方法

【2025-05-20】Pytorch显存管理机制与显存占用分析方法。

DeepseekMoE 结构详解和代码实现

【2025-02-12】DeepseekMOE 计算流程，结构拆解及代码实现。

MLA 结构代码实现及优化

【2025-02-10】MLA 结构代码实现及优化, 不吸收和吸收矩阵版本代码实现。

DeepSeekV2 论文解读

【2025-02-07】DeepSeekv2 模型结构的详细解读，以及代码实现分析并拆解。

DeepSeekV3 简单概述

【2025-02-06】DeepSeekv3 技术报告的简单概述和总结。

triton 内核编译流程解析

【2025-01-25】Triton 内核编译函数入口代码分析，并全面总结内核的编译流程。

vllm 推理流程剖析

【2024-12-02】总结了 vllm 的推理架构和流程。

LLaVA 系列模型结构详解

【2024-11-28】多模态大模型 MLLM 架构通常都是 LLM + 视觉编码器 + 映射层的组合。本文详细总结了 LLaVA 系列多模态模型的模型结构，以及视觉编码器如何支持高分辨率输入图像。

温度系数与 top-p 采样策略详解

【2024-11-24】本文先详细介绍了 LLM 采样时 Temperature 温度系数的作用，然后简单介绍了常见采样策略的基本原理，最后详细描述了 top-p 采样算法的原理和实现步骤，并给出代码实现，以及针对每行代码做出了极为详细的解释。

vllm 优化之 PagedAttention 源码解读

【2024-11-17】总结了 vllm 的 pagedattention 内核设计和动态分配、管理 kv cache 内存的模块流程，难点主要有三个：一个是 block_tables 的创建和管理，以及 gpu 设备在指定模型上的可分配的内存 blocks 的计算，最后就是 pagedattention 内核代码中相关线程索引和偏移的计算怎么改成基于 block_tables 的形式，这都需要反复阅读理解代码才能得到清晰的理解。