• 卡比
  • 🇬🇧 EN
  • Weekly
  • About
  • Categories
Be yourself and don't go with the flow.

vllm优化技术速览

【2024-10-26】vllm优化技术速览,介绍 PagedAttention、连续批处理技术方案。

RoPE 位置编码算法详解

【2024-10-24】旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。

Sinusoida 位置编码详解

【2024-10-23】Sinusoida 位置编码也叫三角函数位置编码,由 transformer 论文提出。位置编码的意义是用于表示序列中某个元素的位置,它为每个位置分配一个独特的表示。

位置编码算法背景知识

【2024-10-22】理解 RoPE 位置编码算法的原理和推导公式之前得先具备一些背景知识,主要是关于三角函数、旋转矩阵、直角坐标系、欧几里得内积的相关概念和公式,可以先快速阅览本章内容,后续关于 RoPE 算法的推导不理解的时候,再来细看相关公式和概念即可。

llama1-3 模型结构详解

【2024-10-21】llama1-3 模型结构代码如何实现,模型结构分析。

transformer 模型结构详解及实现

【2024-10-20】transformer 模型结构代码如何实现,模型结构分析。

CUDA 内核执行配置及线程索引计算

【2024-10-17】cuda 内核执行配置如何设定,以及如何划分2d/3d数据,并根据线程索引取内存数据。

CUDA 编程模型进阶

【2024-10-15】深入探讨 CUDA 编程模型是如何映射到 GPU 底层硬件架构的,并探讨影响性能的各种底层因素。

CUDA 流介绍

【2024-10-10】cuda 流用于实现 kernel 函数外的并行。

flashattention1-2-3 系列总结

【2024-10-07】flashattention1-2-3系列总结
  • <
  • 1
  • 2
  • 3
  • 4
  • 5
  • …
  • 11
  • >
github Twitter RSS github 2015~2025