🐟
11
14
【实践】CUTLASS学习过程 【实践】CUTLASS学习过程
CUTLASS能实现cuBLAS做不到的算子融合(最核心),省去多次显存读写,此外,在CuTe(解决CUTLASS的Layout Algebra)基础上定义了GEMM流水线和后处理,是魔改GEMM的最佳选择之一(还有triton,但是最近听说triton不再维护了?)
03
【理论】CuTe学习过程 【理论】CuTe学习过程
CuTe解决索引计算和数据搬运问题,引入Layout的概念,并抽象了MMA的一些指令,只需提供shape和stride就能自动计算物理内存地址,省去了手动计算一维内存地址的步骤。
04
29
03
26
19