CUTLASS能实现cuBLAS做不到的算子融合(最核心),省去多次显存读写,此外,在CuTe(解决CUTLASS的Layout Algebra)基础上定义了GEMM流水线和后处理,是魔改GEMM的最佳选择之一(还有triton,但是最近听说triton不再维护了?)
2025-11-14