问题不大
冷…静,冷静,总之先冷静下来找时光机。————坂田银时
【实践】CUTLASS学习过程 【实践】CUTLASS学习过程
CUTLASS能实现cuBLAS做不到的算子融合(最核心),省去多次显存读写,此外,在CuTe(解决CUTLASS的Layout Algebra)基础上定义了GEMM流水线和后处理,是魔改GEMM的最佳选择之一(还有triton,但是最近听说triton不再维护了?)
【理论】CuTe学习过程 【理论】CuTe学习过程
CuTe解决索引计算和数据搬运问题,引入Layout的概念,并抽象了MMA的一些指令,只需提供shape和stride就能自动计算物理内存地址,省去了手动计算一维内存地址的步骤。
【实践】FlashAttention学习过程 【实践】FlashAttention学习过程
FlashAttentionv1实操过程,已验证!
【理论】FlashAttention学习过程 【理论】FlashAttention学习过程
更少的内存!更快的速度!这就是FA!
Multi-head Latent Attention模型理解 Multi-head Latent Attention模型理解
作为FlashMLA的核心之一,MLA设计了在保持性能的同时着重减少KV Cache的attention机制,十分值得细究!
LLM2框架搭建过程 LLM2框架搭建过程
参照"不归牛顿管的熊猫"的课程视频搭建的LLM2框架,目前还在对算子进行调试优化阶段
CUDA编程:基础与实践学习笔记 CUDA编程:基础与实践学习笔记
樊哲勇老师的CUDA编程教程包括CUDA编程的语法知识、优化策略及程序开发实践,对新手很友好!
目标检测(环境配置) 目标检测(环境配置)
yolov5 person和帽子的分类、配置Ubuntu以及部署到香橙派上
2023-12-04
AlexNet模型复现 AlexNet模型复现
阅读了《Imagenet classification with deep convolutional neural networks》后复现AlexNet模型
2023-11-28
1 / 3