Wabbybabbo的摸鱼圣地

问题不大
冷…静，冷静，总之先冷静下来找时光机。————坂田银时
                            
                            【实践】CUTLASS学习过程
                        
                                CUTLASS能实现cuBLAS做不到的算子融合(最核心)，省去多次显存读写，此外，在CuTe(解决CUTLASS的Layout Algebra)基础上定义了GEMM流水线和后处理，是魔改GEMM的最佳选择之一(还有triton，但是最近听说triton不再维护了？)
                            
                                2025-11-14
                            
                                    高性能计算
                                
                            CUTLASS
                        
                            【理论】CuTe学习过程
                        
                                CuTe解决索引计算和数据搬运问题，引入Layout的概念，并抽象了MMA的一些指令，只需提供shape和stride就能自动计算物理内存地址，省去了手动计算一维内存地址的步骤。
                            
                                2025-11-03
                            
                                    高性能计算
                                
                            CUTLASS
                        
                            【实践】FlashAttention学习过程
                        
                                FlashAttentionv1实操过程，已验证！
                            
                                2025-04-29
                            
                                    高性能计算
                                
                            LLM
                        
                            CUDA
                        
                            【理论】FlashAttention学习过程
                        
                                更少的内存！更快的速度！这就是FA！
                            
                                2025-03-26
                            
                                    高性能计算
                                
                            LLM
                        
                            Multi-head Latent Attention模型理解
                        
                                作为FlashMLA的核心之一，MLA设计了在保持性能的同时着重减少KV Cache的attention机制，十分值得细究！
                            
                                2025-03-19
                            
                                    高性能计算
                                
                            DeepSeek
                        
                            GPU
                        
                            LLM2框架搭建过程
                        
                                参照"不归牛顿管的熊猫"的课程视频搭建的LLM2框架，目前还在对算子进行调试优化阶段
                            
                                2024-10-08
                            
                                    高性能计算
                                
                            LLM
                        
                            CUDA
                        
                            CUDA编程：基础与实践学习笔记
                        
                                樊哲勇老师的CUDA编程教程包括CUDA编程的语法知识、优化策略及程序开发实践，对新手很友好！
                            
                                2024-08-02
                            
                                    高性能计算
                                
                            CUDA
                        
                            GPU
                        
                            mlc-llm 香橙派部署过程
                        
                                mlc-llm部署
                            
                                2024-01-27
                            
                                    人工智能
                                
                            人工智能
                        
                            NLP
                        
                            目标检测(环境配置)
                        
                                yolov5 person和帽子的分类、配置Ubuntu以及部署到香橙派上
                            
                                2023-12-04
                            
                                    人工智能
                                
                            人工智能
                        
                            Linux
                        
                            Ubuntu
                        
                            AlexNet模型复现
                        
                                阅读了《Imagenet classification with deep convolutional neural networks》后复现AlexNet模型
                            
                                2023-11-28
                            
                                    人工智能
                                
                            人工智能
                        
                            卷积神经网络
                        
                            RNN(李宏毅)
                        
                                RNN初学
                            
                                2023-11-06
                            
                                    人工智能
                                
                            人工智能
                        
                            循环神经网络
                        
                            CNN(李宏毅)
                        
                                卷积神经网络初学
                            
                                2023-11-04
                            
                                    人工智能
                                
                            人工智能
                        
                            卷积神经网络
                        
                            深度学习