Introduction 基于木子知 hgemm 代码 ,对其进行了重构,使得整体流程更加清晰 对知乎上木子知Tensor Core-CUDA HGEMM优化进阶相关代码进行详尽分析 分析过程都是自己对理解,如果有误请提 issue mma mma_base 分析 mma_permute 分析 mma_async 分析 mma_async_stage2 分析 mma_async_stage3 分析 mma_async_stage4 分析 TODO List mma_base mma_permuted mma_async mma_async_stage2 mma_async_stage3 mma_async_stage4