输入“/”快速插入内容

Tiling in Triton

2024年12月1日修改
2024年3月30日创建
472
586
深入 tiling
CUDA 的 codegen 在做 thread-Block 的 for-loop tiling 时,
inter-level 的并行计算,做的已经很不错了。
intra-level 的,还有很多优化空间。比如,memory coalescing, 共享内存的 sync 以及 bank conflict 的处理,在更细粒度的 register-level tensor core 的调度上。
CUDA 加速 batch GEMM 的手段参考:调用 tensor core,借助 shared memory,register files 去加速运算或者优化 data movement
intra-tiling 的优化手段
memory coalescing。1994 - Memory Access Coalescing: A Technique for Eliminating Redundant Memory Accesses.
Cache management。2011 - Accelerating GPU Kernels for Dense Linear Algebra.