GEMM Kernel 性能优化十问2026年4月4日·5 分钟技术 Pallas TPU FP8 Kernel MoE基于 Pallas GMM FP8 blockwise 量化内核开发的实战问答,涵盖量化粒度、子通道循环、分阶段 tiling、编译链路、精度对齐方法论等核心话题。