GEMM Kernel 性能优化十问2026年4月4日·5 分钟技术 Pallas TPU FP8 Kernel MoE基于 Pallas GMM FP8 blockwise 量化内核开发的实战问答,涵盖量化粒度、子通道循环、分阶段 tiling、编译链路、精度对齐方法论等核心话题。
SGLang-JAX: An Open-Source Solution for Native TPU Inference ↗ ↖2025年10月29日技术 JAX TPU 推理 SGLangSGLang-JAX 是基于 JAX 和 XLA 构建的开源推理引擎,支持 continuous batching 和 speculative decoding,在 TPU 上实现高效原生推理。