Pengcheng's Blog

关于我
#

浙江大学（本科）/ 清华大学（硕士），电子与通信工程。先后在美团和 MiniMax 负责 AI Infra，专注大规模模型训练与推理基础设施。

2026年4月4日·5 分钟

基于 Pallas GMM FP8 blockwise 量化内核开发的实战问答，涵盖量化粒度、子通道循环、分阶段 tiling、编译链路、精度对齐方法论等核心话题。

2025年10月29日

SGLang-JAX 是基于 JAX 和 XLA 构建的开源推理引擎，支持 continuous batching 和 speculative decoding，在 TPU 上实现高效原生推理。