关于我#浙江大学(本科)/ 清华大学(硕士),电子与通信工程。先后在美团和 MiniMax 负责 AI Infra,专注大规模模型训练与推理基础设施。技术方向#大规模分布式训练(Megatron-LM、MaxText)推理优化与部署(SGLang、vLLM)GPU/TPU Kernel 开发(CUDA、Triton、Pallas)训练基础设施与 MLOps
GEMM Kernel 性能优化十问2026年4月4日·5 分钟技术 Pallas TPU FP8 Kernel MoE基于 Pallas GMM FP8 blockwise 量化内核开发的实战问答,涵盖量化粒度、子通道循环、分阶段 tiling、编译链路、精度对齐方法论等核心话题。
SGLang-JAX: An Open-Source Solution for Native TPU Inference ↗ ↖2025年10月29日技术 JAX TPU 推理 SGLangSGLang-JAX 是基于 JAX 和 XLA 构建的开源推理引擎,支持 continuous batching 和 speculative decoding,在 TPU 上实现高效原生推理。