1. 模型部署与集成:负责将大语言模型. 多模态大模型. 图像生成视频生成. 语音合成等模型通过容器化技术(Kubernetes)部署至生产环境,并集成到现有业务系统(Web应用. 移动端. 数据库等);
2. 性能优化与加速:运用模型压缩(量化. 蒸馏. 剪枝). 高性能推理框架(如vLLM. SGLang. TensorRT-LLM. Triton)及异构计算技术(CUDA/OpenCL),优化模型推理性能,提升吞吐量并降低延迟;
3. 分布式推理系统构建:设计并实现支持高并发. 低延迟的分布式推理框架,熟练应用模型并行. 流水并行等技术,优化多设备(GPU/NPU)协同计算与资源调度;
4. 全链路监控与维护:建立模型生产环境监控体系,跟踪推理服务表现,快速定位性能瓶颈或异常,确保系统稳定性和可维护性。
1. 编程与框架:熟练掌握Python,具备扎实的C/C++编程能力;精通PyTorch/TensorFlow等深度学习框架,熟悉主流推理工具(如vLLM. SGLang. Triton. TensorRT-LLM等);
2. 模型部署经验:具备大模型生产环境部署经验,熟悉容器化(Docker/K8s)和云计算平台(AWS/Azure/GCP/阿里云/腾讯云等),了解模型量化. 剪枝等优化方法;
3. 系统优化能力:熟悉GPU/NPU异构计算架构,掌握CUDA编程. 性能分析工具(Nsight. Profiler),能针对性优化算子性能与资源利用。
简历投递邮箱:
hr@corecom.cn
简历如果合适会在5个工作日内进行反馈,感谢投递!