1. 团队管理:全面负责运维团队的日常管理. 工作排班. 任务分配及绩效考核,搭建完善的团队培养体系,提升团队整体技术能力和运维服务水平,保障7x24小时运维服务落地执行;
2. 运维统筹:主导算力集群的整体运维工作,涵盖IB网络. ROCE网络及智算集群相关设备的日常监控. 巡检. 故障排查与应急处置,制定并优化运维标准化流程(SOP),降低故障发生率,确保算力集群可用性达标;
3. 技术管控:负责运维技术方案的制定与落地,跟踪IB. ROCE等主流智算组网技术及运维领域新技术动态,引入合适的运维工具与方法,推动运维自动化. 智能化升级,提升运维效率;对接硬件供应商. 网络服务商,协调解决复杂技术问题;
4. 服务保障:对接内部需求及外部客户,响应运维服务诉求,定期输出运维服务报告,优化服务流程,提升客户满意度;落实网络安全等级保护相关要求,做好运维过程中的安全管控. 日志审计及灾备演练工作;
5. 合规与成本管控:严格遵守相关合规要求,规范运维操作;合理管控运维成本,负责备件管理. 耗材采购的审核与统筹,优化资源配置。
1. 3年及以上智算集群. IDC机房运维管理经验,有算力集群(1000P)运维管理经验者优先;
2. 精通IB网络. ROCE网络的原理. 配置与运维,熟悉智算集群架构及GPU服务器. 分布式存储等相关设备的运维要点;熟练掌握Linux系统管理. ShelI. Python自动化脚本编写,具备自动化运维工具(如Prometheus. Grafana)使用经验;能独立处置复杂运维故障,具备较强的技术分析与解决能力;
3. 具备优秀的团队管理. 组织协调及沟通能力,能有效统筹团队完成7x24小时运维任务,有5人及以上运维团队管理经验者优先;具备良好的目标管理. 流程优化及问题推动能力;
4. 责任心强,抗压能力突出,能接受应急值守及节假日加班,严格遵守运维纪律;具备良好的服务意识. 合规意识及成本意识,工作严谨细致,善于总结复盘;
5. 持有CCNP. CCIE. HCIP等相关网络或运维认证者优先;熟悉液冷. UPS等机房基础设施运维者加分。
简历投递邮箱:
hr@corecom.cn
简历如果合适会在5个工作日内进行反馈,感谢投递!