1. 负责监控告警及系统工单处理,保证响应时长,处理时长;
2. 主要负责数据中心各模块告警的基础排查及问题定位;
3. 做好故障记录及问题登记记录,配合中高级工程师变更操作;
4. 定期进行设备巡检维护,应急演练,保障集群稳定;
5. 针对服务器相关各类硬件进行信息采集. 性能兼容性测试,并能输出相应的测试报告;
6. 服务器硬件问题分析定位,解决运行过程中遇到的各类问题;
7. 负责定位分析机器故障根因,整理现象. 报告并与厂商进行协调沟通;
8. 领导安排的其他工作。
1. 本科及以上学历,经验不限,数学,计算机及相关专业;
2. 熟悉linux操作系统,能熟练使用shell/python等进行硬件自动化信息收集,测试等工作;
3. 熟悉服务器体系及市场上主流GPU服务器,了解GPU. CPU. 内存. 硬盘. 网卡. PCIE等主要部件的工作原理;
4. 熟悉操作系统安装(如RedHat. Ubuntu等)安装配置及优化,了解GPU驱动(如CUDA. cudnn等);
5. 工作仔细. 有责任心. 良好的沟通能力. 故障定位处理能力。
简历投递邮箱:
hr@corecom.cn
简历如果合适会在5个工作日内进行反馈,感谢投递!