SRE工程师-国际化
Role summary
We are seeking an SRE Engineer specializing in Internationalization to join our team. This role involves designing and implementing internationalization infrastructure, focusing on cross-region architecture, disaster recovery, and high availability for overseas business stability. You will be responsible for deploying, operating, and optimizing foundational technology platforms in overseas regions, ensuring consistency with domestic systems. The position requires building overseas business stability systems, including observability, emergency response, and root cause analysis. You will drive the implementation of infrastructure capabilities in overseas scenarios, optimizing network and data architecture, and adapting basic services. Strong collaboration with domestic and international teams is essential to align technology systems and promote best practices. Proficiency in at least one programming language (Python, Go, Java) and experience with cloud-native infrastructure are required.
工作职责
1、国际化架构与容灾建设 — 参与公司国际化基础设施架构设计与落地,负责跨 Region 架构、容灾与高可用能力建设,推动关键业务具备多 Region 部署、容灾切换及故障隔离能力,提升海外业务整体稳定性水平。 2、海外基础技术平台建设与运维 — 负责公司基础技术管控平台(如发布系统、监控告警、配置中心、服务治理、流量调度等)在海外 Region 的部署、运维与持续优化,保障海外环境与国内平台体系的一致性与可用性。 3、稳定性治理与应急响应 — 负责海外业务稳定性体系建设,包括可观测能力建设、故障应急响应、根因分析与复盘机制建设;在重大故障场景下牵头协调跨团队资源,快速恢复服务并推动系统性改进。 4、国际化技术方案落地 — 深入理解海外业务需求与架构特点,推动基础设施能力在海外场景的落地,包括多 Region 架构设计、网络与数据架构优化、基础服务能力适配等。 5、跨团队协作与体系建设 — 与国内基础设施团队、业务研发团队及平台团队紧密协作,推动海外技术体系与国内架构标准保持一致;沉淀海外稳定性最佳实践并推动在组织内推广。
任职资格
1、稳定性与SRE经验 — 熟悉大规模互联网系统稳定性保障体系,具备高可用架构设计、故障治理、容量规划及应急响应经验;有 SRE / 平台工程 / 基础设施团队经验者优先。 2、国际化架构经验 — 熟悉跨 Region 架构设计与容灾体系,如多 Region 部署、流量调度、数据同步与容灾切换等;有海外业务架构或国际化基础设施建设经验者优先。 3、基础技术能力 — 熟悉 Linux 系统、网络与常见中间件原理(如 MySQL、Redis、Kafka 等),理解云原生基础设施(Kubernetes、Service Mesh 等)与可观测体系(监控、日志、Tracing)。 4、研发与自动化能力 — 熟练掌握 Python、Go、Java 等至少一种编程语言,具备自动化运维平台、稳定性工具或基础设施系统研发经验。 5、问题分析与协作能力 — 具备良好的问题分析与故障排查能力,能够在复杂系统环境中快速定位问题;具备良好的沟通能力与团队协作意识。 6、语言能力 — 中英文流利,能够在国际化团队环境中进行技术沟通与协作。 7、新加坡岗位优先新加坡公民/PR。
【加分项】
1、有跨云 / 多云 / 海外云厂商(AWS / GCP / Azure / 阿里云国际 / 火山国际)经验 2、有跨 Region 容灾、流量调度(DNS / GSLB / Anycast / Global LB)经验 3、有稳定性工程(Chaos Engineering / 演练 / 自动化恢复)经验