您正在学习的是试看内容,报名后可学习全部内容 报名课程
人气值 6.3k

双十一高可用背后的故障演练服务

主题:
为了支持海量用户和多元化的业务,基础设施和系统会趋于复杂。业务的高速发展的同时,对于稳定性也有非常高的要求。从 2011年到2015年,电商域遇到了很多有代表性的故障,积累了非常多的高可用保障经验和解决方案。然而任何基础设施、系统、人、流程都可能出问题,且问题一直在发生。2016年,我们研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。在双11备战中,设计了数百个演练场景设计,通过几十次的演习,发现并解决了大量的问题。


本次分享会探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。

主题大纲:

  • 阿里技术架构和稳定性治理的整体情况
  • 技术和业务发展给稳定性带来的挑战及应对
  • 一些”血”的教训和反思
  • 故障演练服务的背景和技术实现
  • 阿里云高可用评测服务介绍

计划时长:45分钟

内容受众:企业的架构师、核心开发人员。

观众收获:通过本次分享,希望可以体系化的给大家介绍阿里稳定性保障遇到的问题,积累的方法经验,沉淀的体系和产品。提高受众者的稳定性。