栋先生 2020-11-16
2020京东11.11全球热爱季正式落下帷幕,截至11月11日24时,京东平台累计下单金额超2715亿元,成交额同比增长33%,再次打破记录。在这场2715亿元全民狂欢的背后, 京东智联云再度发挥出京东技术基石的本色,以全面、稳定、安全、可信赖的技术支撑,扛住来自“数字世界”汹涌的数据洪流,守护住每个人的每一份热爱。
全业务云端监控 应对高峰值流量考验
京东11.11期间,京东智联云超高弹性支撑海量并发,保障流畅的购物体验,助力消费再创新高。“目前京东物流场景中配送域和运输域的核心应用部署在京东智联云上,物流侧部署在京东智联云上的各个系统整体运行非常平稳。”据京东物流技术发展部配运研发负责人严孝男介绍,京东智联云配合物流侧进行了大量的有针对性的故障演练,既检验了物流侧各个系统的整体稳定性,也极大程度的锻炼了物流侧在应对各种故障时的反应能力。
京东零售技术与数据中心技术效能负责人李军亮也表示:“在大促之前,京东智联云经过 20 多个日夜的努力,配合零售针对商品交易全流程进行全链路系统压测,京东开门红的秒级订单超越历史峰值,零售侧部署在京东智联云上的各个系统整体运行非常平稳。整体来说,京东智联云提供了全面、专业的技术支持给零售带来了极大的便利和价值。”
据《2020年TheForrester Wave™:公有云开发与基础架构平台中国市场厂商评测》报告显示,2020年中国公有云开发与基础架构平台厂商领导者和卓越表现者象限仅有 7 家公司,京东智联云是为数不多的战略、产品双指标同时提升的厂商之一。今年京东11.11,京东智联云为京东零售、物流等核心业务,提供7*24小时的技术支持,全力保障业务系统安全平稳运行,确保每一位消费者流畅的购物体验。
全方位技术创新 确保业务平稳运行
面对京东11.11大促数百亿访问流量、每秒数百万次的高并发请求以及数十亿的实时消息推送,京东智联云通过在技术上的创新,有效支撑京东11.11海量并发,保障业务系统平稳运行。
在弹性计算方面,京东智联云原生容器充分融合了容器和虚拟机的优点,提供内核级别隔离的容器服务,安全、易用,支持灵活计费方式,有效降低了业务线的投入成本;基于京东智联云自研的虚拟化引擎,裸金属云主机提供了物理机无差别的极致性能,实现了在更低成本下更优质的服务;京东智联云 vGPU 提供产品级 GPU 共享能力,轻松应对业务波峰波谷,进而降低业务成本,可实现单业务最高可降低 69%。
在网络方面,京东智联云支持的 ECMP 路由可支撑 Tbps 级别的专线转发,同时支持 BGP 路由传播到 VPC,使得链路故障可以做到秒级切换。在存储方面,京东智联云云硬盘支持热迁移,在客户无感知的情况下对云硬盘进行跨资源池迁移,轻松应对硬件故障;京东智联云云原生数据库进行了深度内核定制,提供了细粒度的权限管理和安全管控策略,降低了业务线的运维管理成本,同时确保数据的安全和可靠。
在安全方面,京东智联云将平台安全能力、平台安全大数据和威胁情报实现无缝聚合,为大促提供一站式安全防护与自动化响应,并建立基于云原生的多维安全管理架构 JD Cloud Native For Security,使京东智联云的安全能力矩阵具备可编排、可管理、智能调度与弹性伸缩的特性,全面适配大促业务场景,实现大数据分析与威胁情报的智能关联,自动化完成安全事件分析响应、工单的分发流转、跟踪与闭环,同时利用海量数据积累与威胁情报技术,针对重大 0 day 漏洞、未知威胁进行有效的监测、识别、捕猎和响应,从全局视角提升对安全威胁的感知、识别、理解和响应处置,充分确保京东11.11期间的线上业务安全、数据安全和平台安全。
多维度重保服务 打造安全流畅的购物体验
在今年京东11.11的重保工作中,京东智联云研发团队联合京东零售、京东物流等团队进行了一系列业务系统重保工作,从宽带扩容、风险排查、系统检测、团队巡检等各个方面,进行了大量有针对性的演练,以满足超大规模流量下的业务安全保障要求。
京东智联云数据中心对与京东集团IDC之间的专线带宽、专线路由器、边界网关、虚拟路由器进行扩容,同时新增云硬盘容量和对象储存容量,以满足大促需求。在系统监控层面,京东智联云DevOps监控平台提供实时秒级全链路监控、程序异常代码级诊断、巡检及预案等丰富的运维手段,帮助用户全方位监测资源及业务的可用性,保障京东11.11大促期间各业务线的持续稳定运行。
京东智联云数据库团队模拟各种场景下的突发流量,验证业务系统的抗压能力,确保业务系统可应对大促期间的峰值压力;在全链路压测和破坏性演练方面,反复模拟主机、网络、存储等各个环节的故障,验证异常环境下业务系统的自恢复能力,整体提升系统的稳定性。
与此同时,针对资产现状、应用与架构、系统等级、人员权限等大促业务场景,京东智联云安全团队进行了全面盘点,有效收缩资产攻击面,对系统和应用等权限进行严格的管理,并通过制定全方位覆盖的告警策略,提升故障的自动化运维能力,完善各种应急预案,最大程度的降低故障带来的影响;团队也在大促期间进行7*24的不间断值守,每天至少两轮巡检,保证实时监控并响应各种服务请求,确保大促期间集团核心业务的稳定运行。