金融核心系统迁移,腾讯云有何「解题思路」?

  2019 年 1 月,CDH 背后的公司 Cloudera 宣布与 Hortonworks(一家围绕着大数据平台去做发行版的公司)合并,形成了新的 Cloudera 公司。

  两家公司合并之后,迅速对产品进行了整合推出了新一代产品——CDP,同时也宣布在 2021 年底结束对 CDH6 的服务支持。

  这给国内企业敲醒警钟,要将以往使用的 CDH 大数据平台进行全面的迁移。

  而时间拉到 2021 年 12 月 29 日,距离元旦仅三天,央行发布的一纸公文——《金融大数据平台总体技术要求》,在金融圈里炸开了锅。

  以前的文件可能是从战略层面对金融机构的数据安全要求,但这一份文件十分细化,直接从大数据平台的设计、开发、应用等角度,为金融机构的大数据平台建设提供了清晰指导。

  这份文件传递的信号是,金融机构已经没有时间再继续犹豫、观望,大数据平台自主可控建设势在必行。

  在 4 个月后,国内某大型基金公司做出重大决策,决心对大数据平台进行一场大手术,将在 CDH 大数据平台上的数据进行平滑迁移到腾讯云 TBDS 大数据平台。

  据腾讯云高级大数据架构师杨文龙介绍,他们从 4 月开始与基金公司接洽、商讨,直到 8 月才开始正式进驻开干,而此时,留给他们完成 CDH 大数据平台的平滑迁移时间仅剩下半年。

  这可能是当下许多金融机构进行系统迁移的真实写照:时间紧、任务重、压力大。

  为解决“信息系统迁移的难点及解法”,3 月 25 日,腾讯云举办了 2023 年首期 Techo Day (腾讯技术开放日),这一期,腾讯云与业内专家以“金融核心系统”为典型场景,分享如何更好地切换、平移、使用国产化软件。

  在活动上,专家们许多具体、鲜活案例分享,让我们有机会更深入了解金融机构变革的细枝末节,以及他们的真实需求。

   金融信息系统 “换心脏”,迫在眉睫

  在人体手术中,心脏移植手术难度往往最高的一类手术。第一,病人不能没有心脏,手术移植速度必须要快;第二,移植后,病人还可能存在移植排斥反应。没有到万不得已,一般都不会做如此冒险的手术。

  放在金融机构也是如此,关系到核心业务的系统一般不会轻易更换,一来是工程量大成本高,二来是担忧新系统的稳定性、可靠性。

  也因如此,过去许多人都在喊“去 IOE”,但身体依旧诚实,继续采用老三样。

  不过这几年外部形势严峻。从 2019 年至今,已有超过 600 家中国企业、机构等被列入美国“实体清单”,相关商品和技术的制裁管控,已经成为导致企业生产停滞,威胁生存安全的重大隐患。

  这让越来越多的企业意识到,只有将软件的自主可控掌握在自己手中,才能保障企业的命脉。

  而从政策层面来看,这几年监管顶层设计反复强调推动金融机构加速信息系统的国产替代。

  从 2014 年中国银监会与国家发改委、工信部及科技部发布《关于应用安全可控信息技术加强银行业网络安全和信息化建设的指导意见》,再到 2022 年 1 月中国人民银行印发的《金融科技发展规划(2022-2025 年)》,守住金融数据安全线的紧迫性不断升级。

  在这种背景之下,2020 年,国家宣布了第一批国产化试点金融机构,包括主要的国有大行、头部券商和交易所等,要求国产基础软硬件采购额占其 IT 外采的5%-8%。

  2021 年,国产化进程进一步推进,百余家金融机构被纳入到国产化推广计划中,并要求其国产基础软硬件采购额占其 IT 外采提升至 10%-15%。

  再到 2022 年,国产化推广计划扩容至全行业 5000 余家金融机构,进入全面推广阶段,国产基础软硬件采购额在 IT 外采占比有望提高至 15%-25%。

  这对于国产软硬件厂商来说,是一次全新的机会。根据天风证券估算,预计到 2025 年,金融国产替代的发展规模将突破 3000 亿元。不过各类厂商要想从这个市场中分一杯羹,也没有想象中这边简单。

  从腾讯的案例分享中,我们看到了这些

  思考一:迁移能否平稳、以及带来业务性能的提升?

  对于机构来说,他们所关心的第一个问题是:别出岔子,保证系统平稳迁移。

  上文提到 2022 年 8 月起,腾讯云就在帮助某大型基金公司进行 CDH 大数据平台迁移。为在给定时间内帮助客户平滑迁移,他们将整个项目拆解成为了三个重要阶段:

  第一阶段,业务验证期,先让新平台完成历史数据迁移、数据接入、调度任务配置、业务程序部署等任务,同时老的 CDH 平台持续提供业务服务,进行双跑观察,以备业务切换不成功及时换回到老平台。

  第二阶段,业务切换期,在验证新平台后,将业务系统全面切换到新平台,据了解该项目最先迁移的是营销中台这一业务场景数据。

  第三阶段:业务观察期,检查是否存在应用程序未迁至新平台,并持续观察验证新平台运转情况,只有确保新系统正常运转,才算是正式迁移完成。

  “整个迁移过程压力还是挺大的。”杨文龙对雷峰网表示,一方面时间很紧迫,第二任务也很重。为了保质保量,针对该项目腾讯成立了一个有 20 多名成员的专项小组,开启迁移工作。

  据了解,到今年,项目一期的任务已经完成,营销中台、TA 系统平滑迁移。

  不过,金融机构所期待不仅只是系统平滑迁移,还有新系统是否能在性能上有所提升。

  杨文龙提到客户提需求时,明确要求希望迁移至腾讯云 TBDS 大数据平台后,计算效率能显著提升。

  原来 CDH 大数据平台,只支持T+1 的计算分析能力,也就是说平台会在 12 点之后收集好前一天的数据,然后开足算力对这些数据进行分析,以便运营同事第二天上班能仔细琢磨这个仗怎么打。

  但近几年,互联网金融发展迅猛,购买基金的客户人数开始成倍增加,机构需要快速结合用户画像对应调整推销策略、营销策略等,但有时候用户十分活跃,产生巨量数据,前一天的数据分析结果可能要等到早上 9 点、10 点,这对运营同事来说比较晚了。

  据了解,在迁移腾讯云 TBDS 大数据平台后,数据分析时长需要从原来 6 小时缩短到 3 小时内,营销同事在上班前就可拿到运营数据表,极大提升了营销同事工作效率。

  同时,新一代 TBDS 融合了更高版本的大数据生态组件,除了解决数据迁移难等问题,还具备云原生能力。在数据存储、计算资源上,实现彻底解藕和灵活扩缩容,解决了以往存算一体架构下的调度难题,帮助平台调度提效 10 倍以上。

  未来在降本增效的潮流下,TBDS 也朝着统一存储、统一元数据管理、统一开发工具、统一运维管控的方向演进,降低客户在存储和开发上的资源成本,使用迁移后的 TBDS 大数据平台,预计可以为客户带来 20% 以上的成本优化和资源利用率提升。

  思考二:迁移能否做到尽可能的开放兼容?

  每一次系统的替换背后,除有许多迁移成本之外,还需要考虑新系统变动带来的人员习惯适应等等问题。

  核心系统不比其他的系统,现阶段如果猛然给金融机构用一个全新的系统,对于他们来说是很难接受的。

  就像是一个长期使用安卓手机的人,突然换了一个苹果手机,由于操作系统的不同,短时间内很难适应。

  所以对于腾讯云而言,他们最初思考的问题并不是迁移,而是如何尊重客户的原有使用习惯,积极去弥合系统间的差异,适配客户既存的工具链。

  "我们的目标就是让客户体验到腾讯云在专有云场景落地时候的无侵入感,带给客户丝滑体验。"腾讯专有云应用和系统稳定性负责人张晓宇对雷峰网(公众号:雷峰网)说道。

  2020 年,腾讯云与国有大行展开专有云建设时,前几个月的时间,他们都在专注于不同系统之间的融合问题。

  让张晓宇印象很深刻的一个案例是:当时客户内部有多个云平台,都是使用了 packer 工具统一管理镜像,而实际上腾讯专有云(TCE)有其他通用的解决方案。

  "为了让客户在使用时 TCE 时能够复用原有的工具链,我们用了极短时间实现了 packer 的 tecent-plugin release 版本。这项工作帮助该银行原有系统实现了对 TCE 的集成,感受不到新平台引入带来的使用上的割裂。"

  思考三:迁移如何确保系统长久保持稳定?

  这几年宕机事故常有发生,原因更是五花八门,谷歌云曾因自动化失效导致宕机、AWS 曾因数据中心出现硬件问题导致宕机、微软 Azure 爱尔兰数据中心曾因高温和打雷陷入宕机.......

  这些问题一旦出现,给企业带来的损失和影响是巨大的,尤其是对于金融机构而言,所以确保系统高可用性也是客户在系统迁移过程中思考的重点。

  高可用架构是指系统或应用程序在遇到单点故障时,能够快速自动切换到备份系统或实例,从而保证系统的持续稳定运行。

  衡量一个系统的高可用性,有两个指标,第一是 RPO,当系统出现故障后,数据会不会有所丢失,以及丢失时间有多长;第二是 RTO,即服务是否中断,以及业务停止服务的时间是多长。

  一般而言,银行都要求数据丢失为零,而服务中断时间要控制在分钟级别。

  究竟如何确保银行系统的安全稳定,在这场分享会中,张晓宇重点分享了腾讯云的同城 3AZ 多活方案。

  AZ 则是 Availability Zone 的缩写,指的是数据中心的可用区域。单 AZ 方案指的是系统或应用程序只部署在一个可用区域中,当该可用区域出现故障时,整个系统将会宕机。类比一座房子只有一扇门,一旦门出现问题,就会导致整个房子无法出入。

  而 3AZ 方案指的是系统或应用程序在三个可用区域中部署,当其中一个可用区域出现故障时,系统可以快速自动切换到另一个可用区域。

  类比一座房子有三个出入口,即使其中一个出入口出现问题,仍然可以使用其他两个出入口,这就从而保证系统的持续稳定运行。

  3AZ 方案可以尽可能保证系统运行的稳定性,但落到具体现实情境中,3AZ 方案所消耗的计算资源、网络资源等,综合起来看要比双 AZ 高出 30-40%,而且管理的难度也更大。

  张晓宇也表示,每一种架构应用的背后,不仅要基于技术,还有基于成本、运维周边的配套等等相关一系列因素进行综合考量。

  腾讯云对此给出的方案是具体业务具体分析,关乎交易等核心业务则采用 3AZ 方案,而一些服务级别相对更低一些则会采用介于 3AZ 与双 AZ 之间的方案。

  放大视野,观察全行业,不可否认,从 OA 系统、到非核心业务系统、再到核心业务系统,金融国产替代浪潮已经到来,而这带来的不仅是金融业信息系统的一次解耦,也是整个行业利益重新分配的过程,对原本只能在外企底下抢食的国产软硬件企业,这将是一次全新的机会。

  缩小视野,深入企业内部,又会发现,这场核心系统的变革之旅远远没有想象中那般简单。时间紧迫下,如何保证系统平滑迁移?如何在稳定性要求升级同时,平衡好成本?这些都是诸多参与方需要继续长期探讨的问题。