沉淀三年,腾讯自研游戏上云进程如何?

桂志伟

桂志伟

· 2022.06.22

用自研游戏,趟出一套上云方法论

作为互联网领域一大热门行业,游戏在随着时代的诸多变化而不断演进。

与之相伴的是,这两年游戏行业鼎盛上行,各大游戏平台峰值不断上涨。伽马数据《2022年1—3月游戏产业报告》显示,2022年一季度中国游戏市场实际销售收入794.74亿元,环比增长10.08%,同比增长3.17%。

其中,不乏《王者荣耀》《原神》《和平精英》《梦幻西游》等成功的国产自研产品。

在笔者看来,这些游戏之所以为全球玩家所喜爱,除了产品自身的可玩性、品质,更重要的是底层技术足够强大。

在众多趋势中,游戏上云的出现与进阶,为玩家们带来了更为流畅、舒适的多维场景体验。同时,也为行业提供了新的发展方向。

上云,游戏行业趋势之一

很多人初次接触电子游戏,基本得追溯到上个世纪90年代的小霸王。

当时常见的骚操作,朝游戏卡带吐口水,然后擦一擦。这好比在10年代的玩家圈,笔记本、手机散热器盛行。而前几年大家还频频讨论的卡顿、延迟、画质等游戏痛点,似乎也正逐渐被技术洪流所湮灭。

自2015年上线以来,《王者荣耀》已然成为一款国民级游戏。

竞技游戏强调的PVP属性,是玩家们热衷于MOBA手游的核心因素。在对局中,玩家需要实时知道彼此的位置和操作,更重要的是技能释放是否丝滑,战斗交互是否流畅,这将直接影响玩家的游戏体验,也意味着该类型游戏对网络延迟要求非常高。

有趣的是,很多玩家只是感觉到游戏操作起来比前几年更流畅,却少有人发现游戏右上角的ping值悄悄降低了一半。而这正是《王者荣耀》上云带来的变化。

2019年《王者荣耀》开启上云,并于当年9月完成业务的全面上云。由于云服务器资源可以弹性伸缩、就近接入,让游戏在网络稳定性上得到跨越式提升。据悉,以深圳地区为例,上云后,《王者荣耀》玩家的网络延迟在原基础上下降了约60%。

放眼近几年,主流的MMORPG、MOBA和FPS,例如《原神》《天涯明月刀》手游(以下简称:天刀手游)《王者荣耀》《和平精英》等游戏,都尽可能选择跑在云服务器上。

当然,我们只是看到腾讯、网易等传统巨头,米哈游、莉莉丝等新势力,旗下游戏研发和运维业务逐渐转向“云端”。那有关“游戏为什么上云”、“游戏上云有何好处以及难点”,大多数人应该是囫囵半片。

游戏属于一种较强运营性质的应用,尤其是在很多节点的时候,需要合理调配计算资源。

在传统IDC模式下,每当遇到游戏节点,需要游戏公司提前准备大量服务器。在这一过程中,资源准备、调整以及上架需要时间、人力、资金成本,难免会因为资源冗余或短缺,造成浪费或运营事故。

腾讯游戏技术运营部负责人刘栖铜认为,“云”有着资源快速伸缩的特性。一方面,它可以按需扩充、收缩游戏服务器等资源,避免造成资源浪费,从而节省业务成本。另一方面,遇到游戏节点,传统IDC模式下一般需要用四到八周甚至更长时间来囤服务器。在云上,则可以分钟级地获得资源。

“当然,(需要)特大量级资源时,团队也需要跟腾讯云提前沟通,提前准备一些。”他坦诚说到。

此外,据笔者了解,之前腾讯游戏团队每年大概有几个月,都会忙于业务IDC裁撤搬迁工作。在此期间,游戏不得不停服。而上云以后,得益于通过底层弹性资源调度,将不会再对业务造成太大影响。

上云也提高了服务器的可用性,降低了故障率。在IDC时期,物理服务器一旦宕机,将耗费一定的时间来恢复系统,而业务上云后,即使某台服务器出了问题,也可以通过容器漂移技术,将业务转移到另一台正常的服务器上,极大地优化了运维工作。

总的来说,除了能更好地解决延时、卡顿、渲染等用户体验痛点,以及更有效地防御DDoS、CC攻击等安全问题。游戏上云对于腾讯等企业而言,还存在“降本增效”这一肉见可见的价值。

或正是基于此,眼下上云成为了游戏行业重要趋势之一。

自研跋涉,三年趟出游戏上云康庄路

行业趋势的形成,往往都需要一定时间来沉淀、发酵。

庞大如腾讯,从1998年成立至今,已然走过近24个春秋。面临复杂多变的市场环境,唯有“善谋”、“善变”,才能历久弥新。

2018年9月30日,腾讯完成了自成立以来的第三次重大组织架构调整,史称“930变革”。当时腾讯除了成立事业群外,还有个重要举措是成立技术委员会,大力推进自研上云和开源协同。

其旨在打破过去各事业群技术栈割裂、重复造轮子的问题,力图建立新的云上基础设施,为新的业务创新提供支撑。三年多时间,腾讯技术团队摸索出了一套符合自身特性的上云和协同之路。

2022年6月,腾讯完成自研业务全面上云,微信、视频号、腾讯会议、腾讯文档、《王者荣耀》、《和平精英》、《天刀》手游等明星业务已经跑在云上。

坦白说,作为一家在游戏行业举足轻重的企业,腾讯游戏上云的重要性毋庸赘述。

但为山九仞,并非一日之功。尤其对于腾讯而言,自研上云无异于大船换引擎,再加上游戏的底层架构逻辑本身就较为复杂,这场自上而下的改革,高度考验着游戏团队与云团队的配合。

据了解,其实在腾讯自研游戏上云过程中,游戏业务团队与腾讯云之间,经历了信任的磨合挑战。

2020年10月16日,《天刀手游》不删档上线,这款游戏自研发之初就跑在云上。起初手游运行平稳、风平浪静,但随着玩家数量增加和等级成长,上线后不久,卡顿、掉线、奖励不到账等成为了被玩家反馈的热门问题。而在腾讯内网KM上,一封匿名吐槽帖更是不留情面,内容直指云服务器性能问题。

后经调查发现,因为该作火爆程度超过预期,以及MMORPG游戏的玩家聚集特色,导致在服务器的选型上没有选到最优方案,即高主频的计算型云服务器。应将天刀手游部署的云服务器,从标准型提升为计算型云服务器。

为此,腾讯云团队紧急、分批采购协调资源,将天刀的机器进行了分批动态迁移。从本次经历中吸取经验,在后续服务其他业务部门时避免出现此类问题。

与《天刀手游》的情况类似,2022年春节期间,为应对高并发的压力,《和平精英》业务团队引入了一批新机型。尽管也遵循了前期测试流程,但还是出现了少量服务器宕机的情况。后经定位排查,发现是操作系统与机型的适配问题,随后,腾讯云团队迅速调度了一批资源,让业务团队替换了这批机器,才消除了问题。

可以说,腾讯自研游戏上云的过程中,经历过多次试炼,最终都得到了即时解决。但也正得益于这种种经历,腾讯游戏业务团队与腾讯云团队,也从信任挑战转变为携手共进。

与此同时,从结果上来看,完成上云后,对游戏业务也产生了实际价值。

降本上,《王者荣耀》和《和平精英》上云优先选择了南京、重庆、天津这些大园区,服务器带宽成本相比其它机房下降了30%至50%。

增效侧,产品上云后,运维人员的工作重心可以从持续部署(CD)环节,转向持续集成(CI)环节。简单来说,运维人员不用再花大量时间去做代码的线上部署,而是有更多精力去挖掘业务的附加值,例如去做玩家体验数据分析等。

硬实力方面,除了云服务器的弹性扩容能力,其单核性能也比IDC时期提高了30%-40%,单台服务器从服务数千名玩家提升至上万名;云服务器CVM挂载云硬盘CBS所实现的“热迁移”功能,带来了更强的容灾能力,即使有服务器发生故障,也能在玩家无感知的情况下将故障消除。

此外,云服务器的弹性扩容能力,可以在突发情况下,快捷提供批量的资源应急,保证正常游戏;云服务的资源部署在各个城市,可以使用就近节点,提升网络的稳定性。

言而总之,这些都极大的提升了腾讯游戏业务能力。

站在眼下的角度,可以说三年前的“930变革”为腾讯游戏业务带了新生。游戏上云后,在多个维度产生了积极效益,企业层,降本增效;业务层,服务器和网络更稳定;用户层,玩家获取到更佳的游戏体验。

云原生,游戏上云的下一站

 

在腾讯自研上云的过程中,让业务跑在云服务器上只是第一步,要实现真正的“上云”,需要完成第二步,即拥抱云原生技术。

云原生技术是一套以容器化和微服务为核心的技术体系,不仅能实现弹性扩缩容,其架构也能更好地适应云上的环境,大幅提升资源利用率和灵活性。

但对游戏来说,要实现云原生化的难度并不小。

与电商之类的工具型App不同,游戏属于一种内容性质的服务,在行业内没有统一的架构。每个游戏的研发团队都是按各自理解去设计游戏架构,没有统一标准,这使得微服务化改造的工作量异常巨大。

另外,像《王者荣耀》、《和平精英》这种拥有海量用户的游戏,上云过程中绝不能对用户体验造成影响,因而在做云原生改造时需要更加谨慎。

尽管难度很大,腾讯游戏拥抱云原生技术的决心仍然可鉴。刘栖铜观察到,随着云原生思潮越来越猛烈,很多行业内的技术人员也受到影响。“许多游戏开发会主动要求引入微服务技术做云原生化的改造,我们觉得这个潮流已经推行起来了。”

事实上,在过去的经验积累中,腾讯游戏的许多业务团队已经自行开发了多种工具来解决资源调度、可用性、扩缩容等问题,不过,云原生架构里的容器技术,可以使这种能力更强。

据刘栖铜介绍:“云原生架构里基于容器的快速扩缩容,是以分钟级、秒级来实现的,以前我们做也只能以十分钟为单位。”

从2020年下半年开始,腾讯游戏共有十多款产品陆续推动云原生改造,转向微服务架构,甚至在内部培养了一个云原生技术的运维团队,专门和研发人员一起研究业务架构,规划哪些模块适合做微服务改造,以此加速云原生的进程。

更值得注意的是,腾讯游戏在上云实践中积累的各种经验,也为游戏出海提供了强大的支持。

游戏出海一直是中国各大游戏厂商近年来的布局重点。Sensor Tower数据显示,2021年共42款中国手游在海外市场的收入超过1亿美元,在2020年的基础上增加了5款。 出海收入TOP30手游产品在App Store和Google Play的总收入达到115亿美元,较2020年92.4亿美元增长24%。

腾讯也不例外,旗下《Arena of Valor》、《PUBG MOBILE》等游戏,在海外游戏榜单上一直名列前茅。

这些产品刚推出时用户激增,在海外对云服务器的需求量比较大,常面临资源短缺的情况,最终都是在腾讯云的快速响应与技术支持下解决了问题。

腾讯互娱国际(IEGG)的海外游戏业务目前已全部跑在云上,大部分游戏还是采用传统架构为主,但后续会加大云原生的比重。旗下游戏工作室在开发新作品时,也会优先考虑云原生的方式。

游戏的下一站会是哪?云原生或许是目标地之一。

本文系作者桂志伟授权竞核发表,并经竞核编辑,转载请注明出处、作者和本文链接
想和千万竞核用户分享你的新奇观点和发现,点击这里投稿

注册邮箱未验证

我们已向下方邮箱发送了验证邮件,请查收并按提示验证您的邮箱。

如果您没有收到邮件,请留意垃圾邮件箱。

更换邮箱

您当前使用的邮箱可能无法接收验证邮件,建议您更换邮箱

账号合并

经检测,你是“竞核”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。