前言:不可否认,开工这几天,已成为在线办公服务商们的“双十一”,仅钉钉的流量就遭遇了十几倍的暴涨。随着钉钉在2月3日通过阿里云紧急扩容1万台服务器后、4日再度扩容1万台云服务器,其流量大考还将继续。企业微信、腾讯会议、华为云WeLink们都还扛得住么?
契机之下,雷锋网*对话了这些在线办公服务商的技术团队以及背后的云厂商,还原“集体崩溃”后紧急扩容的“疯狂一夜”。
2月3日上午9时许,谁都没有预料到,阿里钉钉、企业微信集体遭遇开工视频即崩溃的消息突然出现,网络上满屏都是使用者的吐槽。
“卡顿?延迟?消息发不出去?不不,这是不应该存在的。”
显然,由于受疫情影响无法正常运转,企业用户对在线办公系统提出了更高的要求。许多人深刻意识到,流量暴增带来的云服务器宕机问题严重性,还是在此前的微博“明星热搜”时代。尽管服务商随后紧急对云服务器进行扩容,但这场上亿人同时协作的流量高峰还是让整个在线办公服务商有些超出预想。
实际上,从正月开始,国内数十家在线办公服务商就已经进行了免费开放、扩容等调整,激发了用户数量和视频并发量的不断上涨,基于PC端、移动端的视频调用服务器性能和稳定性正经受非常大的考验。
如果未来这种紧急时刻的流量暴增成为常态,那云服务器宕机就决不能成为常态。
暴涨的用户量
远程办公有多火?据钉钉透露,开工首日,全国就有上千万企业、近2亿人开启在家办公模式,“跟双11之于平时差不多,暴涨十几倍”。据了解,钉钉将免费视频会议全量升级至302方免费。
这一天,企业微信平台上也同时涌入了数百万企业,是去年同期的3倍,数千万用户使用企业微信远程办公,同时几十万场会议在企业微信召开。
这种势头也带动了年前刚开放的华为云WeLink。数据显示,2月3日,新开户企业数1.7万,日环比增加13%,基于WeLink日会场次12万次,日环比增长50%。
金山办公旗下WPS+也免费提供了远程办公及音频会议服务,从正月初一开始用户就开始快速增长。“截止目前,金山文档的协作用户增长超过400%,表单、会议等场景化服务增长超过15倍,企业用户入住增长超过300%。”
而小鱼易连也承诺直到疫情结束,将免费开放100方的实时在线会议服务。
城云云际则另辟蹊径,在开工前两天,使用抖音快手微视推送免费开放100方云视频会议消息,导致了用户使用量激增。“2月3日当天,数千会议同时召开,万级的参会者使用云际会议开会,这给原来我们以视频会议室为主的模式带来较大挑战。”
视频美颜需求过旺,2天扩容2万台云服务器
简单来说,开工*天,钉钉遇到了相当于微博上3个明星同时官宣恋情的流量。
尽管提前有所准备,但还是有点始料未及。3号当天早上9点的流量确实有点超出想象,但在紧急调整之后,就稳定下来了。
预案,其实是一切按计划在走。紧接着当天中午时分,阿里云放出消息,2小时内紧急扩容1万台服务器。
但这并不意味着钉钉后台的压力就完全没有了,相反,一场大考才刚刚拉开帷幕。
4日,钉钉再度通过阿里云扩容1万台云服务器,以应对群直播和语音视频会议的流量洪峰,原来,能够坚持洗头、洗脸、化妆的人数较少,导致视频会议美颜功能需求激增。
扩容是按每天的用量来预估的,现在每天都是暴涨流量,要根据每天增长的情况进行扩容;对阿里云来说,扩1万台和扩2万台,用的时间是一样的。
如今,钉钉和阿里云成立专项团队,24小时轮班倒,全力保障平台稳定。
从正月初一就开始扩容,从几十到几百倍
如果说此前远程办公只是企业办公的一项充分条件,那么疫情期间的远程协作已经成为一种用户刚需。以云服务本身弹性伸缩能力为支撑,才得以保障高峰突发需求的满足。
在延长假期的政策确定后,我们就做了紧急预备方案,但*天返工高峰期的峰值还是有些超出预期。针对开工当天的突发状况,我们在半个小时内做出了紧急修复。
用户远程办公需求很大,并发量进入一个很高的量级,扩容是每天都在做的事情。从正月初一开始,企业微信就一直持续从几十倍到几百倍的扩容。
为了满足高并发以支撑用户需求,腾讯云团队提出了两个策略:一是在加入、发起会议重要节点保证用户核心需求,在其他用户使用频率不是很高的功能上灵活变化;二是就近接入,分发到边缘节点,用户可就近获得视频资源。
现如今,团队每天晚上都要改代码,进行产品灰度发布和压力测试,以满足第二天用户开会的需求。
除了企业微信、腾讯会议,腾讯还提供了像文档、思维导图、代码存储库、云盘等工具,疫情下的用户可能更为集中、流量更为庞大。
在资源不够时,乐享可随时调用腾讯云的资源,腾讯乐享技术负责人李立博表示。腾讯TAPD技术负责人杨晓俊则指出,在腾讯云TKE容器弹性伸缩、动态带宽、COS存储自动扩容的能力上,TAPD还对TDSQL、Redis、Socket等服务进行了扩容。
华为云WeLink
整体功能正常,并未出现崩溃
我们预测到由于在家办公的场景下会导致业务量大幅度增加,但实事求是的讲,现在的增长速度超出了我们的预期。
业务同样也遇到了浪涌时的拥塞情况,但整体功能正常,并未出现崩溃的问题。核心在于云计算本身的弹性伸缩能力和WeLink分布式的服务架构,得以经受住浪涌业务量的压力。
广东省委书记李希在东莞调研疫情与医生用WeLink视频会议截图
现在,华为云WeLink可支持*1000方同时视频会议接入。
金山云/WPS+
准备了近一倍的冗余都不够用
值得一提的是,金山WPS+的云办公系统底层资源由金山云提供,主要支持远程和协同办公过程中涉及的海量文件存储和分发。
1月26日(正月初二)WPS+表单服务出现了短暂的反应慢,大概持续了45分钟。主要原因是我们没有预计到过年期间还会有这么高增长,准备了近一倍的冗余都不够用。事发后,团队紧急申请扩容。
期间,北京各机房因疫情面临封网,人员进出受控,金山云连夜紧急安排线上存量资源调度,整合北京、上海、广州各地的BGP带宽资源。同时迁移整合线上计算资源,以满足远程办公的业务突发和弹性扩容需求,支持海量文件存储和分发。金山云可一小时内完成扩容,其背后*的挑战是并发处理能力。
从这起事件可以看出,正是因为提前适应了用户激增带来的问题,反而让金山云在2月3日开工当天并未出现太大问题。
小鱼易连、城云云际
新老客户如何两手抓?
尽管多数服务商技术团队对疫情影响下远程办公业务量的增长有所预感,但与现实情况相比,还是有些措手不及。
开工上午,曾有用户反馈小鱼易连暂时不能正常运行,可能与免费带来的访问量激增有关。针对当天呼叫量数十倍的增长,我们采取了限流措施,优先保障付费用户群体使用。小鱼易连CEO袁文辉解释。
除了紧急扩容、协调数据中心与运营商带宽资源外,城云云际还对用户激增问题进行了强制维护。
温州医科大学及其附属医院使用城云云际会议视频
城云云际提前在两个数据中心进行扩容,对老客户与新增客户正常使用进行保障———我们先后做了两项重要工作:一是为新用户制作了快速入会的短视频指南;二是在紧急扩容的同时,也在引导部分企业客户使用电话、语音会议等功能。
2
流量激增背后
整体来看,其实在全国多数企业复工之前,视频会议的调用量就已经开始上升,尤其以政企疫情工作和在线教育场景最为突出。
“最早在疫情开始后,各级政府、医院、卫计委等机关单位,需要一个系统能将各地医院连接起来,用于疫情的管控部署”,小鱼易连告诉雷锋网,“但从正月初一开始,用户量就开始每天翻倍。尤其是教育,用我们的产品做互动教学,特别是针对初高三的学生,这其实是第二波用户。”
值得一提的是,早在钉钉对外开放在线直播课堂时,就曾有用户调侃:“就等大家在钉钉群里直播上课,以后把钉钉都搞崩。”不难看出,前后多重用户访问量的叠加冲击,才是最终引爆视频卡顿问题的关键。
针对疫情期间用户比较集中的场景上,华为云WeLink也从自身角度进行了说明:
“一是政府及卫生主管部门疫情工作布置、信息收集、上传下达,陆续有各地政府部门专门下文使用视频会议进行工作布置和工作协同。
二是医疗卫生单位,针对当前非发热病人尽量不去医院就诊情况,开展远程诊疗、家庭病房关怀、医院住院病患进行远程探视等。
三是学校,针对学生进行健康打卡、在线学习、知识推送等,停课不停学。
四是大企业,利用*支持1000方并发会议接入进行工作布置,人虽然不能在一起,但企业还要做好应对后续业务开展的准备。”
例如,钉钉为甘肃疫情联防联控进行部署,企业微信提供的在线问诊、在线教育群直播服务,城云云际为浙江大学、温州医科大学提供视频会议系统。
这或许也是当前在线办公企业在提供视频会议服务时所面临的共同考量。采访中,类似的说法被不同的服务商或多或少地提及。
线上能否成为未来企业办公的主流方式?疫情终会过去,在线办公市场最终会迎来什么样的变化?其实,经历了紧急扩容的疯狂一夜,云作为底层资源的重要性被更加凸显出来,基于云的在线办公正打开行业的新局面。你心中,谁又将是这场赛跑的获胜者?