点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

首页> 科技频道> 综合新闻 > 正文

用云计算应对“突变”

来源:《中国科学报》2020-02-13 10:05

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  增加服务器数量配合更强大的软件是最直接的增强系统能力的方式,但服务器及其运维价格不菲,增加企业成本。如果按照满足突变型峰值业务在峰值期间,来准备服务器资源,“闲时”则会造成巨大的资源闲置和浪费。

  2019年12月以来,突发的新冠肺炎疫情引起公众关注。随着发病人数持续上升,各大社交平台也忙碌异常,与疫情相关的词条、帖子等搜索浏览量急剧攀升,各大运营商的服务器压力巨大。面对“压力”,上海交通大学(以下简称上海交大)计算机科学与技术系教授过敏意很淡定。

  “目前我们的技术完全能满足受众需要,‘服务器不够用’这种情况很难发生。”过敏意说。

  过敏意口中的技术就是日前在国家科学技术奖励大会上获得国家技术发明奖二等奖的“面对突变型峰值服务的云计算关键技术与系统”项目。该项目由上海交大与阿里云共同合作,历时十余年,研发出支持突变型峰值服务的云计算系统SPS,可以支持暴增的流量服务需要。

  流量如洪

  2005年,当时在日本会津大学从事并行与分布计算研究的过敏意十分彷徨,5年来他一头扎进云计算基础研究,但也深知应用才是检验成果的金标准。当时,他预感中国有广阔的云计算应用空间。

  为了近距离参与国内“计算”事业,2006年,过敏意离开舒适圈,来到上海交大计算机系。

  时间很快印证了过敏意的想法。2009年,阿里巴巴计划推出天猫“双十一”活动。该活动必然使大量流量集中流入,造成突变型峰值,这将导致用户请求响应慢、系统崩溃等问题。

  阿里云智能事业群基础产品事业部工程师丁海洋介绍,增加服务器数量配合更强大的软件是最直接的增强系统能力的方式,但服务器及其运维价格不菲,增加企业成本。如果按照满足突变型峰值业务需求在峰值期间,如“双十一”当晚来准备服务器资源,“双十一”之外的“闲时”则会造成巨大的资源闲置和浪费。

  “因此,我们必须想办法提高数据中心单位服务器资源的使用效率,让同样规模的服务器做更多的事。”丁海洋说。

  因此,对于IT企业来说使用的服务器数量是一项顶级的商业机密。

  向“云”要答案

  突变型峰值常见于“春运抢票”“春晚”“双十一”等场景。尽管这些场景在十年前非常少,但这一难题还是引起国内外诸多研究团队关注。

  如何不依靠服务器提高数据处理能力?过敏意将目标锁定在“云”上。

  “云计算具有极大的灵活性,它的弹性计算能力可以大大降低企业的运行成本。云计算也是今后几十年企业的使能性技术,是发展趋势。”过敏意说。

  但面对网络流量洪峰,传统云计算技术并不能应付,并呈现出云中低算力节点负载高,调度不均衡;存储设备扩展故障剧增,恢复不迅速;服务镜像仓库网络拥塞,分发不及时;专家经验演进和查询慢,分析不智能等四大问题。

  事实上,不只过敏意,很多研究团队都将解决办法聚焦在“云”上,但进展缓慢。

  过敏意并没有打退堂鼓,相反他带领团队将云计算面临的问题一一列出,并选出其中最艰难的问题,即强实时、高吞吐、快扩展、高鲁棒性,作为攻关目标。

  此后的十余年里,过敏意往返于上海交大和杭州阿里巴巴总部之间,在应用中试验研究成果,与阿里巴巴的工程师们探讨解决办法。

  “过敏意几乎每周都要来杭州一次,他所在的团队也有长期驻阿里巴巴进行研究的成员。”阿里云智能事业群战略与合作部工程师邵海涛说。

  把“最要命”的系统放在云上

  功夫不负有心人。历时十余年,这项产学研的合作研究成效初现。在2019年天猫“双十一”活动中,阿里巴巴核心系统100%上云,订单创建峰值达到54.4万笔/秒,是2009年第一次“双十一”的1360倍。

  这些核心突破很多源于该项目的核心技术,如突变峰值用户请求快速处理技术、基于存储阵列的数据高可靠吞吐技术、基于容器和混合部署的高效资源整合技术和基于内存数据分析的服务质量保证技术。

  “快速处理技术”“高可靠吞吐技术” 满足了用户对低时延、高可靠的要求,实现了天猫“双十一”2019年54.4万单/秒的请求处理需求,将峰值时用户请求尾时延从分钟级降低至百毫秒级。“也就是说,用户发出搜索指定商品、查库存、总价计算等指令的响应速度大大加快。”丁海洋说。

  最让研究人员自豪的是“容器和混部技术”,过敏意戏称这项技术为“杀手锏”,大大提高了资源使用效率。究其秘诀,过敏意介绍,这项技术具有“统筹头脑”,能将相同/相似需求合并处理,也能识别任务的轻重缓急,优先处理对时效要求高的任务。

  “尽管有轻重缓急之分,但这项技术并不会降低用户体验,用户需求会在第一时间得到满足。”邵海涛说,“此外,‘质量保证技术’也为服务质量加了把放心锁。”

  一般千台服务器同时运行的情况下,每天1~2台出现问题比较常见。一种情况是,服务器直接宕机或因其它原因停止服务,系统具有自动恢复能力,用户无法感知。还有更多的情况是,服务器本身的问题并不显著,但的确降低了运行其上软件的服务质量,像是在“偷懒”。

  “由于服务器规模太大、分布式系统本身的复杂性,在极端情况下,用户反馈问题后,工作人员才能剥茧抽丝般找到“偷懒”的服务器,但此时服务质量已经受到影响。”丁海洋说。

  为了保证服务质量,研究人员研发出预先识别“偷懒”的服务器、引导负载使用其他正常运行的服务器的技术。

  阿里云智能事业群总裁张建锋表示,2019年“双十一”,阿里巴巴把“最要命”的系统全都放在云上。“双十一”开始后十分钟,基本上消费者没有感受到任何抖动,购物非常顺畅。这是因为阿里在核心虚拟机系统、数据库、计算与存储、RDMA网络等四个方面做了核心突破。

  科研有望上“云”

  SPS系统实现了云计算基础软件国外产品的替代,推动了核心软件的国产化。过敏意介绍说,该成果除了保障天猫“双十一”活动顺利进行,还应用于国家电网、中国联通、新浪微博、中国邮政、优酷视频、饿了么、卫宁健康等30余家企事业单位。

  邵海涛表示,随着新冠肺炎疫情的发展,该技术的应用场景进一步拓展。目前居家办公的用户越来越多,以钉钉打卡为代表的远程办公软件也面临突变型峰值需求场景。该技术能够保障远程办公系统的正常运行。

  疫情当前,医药界科研人员的研发任务吃紧,计算资源巨大。“科研运算往往借助大型计算设备进行,但国内这样的设备有限,很难满足洪水般的运算需求,借助云计算解决科研数据处理的难题不失为一种解决办法。”邵海涛提出。

  事实上,该项目的研究工作仍在继续。谈及后续的研究计划,过敏意表示,随着5G时代的来临,客户端的数据处理能力增强、数据交换更频繁,这套系统如何增强边缘计算的能力,如何支持和响应客户端需求,是团队接下来的研究方向。(记者 卜叶)

[ 责编:张佳兴 ]
阅读剩余全文(

相关阅读

您此时的心情

新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 外防输入、内防扩散、精准复工复产

  • [时代楷模]海军"和平方舟"号医院船

独家策划

推荐阅读
日前,天津大学张雷教授团队成功开发出新型蚕丝,使天然蚕丝具备优异抗菌性能,有望在生物医疗领域发挥重要应用价值。天津大学张雷教授团队用一系列不同粒径的纳米银颗粒喂食家蚕,研究纳米银颗粒在家蚕不同器官中的分布、积累情况。
2020-02-26 09:25
记者近日从香港城市大学获悉,由该校学者领导的研究团队,成功研发出一款新型液滴式发电机。“我们的研究显示,一滴100微升的水滴由15厘米的高度滴下,可产生超过140伏特电压,发电机产生的电能足以点亮100盏小LED灯。
2020-02-26 09:24
记者在采访中了解到,青海回答研究管护生态的必答题时,运用的仍然是科技利器及创新成果落地应用。今日青海,一系列行之有效的举措全面推进,青海正用实际行动留住蓝天绿水和青山,用科技成果夯实百姓幸福的基石。
2020-02-26 09:24
新冠肺炎疫情发生以来,关于核酸检测假阴性率过高的话题,一直是各方关注的焦点。中华医学会检验医学分会发布的《新型冠状病毒肺炎病毒核酸检测专家共识》中,明确指出需将样品56℃孵育至少45分钟或更高温度进行灭活。
2020-02-26 09:26
此次新冠肺炎疫情下,高新区组织、引导各类企业发挥所长,以新技术、新产品、新模式为疫情防控阻击战贡献高新力量。疫情当前,国家高新区各类主体各施所长,在全国抗疫阻击战中持续贡献高新力量。
2020-02-26 09:26
利用这张叠加图像,研究人员计算了他们所能看到所有星系的总亮度,进而测量有多少正常物质构成了LRG之间的细丝,从而通过总光度推算常规物质的总质量。科学家们还报告了一个惊人的观测结果:这些细丝并不是完全黑暗的,每351个太阳质量的细丝,就有1个太阳的光度输出。
2020-02-26 09:23
近期,NASA参与的一项研究进一步勾勒出“太空雪人”Arrokoth的地质信息,表明其具有较为光滑的表面和复杂的地质特征,尚未发现水的存在。“太空雪人”是迄今为止人类造访过的最远天体,它位于太阳系边缘柯伊伯带上,代号为“2014 MU6”。
2020-02-26 09:23
近日,“搜寻地外智慧生命项目”(SETI)研究人员发布了过去4年积累的光学和射电数据,详尽描述了对银河系平面及银河系中心黑洞附近区域射电情况的研究,数据量高达约2PB。迄今为止,“突破聆听”计划是执行范围最广的SETI计划,此次公布的数据便是该计划的观测成果之一。
2020-02-26 09:22
1995年,“伽利略号”探测器发现,如果以氧和氢分子的存在为基准估计水含量的话,木星与太阳相比可能更干燥一些。与其前辈“伽利略号”相比,“朱诺号”所携带的测量仪器更加精准,能从轨道高处收集到木星大气层更深处的数据。
2020-02-26 09:21
SO是欧洲航天局和美国国家航空航天局联合研制的太阳探测器,承担了继帕克太阳探测器后,人类对内层太阳系的又一次探测任务。太阳风是从太阳表面吹出来的高速等离子体流,或者说是高速带电粒子流,它们在磁场的引导下向外运动。
2020-02-26 09:21
韦斯皮尼亚尼开发了该流行病的预测模型,并对IEEE讲述了为制止全球流行而进行的计算工作。团队开发的“EpiRisk”工具,其建模方法是使用所有可能的数据源,专注于来自中国和附近国家的监视数据。
2020-02-26 09:17
霍雄24日对美国趣味科学网站表示:“鲑居尾孢虫失去了组织、神经细胞、肌肉等,现在我们发现,它也失去了呼吸能力。”  霍雄介绍说,鲑居尾孢虫看起来像一系列单细胞斑点,只有其孢子才显示出一点复杂性。
2020-02-26 09:17
英国《自然·微生物学》杂志25日发表的一篇病毒学论文,报道了一种快速筛查冠状病毒的方法,并检测病毒感染不同物种细胞的能力,研究人员已用新型冠状病毒测试了这种方法。而所有冠状病毒都会编码一种表面蛋白,也称棘突,这个蛋白会与一个细胞受体相结合,介导病毒进入细胞。
2020-02-26 09:16
日本熊本大学的研究小组发现了控制形成卵子和精子所需染色体减数分裂的基因,将其命名为“MEIOSIN”。形成卵子和精子时引起减数分裂的详细机制一直不清楚,该成果有望推动不孕不育治疗等生殖医学的发展。
2020-02-26 09:16
此次,美国加州大学洛杉矶分校研究人员拉斯·斯特里克斯路德和同事进行了一系列模拟,对条件近似早期地球基底岩浆海洋的硅酸盐液体的导电率进行了预测。研究团队的结论是,早期磁场是由基底岩浆海洋产生的,并认为宇宙中其他类地天体可能也存在硅酸盐“发电机”。
2020-02-26 09:15
2020年开局,新冠肺炎疫情给人民生命安全和经济社会发展带来严峻考验。“打仗打后勤”,各地援助的医疗、生活物资,借助北斗,能够以最佳线路快速安全地运抵最需要的疫区和人民手中。
2020-02-26 09:13
全面禁止食用野生动物都有哪些规定?哪些动物不属于全面禁食野生动物范围?带你一图读懂。
2020-02-26 09:08
这个冬天,每个人都在与疫情搏斗的战场上或许有孤独、恐慌与悲伤但生活总是要继续只要你愿意往前一步,阳光就会照在你身上疫情面前,这些灿烂的笑容告诉你我乐观、向上,春天就在不远的地方。
2020-02-25 17:03
中国医生们在流感季迅速识别出新冠病毒,并通过全球科研网络与国际同行共享新冠病毒基因组测序信息等,这为后续科研工作奠定了基础,有助于加速开发针对新冠病毒的疫苗和药物。
2020-02-25 13:30
24日,英国《自然·气候变化》杂志发表权威性时评,以多篇有关澳大利亚林火的评论文章、通讯文章以及社论的形式,共同探讨了此次火灾的影响和相关的全球响应。这次大火的异常程度,使许多人将澳大利亚称为气候变化的“零地带”,从而激发了对澳大利亚及此类国家加强减灾工作的需求。
2020-02-25 09:39
加载更多