正在阅读: 在小指尖上舞动“大数据”

在小指尖上舞动“大数据”

2018-10-08 10:19来源:人民日报

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  张栋栋在演示算法。

  即使事先知道要拍照,她的穿着还是出人意料的简单:白T恤、黑裙子,当然还少不了带隔层的双肩包来保护笔记本电脑——好像随时都能拿出来写上几行代码。

  她的双肩包像个“百宝箱”,里面除了装着电脑,还备着各式接口的数据传输线,几乎能连接这间小会议室里的所有设备

  新产品上线前的那几次测试,总是会发现一些意想不到的漏洞,需要连夜排除,大家往往会经历几个不眠之夜

  张栋栋觉得自己骨子里是个“技术流”,喜欢跟机器打交道,遇到问题也爱“用技术说话”

  在北京,“西二旗”是人流量最大的地铁站之一。离此不远的中关村软件园内,互联网公司和高科技企业林立。在网上,“西二旗人”很容易被贴上标签,“码农”是最常见的说法。程序、算法、迭代、优化……有人说,程序员的生活单调到只有睡眠和工作,就像代码里的0和1。

  1992年出生的张栋栋却不认同这些看法。她是曙光信息产业股份有限公司大数据及创新事业部的研究人员,也是一位工作在“西二旗”的人工智能算法工程师,主要从事超大规模视频智能分析引擎开发和算法优化工作。“90后”“女性”“程序员”,这些不同的特质会在她的身上碰撞出怎样的火花?记者日前来到位于中关村软件园的曙光信息产业股份有限公司,体验“90后”人工智能算法工程师张栋栋的一天。

  边介绍边演示,桌上这台配置不错的笔记本电脑也有些跟不上她的节奏,系统时不时会有些卡顿

  即使事先知道要拍照,张栋栋今天的穿着还是出人意料的简单:白T恤、黑裙子,当然还少不了带隔层的双肩包来保护笔记本电脑——好像随时都能拿出来写上几行代码。

  来到偌大的办公平台时,已是上午10点,张栋栋工位周围的同事还不多。“一些人在出差,一些人在开会,一些人可能刚下班。”张栋栋说。为了不影响在工位上工作的同事,我们决定将体验地点换到一间小会议室。楼里的小会议室出奇的多,每间可以容纳五六个人,白板上留着反复擦写后的记号笔痕迹,仿佛能重现一场场热烈的讨论。

  张栋栋的工作跟我们经常能见到的“电子眼”相关。这些分布于各个角落的“电子眼”一直默默地守护着人们的安全,可是它们是如何在茫茫人海中快速、准确地锁定目标的?又怎样将数量庞大、响应迟缓、内容大多没有应用价值的监控视频变为更易查找、能被深度挖掘的高密度数据?在它们的背后,离不开一整套视频智能分析系统的支持。

  为了帮助我这个门外汉快速理解,张栋栋将自己上周的工作进行了一场“情景还原”。“狭义上来说,人工智能也是一种算法,要靠数据来不断优化,大量的数据往往包含很多冗余甚至无用的信息,这时就需要数据清洗与整合。”张栋栋指着屏幕说。刚见面还有些腼腆的她,讲起技术来似乎一下子放开了,“拿这组人脸图片来说,每张都有标签,标签分很多列,分别标注着所属人的编号、性别、年龄等特征信息,当然其中每个人也可能有多张图片。”

  “接下来要进行的是数据的可视化操作,一是为查看图片质量,二是为获得一个统计学上的数据描述,这时候就会发现一些‘噪音’(指对数据的干扰和影响)。”张栋栋举例说,“比如一张图片里可能有多个人脸或者没有人脸,属于同一个人的不同图像却发现根本不是一个人,或者同样的图片发现存了两遍等等——系统录入时的误操作会导致这些情况的发生。要保证机器能够学习到高质量的数据,就要把这些数据存在的问题罗列出来,再根据不同的问题找到数据清洗的方法。数据清洗是一个很重要的过程,虽然耗费时间,但关系到后续模型的准确率。”

  边介绍边演示,桌上这台配置不错的笔记本电脑也有些跟不上她的节奏,系统时不时会有些卡顿,一直尝试理清思路的我也是一样。为了看起来方便,张栋栋连上了墙上的电子屏幕。这时我发现,她的双肩包像个“百宝箱”,里面除了装着电脑,还备着各式接口的数据传输线,几乎能连接这间小会议室里的所有设备。

  键盘起起落落,一行行的代码便落在了屏幕上,远程服务器上记录着她每一次的灵光乍现

  清洗完数据,接下来还要对数据进行前期预处理,包括从图片中截取人脸、把分散的数据集中到同一个大文件中,这些工作都是在为后续的模型训练做准备。张栋栋说:“人工智能对算力有很高的要求,原始数据体量大,处理过程就会耗用很多的CPU(中央处理器)资源,处理时间也比较长。后面训练时,如果数据量太大,我们还会用到分布式并行训练的方法来提高速度。”此外,数据增强也是预处理的一部分,就是对刚才的工作反其道而行之——人为增加数据的“噪音”。

  “数据清洗要去除噪音,这个时候为什么又要增加噪音呢?”我有些不解。“这是为了让模型适应多种实际场景,在人脸识别里,就是应对逆光、人像不全等极端情况,专业名词叫‘提高模型泛化能力’。”张栋栋解释说。

  把这些工作做完之后,还要在原来的算法结构的基础上进行改进,俗称“改代码”。“人脸识别也有多种算法,需要选择合适的来修改。我们前期已经对各种算法进行了评估,有一个大概的算法结构,只要拿过来稍微改一下就可以使用了。”

  说到这里,我们才算进入模型训练阶段,张栋栋也正式开始了她今天的工作。“训练的过程其实就是一个降低损失函数(预测值与真实值之间差距)的过程。”键盘起起落落,一行行的代码便落在了屏幕上,远程服务器上记录着她每一次的灵光乍现,也不会放过任何一个程序故障。

  “在机器学习中,一般会将样本分成独立的三部分——训练集、验证集和测试集,其中测试集用来检验模型的性能如何。两方面决定了一个模型或算法的好坏,一个是结构,另一个是模型参数。训练的最终目的就是要找到合适的参数,使测试集的准确率更高。”张栋栋说,当最后测试集显示准确率已经比较高,并且已经收敛到一个平稳的状态后,训练就告结束,后续就可以对新数据进行预测和推理。

  “程序员真的能记住这么多的代码吗?”看她双手如飞,我有些好奇。“其实这就跟我们背诗句、单词差不多,熟能生巧嘛。”张栋栋笑了,“有时候也做不到一字不差,但大致的逻辑和思路是能记得的。”初秋的午后,阳光照射在园区空荡的街道上,打开的窗边偶尔会传来几声鸟鸣,旋即被起伏的键盘敲击声所取代。旁边几间会议室的灯渐次点亮,人们进进出出。程序员工作的过程似乎不像传说中的那般“压力山大”。

  “其实你只看到了一面”,她似乎看出了我的疑惑,“一个产品从开始阶段的数据收集到最后模型训练结束,会出现各种各样的问题。比如新产品上线前的那几次测试,总是会发现一些意想不到的漏洞,需要连夜排除。大家都很紧张,往往会经历几个不眠之夜。”

  如今,张栋栋参与研制的超大规模视频智能分析引擎已在国内几个大中城市落地应用。它基于深度学习技术和人工智能算法搭建,集合了视频汇聚分发、动态人脸识别、视频结构化分析、大数据多维分析等多项特点,轻松练就了视频监控的“火眼金睛”,守护着千家万户的安全。

  理想的工作和生活需要平衡,就像找到一个最优的“算法”一样

  在这个男性占绝大多数的行业里,像她这样的女孩并不多。张栋栋觉得自己骨子里是个“技术流”,喜欢跟机器打交道,遇到问题也爱“用技术说话”。

  2015年从北京交通大学信息管理与信息系统专业毕业后,她选择去英国留学,就读于伦敦大学学院网络科学与大数据分析专业,当时人工智能技术刚刚在全球兴起。张栋栋坦言,留学那段时间让她真正认识到,这项技术代表着未来。2016年3月,人工智能公司DeepMind联合创始人戴密斯·哈萨比斯领衔开发的“阿尔法狗”(AlphaGo)与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,最终以4比1的总比分获胜。哈萨比斯也毕业于这所学校。“不敢说以这样的‘牛人’为榜样,但他的成就对我确实产生了一些影响。”虽已离开学校,她至今还保持着读论文的习惯,“人工智能技术发展太快,必须跟进最前沿的技术,读论文算是最省时省力的办法了。”

  不知不觉中,天色渐晚,快到理论上的“下班时间”了,我们也逐渐从工作聊到了生活。张栋栋认为,跟软件园里很多人相比,自己算不上一个加班“狂人”。“理想的工作和生活需要平衡,就像找到一个最优的‘算法’一样,不断降低自己的‘损失函数’。”

  每天接触最前沿的技术,生活中张栋栋的爱好却是历史、博物馆和古建筑。她还曾参加过一个这方面的公益组织,“我们会带着大家去参观博物馆,也会传播一些历史文化知识。”她觉得这些活动能让自己把节奏降下来,调节一下身心。

  张栋栋乐于向身边的同事们请教,也期盼着自己能通过努力来改进他们的工作。“这是一个‘迭代’的过程,产品是这样,技术是这样,人也是这样。”她认为,“90后”比较独立,对很多问题都有自己的判断,不会人云亦云,这在创新方面是优势。“国内在人工智能的应用方面发展很快,但是在一些关键的、底层的理论和技术方面同国外相比还有差距,这是我们这代人应该努力的方向。”

  众 说

  沙超群(曙光信息产业股份有限公司高级副总裁):

  还记得四五年前我的同事在台上作报告时,曾大声呼吁“一定要给‘90后’机会”,转眼间,我们很多团队中“90后”已经挑起了大梁。这几年我们公司的技术骨干中,“90后”的比例在快速提升,包括我们承担的一些国家重大项目,其中也有相当多“90后”的身影。

  信息产业瞬息万变,新技术不断迭代,具体到产品层面往往时间紧、任务重、困难多、挑战大,这些反而让我在“90后”的身上看到了很多闪光点。我记得很清楚,去年“十一”长假,我们一个项目组40多人几乎是全员加班。长假中间那天是中秋节,我提前告诉他们“中秋那天不许来”,结果当天我跑到公司一看,还是来了20多人,其中大部分都是“90后”。

  张栋栋参与开发的这个视频智能分析引擎,是世界上最大的在线视频分析系统之一。她来公司还不到两年,经常一出差就是几个月,“扎”在项目驻地不断地优化产品。这让我这个“70后”感到“90后”也是能打硬仗的。

  随着经验、阅历的不断增长,更多的优秀“90后”正涌现出来。在我们公司承担的E级超算原型机项目、“地球数值模拟装置”原型装置等重大项目中,“90后”正承担起更多更艰巨的任务。

  宋怀明(曙光信息产业股份有限公司大数据及创新事业部总工程师):

  我们研发团队的平均年龄在30岁左右,“90后”已经是这个团队的主力,占比30%以上,在一线从事技术攻关的比例更高。

  张栋栋这些“90后”经常要处理大量的数据,在此基础上不断地去训练算法、优化模型,有的时候只为提升那么一点精度和性能,就要做大量数据的计算。但也就是这一点精度,在实际应用时会带来非常明显的效果,让我感觉“90后”在精益求精方面是不输于“80后”的。“90后”科技人员的成长背景决定了他们能够接触到大量的信息,思维转换能力很强,会从不同的角度去看问题,也会尝试一些不同的方法来解决问题,这可能是“90后”科技人员的特质,也是创新的优势。我想,今后“90后”在处理具体问题的时候,如果能再多一点坚持,多一些耐心,一定会取得更好的成果。(记者谷业凯)

[责编:肖春芳]

阅读剩余全文(

相关阅读

您此时的心情

新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 《中国石化在新疆责任报告》发布会

  • 北京世园会园区建设基本成形

独家策划

推荐阅读
为了帮助用户更好的进行自我管理,10月18日,花呗正式上线了“额度管理”功能,用户可以根据自身实际需求、自主调整自己的花呗额度。如今,不管是餐饮商超、公交地铁,还是医院、教育等民生场景,甚至是家门口的早餐店、水果摊,人们都可以用花呗来解决日常生活所需。
2018-10-19 08:51
这次亚马逊的案例就让人认识到原来即便在倡导了几百年男女平权的西方社会,性别歧视问题依然如此严峻。提高算法问责的意识并将之纳入人工智能发展规划和顶层设计,确为人工智能长远发展并造福于人的必要举措。
2018-10-19 08:51
积极承担地方扶贫任务,大力推进对口支援与定点扶贫工作,全力以赴助力贫困地区脱贫攻坚,努力让贫困地区、贫困群众搭上互联网发展快车。
2018-10-19 08:50
武春风说,我国的“人造月亮”准确表达是一种携带大型空间反射镜的人造空间照明卫星,预计其光照强度最大将是现在月光的8倍。
2018-10-19 08:50
针对上述情况,国家计算机病毒应急处理中心提醒广大手机用户不要下载这些违法有害移动应用,避免手机操作系统受到不必要的安全威胁。建议用户打开手机中防病毒移动应用的“实时监控”功能,对手机操作进行主动防御,这样可以第一时间监控未知病毒的入侵活动。
2018-10-19 08:49
据电子商务研究中心发布《2018年(上)中国跨境电商市场数据监测报告》显示,2018上半年中国跨境进口电商交易规模达1.03万亿元,同比增长19.4%,预计2018全年将达到1.9万亿元。
2018-10-19 08:49
未来,为大家服务的送餐车、送货车、巡逻车和出租车,都可能是无人驾驶的车辆。”  在产业创新方面,北京将推进“国家新能源汽车技术创新中心(国创中心)、国汽(北京)智能网联汽车研究院、自动驾驶和车联网试验验证与示范应用中心”3个创新中心建设。”美团无人配送部负责人说,目前一款小型无人配送车已经在朝阳大悦城做测试。
2018-10-19 08:49
(记者 吴涛)17日深夜,苹果隐私页面迎来重大更新。此次苹果隐私页面称,用户已经安装到设备上的APP,如果需要访问照片、通讯录等个人信息,则需要预先得到用户的许可,而用户可以随时更改这些许可设置。
2018-10-19 08:49
锂离子电池要大规模应用,制造费用偏“贵”,因为要考虑到在线维护以及回收处理的问题、电池的使用寿命问题、系统安全问题,以至整个产业的可持续发展。董衫木介绍了一种“刚柔并济”的设计理念,其中“刚”指的是刚性的聚合物骨架以及刚性的无机颗粒,“柔”指的是柔性的聚合物离子传输材料。
2018-10-19 08:49
对美国众包雇佣数据进行的研究显示,拥有天文学博士学位的女性在找到一份教职前离开该领域的速度比男性同行快3~4倍。Flaherty发现,第三种模型对众包数据作出了最好解释,更具体地说,女性离开劳动力市场的速度比男性快3~4倍。
2018-10-19 08:48
去年,当一颗美式足球场大小的雪茄形天体Oumuamua进入太阳系时,它并非仅仅让人们第一次看到了一块星际岩石。然后,研究人员将这个捕获率乘以一个星际天体在其携带的任何微生物全部死亡之前遇到的恒星数量。
2018-10-19 08:51
恒星诞生于巨大的气体和尘埃云,在其最初阶段,它们被一层薄薄的物质包围着。阿塔卡马大型毫米阵列(ALMA)是智利阿塔卡马沙漠中的一个射电天文台,它使得研究原行星盘更加容易。
2018-10-19 08:51
继彭博新闻社10月9日更新了其所谓的“中国黑客利用间谍芯片攻击美科技公司”的报道之后,业内专家分析认为该事件的真实性越来越离谱。韩银和认为,要应对硬件安全挑战,我国在科研上还应围绕硬件安全组织开展方方面面的研究。
2018-10-19 08:48
一项新研究介绍了一种裸眼探测紫外线辐射(UVR)的低成本、高灵敏度传感器的全新制造方法。澳大利亚墨尔本皇家理工大学的Vipul Bansal和同事设计出一种具有光谱选择性的高灵敏度UV传感器。
2018-10-19 08:48
据媒体报道,嫦娥四号中继星具备了在每秒1000米高速在轨飞行中,速度控制精度误差不大于每秒0.02米的超强本领。叶培建介绍,在第四期任务中,探月四期的主要目标任务包括开展以机器人为代表的月球南北极探测、建立无人的月球科考站。
2018-10-19 08:48
10月18日,2018年全国高性能计算学术年会(HPC China 2018)在山东青岛举行。榜单的前三名毫无变化,依然分别是部署在国家超级计算无锡中心的“神威·太湖之光”、部署在国家超级计算广州中心的“天河二号”、部署在国家超级计算天津中心的“天河一号A”。
2018-10-19 08:48
”  科学家们争议的焦点,在于一种叫做c-kit的干细胞究竟能不能转化为心肌细胞,进而治疗心肌梗塞。今年4月,中科院生物化学与细胞生物学研究所研究员周斌在《循环》杂志上发表论文,指出成年小鼠发生心肌梗塞后,非心肌细胞不会变成心肌细胞去弥补创伤。
2018-10-19 08:48
玻色—爱因斯坦凝聚可看作是低密度原子气体冷却到接近绝对零度并且坍缩成非常致密的量子态时形成的物质状态。这种状态后来被命名为玻色—爱因斯坦凝聚,也被称为是与气态、液态、固态、等离子态并列的“物质的第五态”。
2018-10-18 09:28
作为地球最近的邻居,月球一直是人类载人航天活动的重要目标之一。杨宇光表示,比照美国最新提出的航天规划就能看出,袴田健的愿望只是不切实际的空想。从月球在航天计划中的定位来看,它绝非人类的“太空家园”,而更适合作为人类前往火星以及更遥远深空的中转站。
2018-10-18 09:28
过去,仅有两架探测器拜访过水星,其中一架是美国国家航空航天局(NASA)的“水星10号”(Mariner 10),在1974年—1975年间,“水星10号”3次飞掠水星,并传回近距离拍摄的水星照片。
2018-10-18 09:28
加载更多