正在阅读: 借助机器学习,对垃圾信息说“不”
科技频道> 网事 > 正文

借助机器学习,对垃圾信息说“不”

2018-08-13 09:05来源:科技日报

   七夕将至,你是否收到过电商店铺推送的打折促销短信?平时是否经常收到理财、贷款、购房等信息?如果你是苹果用户,那你是否有过半夜收到iMessage推送赌场、假货、股票以及色情信息的经历?

   商家给安卓用户推送广告信息需要通过移动、联通等运营商,运营商会拦截掉一些非法信息,而针对苹果用户,商家甚至不法分子则可利用iMessage渠道通过互联网直接向用户推送垃圾信息,目前苹果公司尚未采取有效的筛选、拦截等手段。

   近日,苹果官方终于发声,表示正在探索更先进的机器学习模型识别,过滤垃圾信息。机器学习模型如何过滤垃圾信息?又面临哪些技术难点呢?科技日报记者采访了相关专家。

   作为人工智能的核心技术,机器学习是计算机模拟人类思考方式的一种学习行为,它让计算机变得“聪明伶俐”。“基于机器学习的垃圾信息过滤技术实际上是一个二元分类过程,机器学习模型需回答‘是’或‘不是’,以便将垃圾文本从大量信息中分离出来。”北京语言大学大数据与语言教育研究所所长荀恩东教授在接受科技日报记者采访时说,“首先应准备人工标注的数据,进而构建机器学习参数化模型,最后对其训练、测试,直至模型应用,解决实际问题。”

   “目前市场上识别垃圾邮件、短信的机器学习模型绝大部分采用的是针对文本显式特征的分析和提取。”荀恩东解释,所谓“显式”特征,是指垃圾信息的关键词、表达形式、特殊符号、异体字、敏感词语表达方式等“外在”特征。将这些多元、离散的特征元素汇总,便可构成显式特征列表,进而构建模型对垃圾信息进行甄别。

   “这种分类方式效率较高、成本较低、所依赖数据较少,但也存在适应性差,识别精度不高等不足之处。”荀恩东指出,如果垃圾信息发送方掌握了用户拦截系统的显式特征列表,便可对垃圾信息的敏感词汇作出相应调整,变换表达形式,从而有效规避拦截系统。因此分类器需要实时动态更新显式特征列表,即便如此,该列表元素数量也十分有限,导致分类器过滤效果不佳,精确度不高。

   基于显式特征的分类方式“先天不足”,苹果公司有可能将目光投向隐式特征分类,即深度学习模型。荀恩东表示,深度学习模型可对海量数据的信息进行深度挖掘,从信息的语义和内容上对垃圾信息进行甄别。也就是说,同样一条推销短信,深度学习模型基于庞大的数据库,可分析出它的多种表达方式,从而做出更加准确的判断,仅靠改变文字形式无法逃脱深度学习模型的“火眼金睛”。深度学习模型省去了前期建立大量显示特征列表的工作,只需标注垃圾、非垃圾信息即可,不仅效率提高,识别精度也得到很大提升。

   基于深度学习的垃圾信息过滤技术目前也面临诸多技术难点。复旦大学计算机科学技术学院张军平教授表示,虽然有大数据支撑,深度学习模型在很多方面还是无法像人一样有效分析和理解信息中的内容。例如,个别汉字的顺序颠倒不一定能影响阅读,然而深度学习模型并没有人脑这样“聪明”。另外,组合爆炸问题也是难点之一。垃圾信息涉及领域广泛,形式变化多端,大数据深度学习模型可能对已有的垃圾信息有效分类,但面对新出现的垃圾信息可能就会“蒙圈”。

   “这需要借助类似长短时记忆网络或更新的一些技术,对深度学习模型进行定期更新。” 张军平认为,还可以考虑自然语言处理中的一些句与句的关系,进一步完善深度学习算法,从而改善其预测、分类能力。

[责编:赵清建]

阅读剩余全文(

相关阅读

您此时的心情

新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 中国改革开放40年的全球意义

  • 河南汝阳:党建引领扶贫 畜牧助推增收

独家策划

推荐阅读
日前有新闻爆出,英国南极调查局一个科研联合团队使用机载冰雷达观测了南极点附近约5000平方公里区域,发现南极点冰盖底部冰层正在融化,并推测融化现象可能是由于异常地热引发。最新研究发现的导致南极冰盖底部融化的异常地热来源,仍是待解的谜题。
2018-12-14 09:04
“如果异种移植能从基础研究推广到临床研究,乃在未来大规模临床应用,则可能让数以百万计的病人有希望重获新生。只有在特殊环境下喂养的“无指定病原体猪”,才能成为异种器官移植的主要研究目标。
2018-12-14 09:03
近日,上海交通大学党委书记、中国高等教育学会副会长姜斯宪教授发表文章讨论新高考背景下的选才、育人问题,在谈及高中物理受重视程度下降时他认为可以将物理与数学合并为数理基础科目,加大赋分权重。这一观点受到许多人关注。
2018-12-14 09:02
“一体、双核、多点”之下,之江试验室组建了人工智能研究院、未来网络计算研究院以及人工智能算法研究中心等交叉研究中心,作为实验室开展基础研究的条件支撑。”在浙江省自然基金委员会办公室主任吴正光看来,在超常规力度的支持和社会力量的参与下,基础研究在浙江已迎来春天。
2018-12-14 09:02
“每一个工业产品都有一个生命周期,就像人的生命周期是‘从摇篮到坟墓’一样。宝钢湛江钢铁有限公司董事长盛更红向科技日报记者表示,拓宽经济增长和改善环境是钢铁产业的双赢之路。
2018-12-14 09:01
到2017年底,中国海油共荣获国家级科技奖励21项,其中,“超深水半潜式钻井平台研发与应用”荣获2014年国家科技进步特等奖;获专利授权5500余件;流花11-1油田在水深300米以下,而当时的中国海油没有建造深水工程装备的经验,但中国海油从来不缺学习的热情。
2018-12-14 09:01
12月13日,2018年度黑龙江省科学技术奖结果新鲜出炉。哈工大从哈佛大学引进回来的高层次人才黄志伟,成为黑龙江历史上首位凭一篇论文斩获省自然科学一等奖的科研人员。“黄志伟此次获奖,正是国家在人才评价制度中倡导的‘四不唯’的具体体现。
2018-12-14 09:00
“通过技术挖掘可把一些有用的信息,从科技创新信息中有效挖掘出来。”日前,在浙江乌镇举行的2018“国际技术挖掘会议”上,美国佐治亚理工大学教授艾伦·波特通过视频,录制了其报告。
2018-12-14 08:59
“全球60亿人口的动物蛋白摄入,15%以上来源于水产品。”近日,在华夏对虾种业创新联盟在北京举办的“2018国际水产种业科技创新论坛”上,世界水产学会前主席、比利时根特大学教授帕垂克·索格罗斯说。
2018-12-14 08:58
主办的“科学大满贯”活动揭幕,并就中欧科研与创新合作,与中国媒体面对面展开深入探讨。
2018-12-14 08:58
“科研体系将持续对‘从牧场到餐桌’全产业链建设起到支撑作用。5年前在北京成立的中荷奶业发展中心,是中国和荷兰在农业领域开展国际合作的重要平台。
2018-12-14 08:58

2015年,英国《自然》发表的一篇论文报告称,曾有8名病人接受了被朊病毒污染的尸源性人类生长激素(c-hGH)治疗,之后死于克雅氏病(CJD),其中4名病人的脑内检查出了β淀粉样蛋白的病理特征。当时c-hGH被认为有可能是这一变化的来源。

2018-12-14 08:57
在实验室内利用干细胞制作小鼠和人类胚胎模型正在快速向前发展,与此同时也带来了深刻的法律问题和伦理问题。此次发表的文章属于《自然》期刊内的评论,而非经过同行评议的《自然》研究论文,这一类评论文章是关于科学研究及其影响的权威性时评。
2018-12-14 08:55
在计量学的故事中,对于科学家们而言情节总是相当的简单:无非就是保证各项计量标准得到持续不断地改进。分析主义者们往往会避开实践问题,而实用主义者们恰恰把注意力放在了测量实践以及实践如何作用于科学难题的解决上。
2018-12-14 08:54
时间回到两年前,2016年8月16日凌晨,中国在酒泉卫星发射中心用长征二号丁运载火箭成功发射世界首颗量子科学实验卫星“墨子号”。量子通信原理上可以提供一种不能破解、不能窃听的安全信息传输方式,量子信息技术甚至被比作和平年代的“核武器”。
2018-12-14 08:54
作为一种对人体有害的重金属,地球上的汞是如何循环分布的?日前,天津大学地科院孙若愚副教授与哈佛大学、法国科学院图卢兹地球环境研究所、南京大学等团队合作,历时5年,建成了全球第一个动态、全耦合、可拓展的全球汞同位素箱体模型。
2018-12-14 08:53
国家卫生健康委医政医管局副局长周长强提供了一组数字,足以可见我国献血制度的快速发展:1998年,我国启动实施《献血法》的当年,自愿无偿献血人次仅为32万;2018年,我国自愿无偿献血人次将超过1500万。周长强介绍说,每年都会对各地血液安全和血液保障情况进行随机抽查,及时向全国通报核查情况,督促各地加强血液质量安全管理。
2018-12-13 19:08
13日,以“小·有大智”为主题的百度智能小程序公开课在北京首讲,百度副总裁沈抖解读了百度为扶持小程序开发者创新创业而打造的“共筑计划”。沈抖表示,小程序如今被视作互联网经济时代非常有潜力的创业方向,而在行业生态中,平台的技术能力、技术理念与开发者的想象力,共同决定了小程序连接服务的边界。
2018-12-13 19:08
根据2015年至2017年的科研产出情况,北京大学、清华大学、南京大学、中国科学技术大学、浙江大学、复旦大学、中国科学院大学、中国科学院化学研究所、南开大学和苏州大学被列为自然指数中国十大科研机构。
2018-12-13 19:11
对天文学家而言,流星雨整个活跃期都值得观测,并非只有达到极大的流星雨才有意义。“早期,天文学家观测流星雨,主要目的是研究母彗星,通过母彗星反过来研究太阳系的起源。
2018-12-13 09:12
加载更多