正在阅读: 借助机器学习,对垃圾信息说“不”
科技频道> 网事 > 正文

借助机器学习,对垃圾信息说“不”

2018-08-13 09:05来源:科技日报

   七夕将至,你是否收到过电商店铺推送的打折促销短信?平时是否经常收到理财、贷款、购房等信息?如果你是苹果用户,那你是否有过半夜收到iMessage推送赌场、假货、股票以及色情信息的经历?

   商家给安卓用户推送广告信息需要通过移动、联通等运营商,运营商会拦截掉一些非法信息,而针对苹果用户,商家甚至不法分子则可利用iMessage渠道通过互联网直接向用户推送垃圾信息,目前苹果公司尚未采取有效的筛选、拦截等手段。

   近日,苹果官方终于发声,表示正在探索更先进的机器学习模型识别,过滤垃圾信息。机器学习模型如何过滤垃圾信息?又面临哪些技术难点呢?科技日报记者采访了相关专家。

   作为人工智能的核心技术,机器学习是计算机模拟人类思考方式的一种学习行为,它让计算机变得“聪明伶俐”。“基于机器学习的垃圾信息过滤技术实际上是一个二元分类过程,机器学习模型需回答‘是’或‘不是’,以便将垃圾文本从大量信息中分离出来。”北京语言大学大数据与语言教育研究所所长荀恩东教授在接受科技日报记者采访时说,“首先应准备人工标注的数据,进而构建机器学习参数化模型,最后对其训练、测试,直至模型应用,解决实际问题。”

   “目前市场上识别垃圾邮件、短信的机器学习模型绝大部分采用的是针对文本显式特征的分析和提取。”荀恩东解释,所谓“显式”特征,是指垃圾信息的关键词、表达形式、特殊符号、异体字、敏感词语表达方式等“外在”特征。将这些多元、离散的特征元素汇总,便可构成显式特征列表,进而构建模型对垃圾信息进行甄别。

   “这种分类方式效率较高、成本较低、所依赖数据较少,但也存在适应性差,识别精度不高等不足之处。”荀恩东指出,如果垃圾信息发送方掌握了用户拦截系统的显式特征列表,便可对垃圾信息的敏感词汇作出相应调整,变换表达形式,从而有效规避拦截系统。因此分类器需要实时动态更新显式特征列表,即便如此,该列表元素数量也十分有限,导致分类器过滤效果不佳,精确度不高。

   基于显式特征的分类方式“先天不足”,苹果公司有可能将目光投向隐式特征分类,即深度学习模型。荀恩东表示,深度学习模型可对海量数据的信息进行深度挖掘,从信息的语义和内容上对垃圾信息进行甄别。也就是说,同样一条推销短信,深度学习模型基于庞大的数据库,可分析出它的多种表达方式,从而做出更加准确的判断,仅靠改变文字形式无法逃脱深度学习模型的“火眼金睛”。深度学习模型省去了前期建立大量显示特征列表的工作,只需标注垃圾、非垃圾信息即可,不仅效率提高,识别精度也得到很大提升。

   基于深度学习的垃圾信息过滤技术目前也面临诸多技术难点。复旦大学计算机科学技术学院张军平教授表示,虽然有大数据支撑,深度学习模型在很多方面还是无法像人一样有效分析和理解信息中的内容。例如,个别汉字的顺序颠倒不一定能影响阅读,然而深度学习模型并没有人脑这样“聪明”。另外,组合爆炸问题也是难点之一。垃圾信息涉及领域广泛,形式变化多端,大数据深度学习模型可能对已有的垃圾信息有效分类,但面对新出现的垃圾信息可能就会“蒙圈”。

   “这需要借助类似长短时记忆网络或更新的一些技术,对深度学习模型进行定期更新。” 张军平认为,还可以考虑自然语言处理中的一些句与句的关系,进一步完善深度学习算法,从而改善其预测、分类能力。

[责编:赵清建]

阅读剩余全文(

相关阅读

您此时的心情

新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 亚运会男子200米自由泳孙杨夺冠

  • 为废墟作画的叙利亚年轻人

独家策划

推荐阅读
截至今年6月30日,我国网民规模达8.02亿,互联网普及率达57.7%,出行、环保、金融、医疗等行业与互联网融合程度加深,互联网普惠化成果显著。截至今年6月,我国网络直播用户规模达4.25亿,较2017年末微增294万,用户使用率为53%,较2017年末下降1.7个百分点。
2018-08-20 17:05
日本一家公司近日就开始预售新一代“全息虚拟妻子”,目标人群为独居单身男性。日本Gatebox公司推出的这个虚拟家庭机器人名为“逢妻光”,外观为一个约20厘米高的动画风格少女,她站在一个圆柱形投影仪里。
2018-08-20 16:58
联通大脑和机器,是人类不断运用新技术增强自身能力的过程,正如我们运用汽车突破行走的速度限制,用电话突破听力的范围限制。
2018-08-20 13:24
“浮星”由天津大学青岛海洋工程研究院李醒飞教授牵头负责实施,获得青岛海洋科学与技术试点国家实验室“问海计划”专项的支持。
2018-08-20 09:32
据了解,苏宁的机器人和无人车自主导航采用的是另一种“多线激光雷达+GPS+惯导等多传感器融合定位方式”。
2018-08-20 09:31
前不久,澳大利亚科学家在癌症研究领域迈出了重大的一步,他们发现了一种新型药物,可以使小鼠体内癌细胞不再分裂和增殖,并将动物的癌细胞置于永久睡眠状态,进而有效阻止小鼠血液癌症和肝癌的进展以及延缓癌症复发。
2018-08-20 09:27
一项最新研究发现,单层的可渗透织物——在该研究中是厕纸——导致易被水润湿的球体产生异常高的水花,但增加一些织物层能完全阻止水花产生。
2018-08-20 09:26
绯红金刚鹦鹉能飞越墨西哥热带地区、中美洲和亚马逊流域。但是它们的骨骼为何会出现在美国西南部沙漠的考古遗址中?
2018-08-20 09:26
一种基于荧光素酶的成像技术,展示了肿瘤细胞融合从而在活体动物转移性继发肿瘤中形成杂交细胞的首个例子。
2018-08-20 09:26
大象体内癌细胞的数量是人类的100倍。统计显示,有约17%的人死于癌症,却只有不到5%的大象死于癌症。
2018-08-20 09:26
除了美味,欧洲鳗鱼还困扰了生物学家1个多世纪。它们在河口和溪流中度过成年生活,并且前往百慕大群岛附近的马尾藻海繁殖。
2018-08-20 09:25
日本宇宙航空研究开发机构(JAXA)日前表示,该国的隼鸟2号探测器已于8月7日到达了距离小行星“龙宫”的最接近点。
2018-08-20 09:25
在全球最大热带湖泊——维多利亚湖的浅水水域,游动着约500种丽鱼。它们拥有各种令人眼花缭乱的外表以及迥异的栖息地和行为。
2018-08-20 09:25
迅雷不及掩耳,打着“中国首个自主创新智能浏览器内核”招牌的“红芯”浏览器前脚刚宣布完成2.5亿元C轮融资,后脚就被拆穿西洋镜。所谓“自主”,不过是把谷歌内核拿来换了个头面;随之,其创始团队核心人员神乎其神的学历和履历也被曝掺假,水分很大。
2018-08-20 09:24
不久前,国内第一个获得“中国机器人认证”的服务机器人厂商上海棠宝深陷倒闭风波,创始人王明高负债出逃。如何让服务机器人更加智能化是考验企业的难题,也是制约其商用化的最大痛点和难点。
2018-08-20 09:24
由美国宇航局(NASA)资助的一个用于探测可能撞击地球的小行星的望远镜网络将会首次扩展到南半球,而南半球目前还缺乏此类大规模的小行星监测工作。这些额外的天文台不仅可以探测到可能伤害人类的小行星,还能探测到彗星、超新星和其他天体。
2018-08-20 09:24
日前,来自马萨诸塞州总医院医学工程中心(MGH-CEM)的研究人员研发出一种简单的方法,可以使水和水基溶液在远低于“冰点”的温度下能够很长时间保持液态。
2018-08-20 09:24
2018世界机器人大会上,各类活动精彩纷呈,图为观众正在观看服务型机器人。作为全球领先的运动控制系统和配件供应商,美国科尔摩根公司推出的解决方案被全球60%的协作机器人厂商采用。
2018-08-20 09:23
在主流App中,许多账户登录及资金操作都可以通过手机号码加短信验证码的方式实现,对于用户来说,这种操作为自己带来方便,无需记忆复杂的密码;但对于别有用心的犯罪分子来说,他们可以利用简单的设备获取用户的验证码,从而操控用户账户,提现、消费,甚至贷款。
2018-08-20 09:23
刚刚过去的一周,对一家名叫红芯的创业公司来说无疑尴尬至极。但这些创新点显然远远不足以支撑“中国首个自主创新智能浏览器内核”的名号。其实,红芯并不是近期唯一一个因“自主创新”是否名副其实而陷入争议的中国公司。
2018-08-20 09:23
加载更多