正在阅读: 借助机器学习,对垃圾信息说“不”
科技频道> 网事 > 正文

借助机器学习,对垃圾信息说“不”

2018-08-13 09:05来源:科技日报

   七夕将至,你是否收到过电商店铺推送的打折促销短信?平时是否经常收到理财、贷款、购房等信息?如果你是苹果用户,那你是否有过半夜收到iMessage推送赌场、假货、股票以及色情信息的经历?

   商家给安卓用户推送广告信息需要通过移动、联通等运营商,运营商会拦截掉一些非法信息,而针对苹果用户,商家甚至不法分子则可利用iMessage渠道通过互联网直接向用户推送垃圾信息,目前苹果公司尚未采取有效的筛选、拦截等手段。

   近日,苹果官方终于发声,表示正在探索更先进的机器学习模型识别,过滤垃圾信息。机器学习模型如何过滤垃圾信息?又面临哪些技术难点呢?科技日报记者采访了相关专家。

   作为人工智能的核心技术,机器学习是计算机模拟人类思考方式的一种学习行为,它让计算机变得“聪明伶俐”。“基于机器学习的垃圾信息过滤技术实际上是一个二元分类过程,机器学习模型需回答‘是’或‘不是’,以便将垃圾文本从大量信息中分离出来。”北京语言大学大数据与语言教育研究所所长荀恩东教授在接受科技日报记者采访时说,“首先应准备人工标注的数据,进而构建机器学习参数化模型,最后对其训练、测试,直至模型应用,解决实际问题。”

   “目前市场上识别垃圾邮件、短信的机器学习模型绝大部分采用的是针对文本显式特征的分析和提取。”荀恩东解释,所谓“显式”特征,是指垃圾信息的关键词、表达形式、特殊符号、异体字、敏感词语表达方式等“外在”特征。将这些多元、离散的特征元素汇总,便可构成显式特征列表,进而构建模型对垃圾信息进行甄别。

   “这种分类方式效率较高、成本较低、所依赖数据较少,但也存在适应性差,识别精度不高等不足之处。”荀恩东指出,如果垃圾信息发送方掌握了用户拦截系统的显式特征列表,便可对垃圾信息的敏感词汇作出相应调整,变换表达形式,从而有效规避拦截系统。因此分类器需要实时动态更新显式特征列表,即便如此,该列表元素数量也十分有限,导致分类器过滤效果不佳,精确度不高。

   基于显式特征的分类方式“先天不足”,苹果公司有可能将目光投向隐式特征分类,即深度学习模型。荀恩东表示,深度学习模型可对海量数据的信息进行深度挖掘,从信息的语义和内容上对垃圾信息进行甄别。也就是说,同样一条推销短信,深度学习模型基于庞大的数据库,可分析出它的多种表达方式,从而做出更加准确的判断,仅靠改变文字形式无法逃脱深度学习模型的“火眼金睛”。深度学习模型省去了前期建立大量显示特征列表的工作,只需标注垃圾、非垃圾信息即可,不仅效率提高,识别精度也得到很大提升。

   基于深度学习的垃圾信息过滤技术目前也面临诸多技术难点。复旦大学计算机科学技术学院张军平教授表示,虽然有大数据支撑,深度学习模型在很多方面还是无法像人一样有效分析和理解信息中的内容。例如,个别汉字的顺序颠倒不一定能影响阅读,然而深度学习模型并没有人脑这样“聪明”。另外,组合爆炸问题也是难点之一。垃圾信息涉及领域广泛,形式变化多端,大数据深度学习模型可能对已有的垃圾信息有效分类,但面对新出现的垃圾信息可能就会“蒙圈”。

   “这需要借助类似长短时记忆网络或更新的一些技术,对深度学习模型进行定期更新。” 张军平认为,还可以考虑自然语言处理中的一些句与句的关系,进一步完善深度学习算法,从而改善其预测、分类能力。

[责编:赵清建]

阅读剩余全文(

相关阅读

您此时的心情

新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 北京世园会园区建设基本成形

独家策划

推荐阅读
为了帮助用户更好的进行自我管理,10月18日,花呗正式上线了“额度管理”功能,用户可以根据自身实际需求、自主调整自己的花呗额度。如今,不管是餐饮商超、公交地铁,还是医院、教育等民生场景,甚至是家门口的早餐店、水果摊,人们都可以用花呗来解决日常生活所需。
2018-10-19 08:51
这次亚马逊的案例就让人认识到原来即便在倡导了几百年男女平权的西方社会,性别歧视问题依然如此严峻。提高算法问责的意识并将之纳入人工智能发展规划和顶层设计,确为人工智能长远发展并造福于人的必要举措。
2018-10-19 08:51
积极承担地方扶贫任务,大力推进对口支援与定点扶贫工作,全力以赴助力贫困地区脱贫攻坚,努力让贫困地区、贫困群众搭上互联网发展快车。
2018-10-19 08:50
武春风说,我国的“人造月亮”准确表达是一种携带大型空间反射镜的人造空间照明卫星,预计其光照强度最大将是现在月光的8倍。
2018-10-19 08:50
针对上述情况,国家计算机病毒应急处理中心提醒广大手机用户不要下载这些违法有害移动应用,避免手机操作系统受到不必要的安全威胁。建议用户打开手机中防病毒移动应用的“实时监控”功能,对手机操作进行主动防御,这样可以第一时间监控未知病毒的入侵活动。
2018-10-19 08:49
据电子商务研究中心发布《2018年(上)中国跨境电商市场数据监测报告》显示,2018上半年中国跨境进口电商交易规模达1.03万亿元,同比增长19.4%,预计2018全年将达到1.9万亿元。
2018-10-19 08:49
未来,为大家服务的送餐车、送货车、巡逻车和出租车,都可能是无人驾驶的车辆。”  在产业创新方面,北京将推进“国家新能源汽车技术创新中心(国创中心)、国汽(北京)智能网联汽车研究院、自动驾驶和车联网试验验证与示范应用中心”3个创新中心建设。”美团无人配送部负责人说,目前一款小型无人配送车已经在朝阳大悦城做测试。
2018-10-19 08:49
(记者 吴涛)17日深夜,苹果隐私页面迎来重大更新。此次苹果隐私页面称,用户已经安装到设备上的APP,如果需要访问照片、通讯录等个人信息,则需要预先得到用户的许可,而用户可以随时更改这些许可设置。
2018-10-19 08:49
锂离子电池要大规模应用,制造费用偏“贵”,因为要考虑到在线维护以及回收处理的问题、电池的使用寿命问题、系统安全问题,以至整个产业的可持续发展。董衫木介绍了一种“刚柔并济”的设计理念,其中“刚”指的是刚性的聚合物骨架以及刚性的无机颗粒,“柔”指的是柔性的聚合物离子传输材料。
2018-10-19 08:49
对美国众包雇佣数据进行的研究显示,拥有天文学博士学位的女性在找到一份教职前离开该领域的速度比男性同行快3~4倍。Flaherty发现,第三种模型对众包数据作出了最好解释,更具体地说,女性离开劳动力市场的速度比男性快3~4倍。
2018-10-19 08:48
去年,当一颗美式足球场大小的雪茄形天体Oumuamua进入太阳系时,它并非仅仅让人们第一次看到了一块星际岩石。然后,研究人员将这个捕获率乘以一个星际天体在其携带的任何微生物全部死亡之前遇到的恒星数量。
2018-10-19 08:51
恒星诞生于巨大的气体和尘埃云,在其最初阶段,它们被一层薄薄的物质包围着。阿塔卡马大型毫米阵列(ALMA)是智利阿塔卡马沙漠中的一个射电天文台,它使得研究原行星盘更加容易。
2018-10-19 08:51
继彭博新闻社10月9日更新了其所谓的“中国黑客利用间谍芯片攻击美科技公司”的报道之后,业内专家分析认为该事件的真实性越来越离谱。韩银和认为,要应对硬件安全挑战,我国在科研上还应围绕硬件安全组织开展方方面面的研究。
2018-10-19 08:48
一项新研究介绍了一种裸眼探测紫外线辐射(UVR)的低成本、高灵敏度传感器的全新制造方法。澳大利亚墨尔本皇家理工大学的Vipul Bansal和同事设计出一种具有光谱选择性的高灵敏度UV传感器。
2018-10-19 08:48
据媒体报道,嫦娥四号中继星具备了在每秒1000米高速在轨飞行中,速度控制精度误差不大于每秒0.02米的超强本领。叶培建介绍,在第四期任务中,探月四期的主要目标任务包括开展以机器人为代表的月球南北极探测、建立无人的月球科考站。
2018-10-19 08:48
10月18日,2018年全国高性能计算学术年会(HPC China 2018)在山东青岛举行。榜单的前三名毫无变化,依然分别是部署在国家超级计算无锡中心的“神威·太湖之光”、部署在国家超级计算广州中心的“天河二号”、部署在国家超级计算天津中心的“天河一号A”。
2018-10-19 08:48
”  科学家们争议的焦点,在于一种叫做c-kit的干细胞究竟能不能转化为心肌细胞,进而治疗心肌梗塞。今年4月,中科院生物化学与细胞生物学研究所研究员周斌在《循环》杂志上发表论文,指出成年小鼠发生心肌梗塞后,非心肌细胞不会变成心肌细胞去弥补创伤。
2018-10-19 08:48
玻色—爱因斯坦凝聚可看作是低密度原子气体冷却到接近绝对零度并且坍缩成非常致密的量子态时形成的物质状态。这种状态后来被命名为玻色—爱因斯坦凝聚,也被称为是与气态、液态、固态、等离子态并列的“物质的第五态”。
2018-10-18 09:28
作为地球最近的邻居,月球一直是人类载人航天活动的重要目标之一。杨宇光表示,比照美国最新提出的航天规划就能看出,袴田健的愿望只是不切实际的空想。从月球在航天计划中的定位来看,它绝非人类的“太空家园”,而更适合作为人类前往火星以及更遥远深空的中转站。
2018-10-18 09:28
过去,仅有两架探测器拜访过水星,其中一架是美国国家航空航天局(NASA)的“水星10号”(Mariner 10),在1974年—1975年间,“水星10号”3次飞掠水星,并传回近距离拍摄的水星照片。
2018-10-18 09:28
加载更多