点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI存偏见歧视?算法让用户喜好趋同?科学家给出证据
首页> 科技频道> 综合新闻 > 正文

AI存偏见歧视?算法让用户喜好趋同?科学家给出证据

来源:澎湃新闻2020-08-07 09:54

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  AI存在偏见和歧视,算法让用户喜好趋同?科学家给出了证据

  或许你已经注意到了,当你在电影评分网站给刚看完的电影评完分后,网站后续给你推荐的影片风格会与你看完的电影类似。举个更常见的例子,当你在购物网站搜索过某样物品后,第二天推荐页面上显示的都是类似款。

  人工智能可以帮助商家获得客户喜好,但同时也在逐渐根据用户的反馈,形成喜好偏见,让用户的需求同化。不仅如此,在人脸识别领域,算法自带的歧视和偏见导致的问题,已经引发了诸多争议。

  近日,来自多所大学学者的研究结果为上述的偏见和歧视提供了证据。他们的研究论文目前已在预印本网站Arxiv上发布。

  算法推荐系统会放大偏见,并让用户喜好趋同

  推荐系统的本质是一种基于产品内容或用户行为的信息过滤。如今,我们用的很多应用程序和网站都嵌有算法推荐系统。假如你在某视频网站给一部电影打了高分,那么系统就会为你推荐更多同类型的电影。如果你给系统推荐的电影也打了分,系统就会将你的反馈行为添加到系统中,这就是一种反馈循环。

  但是推荐算法会受到流行性偏见(popularity bias)的影响。流行性偏见是指,一些流行的项目会被经常推荐,而其他项目会被忽略。在上面的例子中,一些电影被更多的人喜爱,获得了更高的评分,就属于流行的项目,或者可以叫做热门项目,这些项目会被更多推荐给用户,这就是流行性偏见。

  流行性偏见的产生一部分源于训练数据本身存在不同的流行度,另一部分原因来自推荐算法。随着时间的推移,这种流行性偏见将会被加强。因为如果用户在反馈循环中不断为热门电影打高分,这些电影就变得更热门,被推荐的几率也就更大。

  为了研究反馈循环对推荐系统放大偏见和其他方面的影响,来自埃因霍温科技大学、德保罗大学和科罗拉多大学博尔德分校的研究人员在一个电影数据集上使用三种推荐算法进行了仿真,模拟推荐系统的交互过程。

  作为研究数据的MovieLens 1M数据集包含了6040个用户对3706部电影给出的1000209个评分,分数范围在1-5之间。研究人员使用的三种推荐算法分别是:基于用户的协同过滤(UserKNN)、贝叶斯个性化排序(BPR)和一种向所有人推荐最流行产品的算法MostPopular。

  通过使用这些数据和算法进行迭代——系统不断为用户生成推荐列表,用户又不断对推荐列表中的项目进行打分,研究人员发现,随着时间的推移,三种算法下的数据平均流行度都有所上升,但总体多样性呈现下降,这也就证明了推荐系统在反馈循环后的偏见被放大。

  流行性偏见的放大还改变了系统对用户兴趣的判断。在所有的推荐算法中,用户的偏好与其初始偏好之间的偏差随着时间的推移而增加。也就是说,这将导致推荐系统为用户做出的推荐越来越偏离用户的真实喜好,系统推荐给你的电影将不再符合你的口味。

  除此之外,由于推荐系统的偏见被放大,用户几乎只能接触到流行度高的项目,只能看到那些被更多人打了高分的热门电影。于是,在推荐系统中他们的偏好都会向一个共同的范围集中,这就表现为用户偏好的同质化。而反馈循环造成的偏见对少数群体用户的影响更大。

  “解决算法偏见的方法变得至关重要。因为如果处理不当,随着时间的推移,推荐系统中一个很小的偏差也可能会被极度放大。”研究人员在论文结尾处写道。

  人脸识别用于训练的数据存在巨大偏差

  针对人脸识别算法带来的偏见越来越受到关注。例如,能将模糊照片清晰化的PULSE算法将美国前总统奥巴马的模糊照片“还原”出了一张白人面孔,在全美BLM运动(Black Lives Matter,黑人的命也是命)如火如荼的背景下,就引发了巨大的争议。

  人脸识别领域里出现算法偏差和歧视,一个重要原因是用于训练的数据集存在很大的偏差性。来自剑桥大学和中东科技大学的研究人员就从两个用于识别人脸表情的数据集中找到了证据。

  这两个数据集分别为:RAF-DB和CelebA。其中,RAF-DB包含来自互联网的数以万计的图片,这些图片包括面部表情和属性注释,而CelebA拥有202599张图像,包含10177人的4 0种属性注释。

  为了确定两个数据集存在偏差的程度,研究人员对随机子集进行了采样,并裁剪了图像,以使面部在方向上保持一致。然后,他们使用分类器来衡量准确性和公平性。

  理论上来说,为了让算法保持准确和公平,这个分类器应在整个过程中提供不同的人口群体的相似结果。但实际情况并非如此。

  在RAF-DB数据库中,绝大多数的图片来自年龄在20-39岁之间的白人。从具体的数据来看,这些图片有77.4%来自白人,15.5%来自亚裔,而只有7.1%来自非洲裔美国人;在性别方面,女性为56.3%,男性为43.7%;在年龄上,超过一半的图片来自20-39岁的年轻人,3岁以下和70岁以上的人甚至少于10%。

  为进一步研究数据库存在偏见的程度,研究人员分别使用了三种算法对数据库的准确性和公平性进行评估。结果发现,在准确性方面,RAF-DB数据库对少数族裔的识别准确性低于白人;在公平性方面,性别属性相对更公平,为97.3%,种族和年龄的公平性相对较低,为88.1%和77.7%。

  而在CelebA数据库的图片来源中,女性比例为61.4%,而男性只有38.6%。在年龄上,年轻人占75.7%,明显超过了占比24.3%的老年人。

  在准确性方面,CelebA数据库对年轻女性的准确率为93.7%,但对老年男性的准确性较低,为90.7%。而该数据库在性别和年龄方面的公平性表现都较好,分别为98.2%和98.1%。

  许多公司曾用人脸识别软件给面试者的情绪打分,如果整个系统都是有偏见的,对于面试者来说就意味着不公平。面部表情数据集中偏见的存也凸显了监管的必要性。如何用法律防止技术滥用,成为未来这一领域里值得思考的问题之一。

  澎湃新闻记者 王心馨 实习生 何青怡

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 农村人居环境动画:要想环境好 厕所先修好

  • 北京东城:让老城停车不堵心

独家策划

推荐阅读
2020年9月21日,是中国航空事业111周年的日子。1909年的这一天,当冯如驾驶着以自己的名字命名的“冯如一号”腾空而起的那一刻,天空中迎来了来自东方大国的身影,中国人只能靠想象去触摸天空的历史也永远地结束了。
2020-09-21 11:36
温州医科大学附属眼视光医院近视防控专科副主任徐菁菁说,现在临床上有不少控制近视发展的方法。根据目前的研究和临床经验,阿托品滴眼液、角膜塑形镜(OK镜)、多焦软性隐形眼镜和周边离焦光学镜片对近视进展控制有效。
2020-09-21 09:45
农用薄膜作为重要农业生产资料被广泛使用,图为贵州省黔东南苗族侗族自治州榕江县砂糖橘种植基地,村民为砂糖橘覆盖农膜保温。王伟指出,在回收环节,《办法》鼓励研发和推广回收机械、机械化回收等回收技术,在再利用环节,鼓励农用薄膜生产者牵头回收废旧农用薄膜,扶持农用薄膜回收再利用社会化服务组织和企业。
2020-09-21 09:43
作为解放军总医院(301医院)神经外科治疗帕金森症的专家,凌至培此刻身在海南,他一边演示指鼻尖,一边让患者照着做。利用5G技术和3D全息影像技术,把医生从屏幕中解放出来,一场“穿越式”出诊在现实中发生。
2020-09-21 09:48
糖尿病慢性并发症调查表明,动脉粥样硬化性心血管疾病(ASCVD)是2型糖尿病患者致死、致残的主要原因,近半数的糖尿病患者因心血管疾病(CVD)而死亡。近年来新一代SGLT2抑制剂类降糖药物的诞生,也是2型糖尿病治疗手段最显著的进展。
2020-09-21 09:48
如今,哈尔滨理工大学已有4人成长为中国科学院院士或中国工程院院士,他们在各自岗位上潜心研究、勇攀高峰、甘为人梯、奖掖后学,成为哈理工人传承王大珩院士科学家精神的具体体现。
2020-09-21 09:42
60岁的张庭固,是新疆伊犁州察布查尔县托布村的种粮大户。扬州大学党委书记姚冠新在江苏援疆指挥部陈翔副总指挥长的安排下,带着专家团队来到察布查尔县开展针对性调研,并签订了产学研合作协议。
2020-09-21 09:42
王虎小心翼翼地把套袋拉下来,一串串葡萄露了出来,晶莹透亮。自己种葡萄种出门道,王虎没有忘记六安的父老乡亲们。有乡亲们看到种葡萄能挣钱,想模仿,王虎会尽量支持。
2020-09-21 09:40
俄罗斯门捷列夫化工大学用壳聚糖、藻酸盐两种生物聚合物和银纳米颗粒合成了一种新材料,不仅可以有效止血,还具有明显抗菌活性。俄罗斯科研人员提出一种含有三种成分的新止血材料,藻酸盐、壳聚糖(分别从藻类和甲壳动物的壳中提取)和银纳米颗粒。
2020-09-21 09:40
(记者刘霞)据英国帝国理工学院官网近日消息,该校研究人员主导的团队将开展一项临床试验,以验证通过向呼吸道喷射的方式使用新冠疫苗的效果。牛津大学新冠疫苗项目领衔学者之一的莎拉·吉尔贝特教授说,在此前的临床试验中,通过肌肉注射完成的候选疫苗接种已展示出不错效果。
2020-09-21 09:39
如果这种对一个平方度的天区进行“铅笔束”式的高敏感度扫描都能发现45颗之前未知的卫星,那尺寸在800米以上的木星卫星数量据估计应该在600颗左右。如果一颗很“迷你”的石块,只要绕着行星运转,就算它的卫星的话,太阳系内的卫星数量恐怕要飙升了。
2020-09-21 09:38
”  始于秀丽风景,合于双创热土,安于全面小康——作为浙江省省会、长三角中心城市之一的杭州,通过数字赋能,持续丰富着“人间天堂”的内涵。杭州市数据资源管理局相关负责人介绍,杭州城市大脑已建成涵盖公共交通、城市管理、卫生健康、基层治理等11大系统48个应用场景。
2020-09-21 09:34
“今年冬天或明年春天新冠疫情应该还会继续存在,而且很可能发生局部地区的暴发。对大家普遍关心的病毒突变是否会影响疫苗效果这个问题,陈薇介绍,其团队一直在进行全球新冠病毒基因组序列进化分析。
2020-09-21 09:32
“稻蟹模式、稻虾模式是利用动物和植物和谐共生,达到稳粮增收的效果,这是一种绿色生态种养新技术。目前彭泽县已成为江西省最大的虾蟹产出地,2019年养殖小龙虾12万亩,年产量1.5万吨,年产值6亿元左右,预计到2020年底将达到16万亩以上。
2020-09-21 09:32
昌吉国家农业科技园区老龙河示范区的小麦种植基地内,无人机正在进行田地飞防作业。园区还创新农业发展模式,增强农业内生动力,逐步打造集创意种养、加工销售、科教旅游于一体的新型生态观光农业建设模式。
2020-09-21 09:30
和银河系这样的旋涡星系相比,受限于观测设备和条件,无论是超致密矮星系还是超弥散星系,观测样本都非常小,这就给研究极端密度星系带来了客观的困难。超致密矮星系的典型物理尺度为25秒差距左右,如果想观测室女星系团里的超致密矮星系,相当于在乌鲁木齐观察上海东方明珠上的一枚硬币。
2020-09-21 09:29
如果倾角最大时正好碰上距角比较大,那么水星就有机会达到最大的高度。水星逆行时,正是它和太阳的角距离最小的时候,再加上黄道倾角的影响,导致大名鼎鼎的水逆,其实仅凭肉眼根本看不到。
2020-09-21 09:28
来源:NASA   只有向金星发送探测器,在大气层中磷化氢存在的位置实地检测到微生物,才可以说金星存在生命。”  因此,金星以及其他天体环境是否可能孕育生命,与其强调环境的极端,不如探究哪些存在形式可以被定义为生命活动。
2020-09-21 09:25
2020年9月19日 16:00-18:00
2020-09-19 06:27
这个秋季学期,让一些需要赴境外国家和地区留学的学生感到纠结。参与此次招生的有北京、浙江、广东等19个省市的约90个中外合作办学以及内地与港澳台地区合作办学机构和项目。
2020-09-18 09:28
加载更多