大数据社会需要考虑算法治理
算法,曾被描述为一件相当温和的事情——计算过程明确,步骤可控,结果一目了然。近年来,算法通常与大数据结合,通过打分、排序、评级的方式在用户、环境和推荐对象之间建立联系,进行自动化推荐。搜索引擎中的网页呈现,电子商务中的商品推荐,社交网络中“你可能认识的好友”,内容推荐引擎中的新闻推荐等,都是算法应用的丰富场景。
然而,算法的广泛应用也引发一些问题。不久前,英国伯明翰地方警局表示正在研发一套名为“国家数据分析方案”的系统,旨在通过对居民个人数据资料的分析,预测公民的“犯罪指数”,引导警方提前干预。尽管警方一再强调不会仅根据风险指数就进行逮捕,但这个消息还是引发了广泛争议。
由于算法具有技术门槛,很多时候出现问题难以追责,造成伤害无从补偿。如何让数据分析系统自证其算法“公平有效”,这是人们十分关心的问题,也是一道现实难题。2015年,美国芝加哥法院使用的犯罪风险评估算法就被证明对黑人造成了系统性歧视:黑人更有可能被这个系统错误地标记为具有高犯罪风险,从而被法官判处更长的刑期。另外,数百万人由于该算法无法获得保险、贷款和租房等服务,如同被算法“囚禁”。美国皮尤研究中心发布的《公众对计算机算法的态度》报告则显示,58%的受访者认为,算法和其他计算机程序总会包含偏见。
显然,算法的设计、目的、数据使用等都是设计开发者的主观选择,其主观偏见有可能被嵌入算法系统。数据的有效性和准确性,也会影响整个算法决策和预测的准确性。正是由于设计偏向、数据缺陷,再加上无法公开透明的“算法黑箱”,使得算法过滤、算法偏见、算法歧视和算法操控的情况屡屡发生。近几年,全球互联网平台纷纷开发智能推荐系统,大多数都是根据用户使用痕迹进行关联推荐。算法越智能,越能使用户被“安排”进所谓“信息茧房”,即陷入为其量身定制的信息之中。久而久之,用户处于信息“自我禁锢”困境,从而失去了解更大范围事物的机会。其后果,有可能就是导致人们视野日趋偏狭,思想日趋封闭、僵化甚至极化。
大数据背景下,解决算法智能带来的麻烦已是不可回避的课题。越来越多人提出着手研究算法治理的主张,虽然注定是十分艰巨的事情,但也当属值得迈出的一步。(方师师)