我们是如何被大数据杀熟的?
发布时间:2024-12-7 1:14:20 信息来源:新快报
算法作为人工智能等新一代信息技术的核心,被嵌入经济社会的方方面面,早已无处不在,在提升社会生产效率和国民生活水平上发挥了重要作用,成为推动企业数字化转型和国家治理能力现代化的重要力量。与此同时,算法带来的诸多问题亦破坏了人们的信任,阻碍了算法的技术创新、应用与正向价值发挥。因此,完善算法治理成为亟须全球共同面对的重要议题。
今年11月,四部门联合开展“清朗·网络平台算法典型问题治理”专项行动,钟睒晱炮轰算法作恶、快手因落实青少年模式不到位等导致违法信息扩散被处罚等消息,一定程度上向网民普及了“算法”这个小众词汇及其背后的产业链。
算法究竟是个什么魔法?
本质是以数学方式或计算机代码表达的意见
算法究竟是个什么魔法?它是如何影响我们的商业和生活?算法与算力、数据共同组成人工智能产业中三个核心概念,他们构成了AI领域的基础设施,是支撑AIGC(人工智能生成内容)行业创新和发展的必要前提。
数据显示,2014年~2023年,全球AIGC及相关产业投融资规模约1938亿美元,成为资本布局的热门赛道。2023年,中国AIGC行业核心市场规模为79.3亿元,预计在2028年将达到2767.4亿元。2020年,中国人工智能核心产业规模达到1500亿元,预计在2025年将达到4000亿元,有望成为全球最大的人工智能市场。
正因为这样的高速发展,信息过载不可避免地出现。互联网数据中心发布的《数据时代2025》报告显示,全球每年产生的数据将从2018年的33ZB(十万亿亿字节)增长到175ZB,相当于每天产生491EB(百亿亿字节)的数据。
于是,在本质上算法是“以数学方式或者计算机代码表达的意见”。其中,推荐系统就是一个信息过滤系统,帮助用户减少因浏览大量无效数据而造成的时间、精力浪费。
推荐系统发展至今,其核心技术可大致分为“基于协同过滤的推荐方法”“基于内容的推荐方法”以及“混合推荐方法”。基于协同过滤的推荐方法,本质是根据相似的用户具有相似的喜好,推荐给他们喜欢的物品、内容或者服务。
基于内容的推荐方法,指的是根据项的相关信息(描述信息、标签等)、用户相关信息及用户对项的操作行为(评论、收藏、点赞、观看、浏览、点击等),来构建推荐算法模型。
混合推荐方法指的是,衡量各推荐方法的利弊,扬长避短,通过加权、切换、混杂、特征组合等方式避免或弥补各推荐技术弱点,进一步提升推荐方法性能。
纵观推荐系统的发展历史,可将其大致分为非个性化推荐系统和个性化推荐系统。其中,个性化推荐系统,就是为每一个特定用户提供特定的服务,实现“千人千面”,服务个性化诉求。
从行业的角度,算法同时也是一系列解决问题的清晰指令,代表着用系统的方法描述解决问题的策略机制。其关联技术包括机器学习、深度学习、自然语言处理、计算机视觉、推荐系统等。在目前AIGC产业链图谱中,属于上游和中游的组成部分,上游有相关开源算法和相关算法/模型研究机构,中游的模型和算法领域涉及企业包括腾讯、阿里巴巴、字节跳动、OpenAI、Meta和Google等。
推荐系统如何从好变坏?
当“正相关”遇见企业逐利本性,负面问题来了
算法是一种中性的工具,但到了具体的应用场景中,商业赋予了它倾向性。在外界的印象里,个性化推荐就像漏斗一样,会将推荐内容与用户相匹配,倾向于向用户推荐高度符合其偏好的内容,致使推荐的内容越来越窄化。但与外界的固有认知相反,在行业实践中,互联网应用(特别是位于头部的大型平台)有追求算法多样性的内在动力。
在对行业内代表性应用的数据分析后,阅读内容的类型数量是否够多、所阅读内容类型的分散程度是否够高,与用户是否能长期留存关联密切,呈正相关。上述两项指标对用户长期留存的作用,可以与信息的展现总量、用户的停留时长、用户阅读量等指标的影响相媲美。
而当这种“正相关”遇见了企业的逐利本性,算法的广泛应用带来了一些众所周知的负面问题,诸如信息茧房、隐私侵犯、大数据杀熟、算法滥用等。
英国竞争和市场监管机构对外发布的《算法对竞争和消费者损害的影响评估报告》认为,算法虽然极大地提高了企业及市场运作的效率和效益,并且是许多技术公司的核心,但随着算法系统的不断复杂化,算法的使用可能会减少竞争和损害消费者利益。
报告指出,算法系统对消费者造成的损害包括针对消费者不透明的方式实施个性化定价、更广泛地被用来操纵选择或消费过程、算法歧视、不公平的排名和设计;算法系统在排他性行为中的使用包括自我偏好、操纵排名算法以排除竞争对手,以及改变网关服务中的算法系统损害依赖该系统的企业;定价算法潜在的合谋问题和平台监督不力的问题:缺乏透明度会使外部难以评估算法系统是否有效。
上海赛博网络安全产业创新研究院发布的《AIGC数据安全与算法治理报告》指出,算力经济时代,以AIGC为代表的人工智能应用进入“成长期”,但数据安全和算法问题成为其发展的掣肘。AIGC数据和算法安全治理框架,包括健康有序鼓励创新应用、技术向善保障主体权益、敏捷治理强化技术赋能、多元包容推动国际合作的治理原则,完善顶层设计、建设标准体系、提高企业自身治理能力、打造全面安全治理能力供给的治理路径。我国应抢占先机,提高在人工智能安全领域的国际话语权和影响力。
用户普遍对算法不信任?
超八成用户对超过一定限度的精准推荐表示担忧
《算法应用的用户感知调查与分析报告(2021)》发现,人们既要便利,又要安全。
绝大多数用户享受算法带来的便利和优惠,希望有个性化推荐,同时对提高算法透明度有较强诉求。超八成用户对超过一定限度的精准推荐表现出担忧,并希望可以选择推荐所依据的标签组合。
半数以上用户对企业在提供互联网服务过程中使用算法这一事实,以及使用算法的内容和目的并不清楚,希望企业能够加强信息披露。
用户对算法表现出普遍的“不信任”,但并不认同限制算法应用这种因噎废食的做法,而是希望在规范中促进算法的合理应用和健康发展。超过80%的用户认为,企业利用算法进行人为信息扭曲(比如操纵榜单、流量造假、信息屏蔽)的情况很多或比较多。针对算法风险的治理,用户希望多维度加强算法风险治理,其中企业自律最受期待(60.12%),而选择限制算法运用的比例最低(46.22%)。
用户对“大数据杀熟”为代表的差别定价感知并不普遍,且不同用户对差别定价的态度差异非常之大。只有26.38%用户表示经常经历差别定价。
算法推荐下的过度消费问题并不突出,信息茧房、网络沉迷一定程度上存在,但企业在不良信息治理、“适老化”“未成年人模式”设计方面不尽如人意。“信息茧房”因人而异,部分人认为推荐算法有助于帮助多元化的信息获取、可以节省信息搜寻时间等(40%),但也有部分人认为推荐算法的信息较为同质,容易造成“信息茧房”或内容过于娱乐化,导致上瘾(43%)。
多数用户在使用软件应用的过程中收到过不良信息,超过2/3用户表示虽然举报过但不良信息出现的频次并未减少。超过1/3的用户认为所有行业在“适老化”“未成年人模式”等人性化设计方面做得都不够好。
如何让算法更好服务人类?
构建可信任的算法认知,产业和消费者需共同努力
有意思的是,国外侧重人工智能监管、公共服务中算法应用监管、算法应用中的个人数据保护、算法自动化决策、数字零工经济中的劳动者权益保障等问题。而国内重点针对互联网信息服务算法推荐、分享经济平台算法劳动管理、算法应用中数据竞争、算法推荐的版权治理、深度合成等问题积极探索立法和监管举措。
对此,清华大学人工智能国际治理研究院副院长、人工智能治理研究中心主任梁正认为,当前国内对于算法治理的基本思路和框架都是清晰的,而分级分类精准治理的模式应当可以解决如何落实的问题。他还表示,需要明确的是,算法分级分类本身不是目标,而是要针对不同风险场景配备不同监管规则。
中国社科院科技和社会研究中心主任段伟文则提到,算法治理需要构建可信任的算法认知,而这需要产业和消费者的共同努力:产业要努力提升算法精准性、透明度,减少偏见,减少歧视;消费者则需要提高数字素养,提升算法意识,加强在人机互动中自主性、控制感和协同意识。他认为,很多消费者缺乏对于算法的控制感,也缺乏自主性,因此对算法认知存在不信任。
数据来源
互联网数据中心《数据时代2025》、华东政法大学数字法治研究院《算法治理年度观察报告(2023)》、上海赛博网络安全产业创新研究院《2023年AIGC数据安全与算法治理报告》、清华大学人工智能国际治理研究院《我国算法治理政策研究报告》、腾讯研究院法律研究中心《人工智能时代的算法治理报告2022——构建法律、伦理、技术协同的算法治理格局》、中国人民大学数字经济研究中心《算法应用的用户感知调查与分析报告(2021)》、中国人民大学高瓴人工智能学院《算法向善与个性化推荐发展研究报告》、艾媒咨询《2023年中国AIGC行业发展研究报告》、英国竞争和市场监管机构《算法对竞争和消费者损害的影响评估报告2021》、荷兰个人数据管理局《荷兰AI与算法风险报告(2024年夏季)》