本文档给出[=AI系统=]尤其是基于[=机器学习模型=]的AI系统对Web的系统性影响,以及Web标准化在管理这种影响方面所扮演角色的分析。
本文档旨在收集W3C团队对[=人工智能系统=]在Web上当前及预期影响的共同理解,并识别万维网联盟为管理其影响而已经开始或者应该开始的探索。本文档既不代表W3C会员的任何共识,也不是标准化文档。
本文档由DominiqueHazaël-Massieux(dom@w3.org)撰写,W3C团队的其他同事也有重要贡献。
本文档的首要目标是辅助开展在标准化层面必须做什么才能让AI(尤其是[=机器学习模型=])的系统性影响伤害更小或更易管理的结构化讨论。但是,本文档肯定是不全面的,甚至还可能存在错误。我们也正为此在GitHub上广泛征集输入和反馈,最理想的反馈时间是2024年6月30日前。
根据收到的反馈,我们下一步可能会组织相关人士更深入地进行评审,或者举办W3C专题研讨会,也可能会制定一个相关标准化的路线图。
[=机器学习模型=]支撑着新一代的[=AI系统=]。这些模型通常使用大量Web内容[=训练=],然后通过Web界面进行大规模部署,并且能够用来空前快速和低成本地生成可接受的内容。
鉴于这个交叉领域的范围和规模之大,[=AI系统=]的这波浪潮正在对Web及其生态发展所依赖的某些平衡产生潜在的系统性影响。
本文档将从道德、社会和技术影响的角度评述这些交叉领域,同时重点分析标准化、指引性文件和互用能力有助于管理这些变化的一些领域:
我们正在征求建议,欢迎社区针对上面列出的这些领域,或者本文档没有提及的其他相关领域给出建设性的意见和建议。
在计算机科学几十年来的发展中,人工智能的近期发展已经出现了一批系统,这些系统已经开始对Web产生系统性影响。可以预见,Web迄今为止健康发展所依赖的一些共同预期也将面临进一步转变。
为了让W3C社区(以及其他Web相关的标准组织)能够有条不紊地讨论这些转变,本文档汇集了W3C团队当前针对“[=人工智能=]”,更具体地说是针对[=机器学习模型=](包括大语言模型和其他所谓的生成式AI模型),与作为一个系统的Web的交叉领域,以及W3C在这些领域中当前进展的共同理解。另外一个目标是提出随着这些领域的发展可能需要进行更多探索的相关问题。
当前的理解一定是不完整的,有时候甚至是错误的。我们希望通过公布这份文档并邀请社区对其进行评审,不断迭代地去完善这些共同的理解,同时帮助构建出一个社区路线图,以增进对这些领域的积极影响,减少对这些领域的危害。
“人工智能”是一个非常宽泛的概念,涵盖了算法、技巧和技术。[[ISO/IEC-22989]]把人工智能定义为“[=AI系统=]的机制及应用的研究与发展”,其中AI系统是“一个工程化系统,能够按照人类给出的一组既定目标生成输出,比如生成内容、预测、建议或决定”。2024年初,在我撰写本文档时,Web圈子中关于人工智能这个话题的讨论焦点,主要是基于机器学习(“通过计算相关的技术优化模型参数的过程,以便模型的行为能够反映训练数据或者经验”)的系统及其软件表现形态,即机器学习模型(“能够根据输入的数据或者信息生成推理或预测结果的数学结构”)。
我们知道人工智能有着更加宽泛的含义,以及它与其他一些Web或W3C相关的活动(如语义Web、链接数据)有交集,但本文档有意将对话聚焦于这些[=机器学习模型=]给Web带来的影响。 我们也知道本文档是在人们对这个领域的期望和投资膨胀的时期完成的,因而也可以看作是一种回应。在这种情况下,尤其需要一个框架来构建对话。
因为聚焦于[=机器学习=],本文档将通过操作[=机器学习模型=]的两个主要阶段来分析AI的影响:训练(“使用训练数据,根据机器学习算法,确定或改进机器学习模型参数的过程”)和推理(实际使用模型得到预期结果) ,对后者我们偶尔也称之为运行模型。
Web扮演的主要角色是作为一个平台让内容创作者向内容消费者展示自己大量的内容。AI与Web平台的这两个方面是直接相关的。
如果我们从更偏向技术的视角来审视Web平台以浏览器为媒介的部分,会发现Web依旧还是客户端/服务器架构。AI模型可以[=运行=]于服务端,也可以运行于客户端(此外,还有目前相对比较少见的二者混合的方式)。在客户端,AI模型可以由浏览器来提供或操作(按照用户的请求或者应用的请求),也可以完全由客户端应用来提供或操作。
同样值得一提的是,随着[=AI系统=]快速地得到应用,AI与Web一定会出现更多的交叉领域,从而又可能带来新的系统性的影响。比如,新近刚刚出现的能够将[=机器学习模型=]与实时从Web加载的内容相结合的[=AI系统=],可能会导致从更深层次上重新思考Web浏览器在消费或搜索内容方面的角色及用户体验。
W3C技术架构组的“伦理Web准则”[[ethical-web-principles]]中有一条是保证“Web不应该给社会带来危害”。
如上所述,在人工智能最近的发展中,Web已经扮演了一个关键赋能者的角色,而且人工智能的使用和影响也通过借助Web来分发而成倍地增长。这就要求W3C社区作为Web的管理者必须了解这种混合过程中浮现的潜在危害,并且找到可能解决这些问题的方法。
由Web机器学习工作组率先起草撰写的“机器学习中的伦理原则[[webmachinelearning-ethics]]”整合了UNESCO(联合国教育、科学及文化组织)公布的《人工智能伦理问题建议书》[[UNESCO-AI]]中的价值观和原则,又增加了“伦理Web准则”中特定于Web的原则,确立了基于Web的机器学习应该遵循的4个价值观和11个原则,这些对本文档的结构也有帮助。
最新的[=AI系统=]能够辅助人类进行部分或全部内容创作(包括文本、图像、音频和视频),内容的质量在一定程度上(至少表面上来看)是可以接受的,而且在数量上也会超越人类所创作的内容。对于内容创作者而言,这既是机会,又有风险。但更重要的是,这给内容给消费者带来了系统性的风险。因为面对海量AI生成的可接受(其中可能含有错误或者有意误导人的)内容,消费者无法分辨或者找到哪些内容是权威的,哪些内容又是杜撰的。
对最终用户来说,这个需求是非常直接的压力,因为他们作为个体来消费内容的。但同时这个压力也会给到最终用户所使用的代理。通常情况下,搜索引擎会因纯AI生成内容的透明度而受益。而有点令人啼笑皆非的是,用于训练AI模型的爬虫可能也需要这样的信号,因为使用模型的输出来[=训练=]模型可能导致意外且没有用的结果。
关于如何保证(比如通过密码)某个内容是不是(部分或者全部)通过[=AI系统=]生成的,我们并不知道什么可行的方案。这个方案的缺失很遗憾会造成谣言或垃圾满天飞的系统性风险,而这正是为了W3C这个内容分发平台乃至整个社会的健康而应该严重关切的问题。
在这个领域中,标准能够扮演的一个貌似合理的角色是至少能够加快内容标注的进程,通过标注来表明内容是否是计算机生成流程的结果。虽然这种标注不可能通过技术手段强制实施,但如果能够由[=AI系统=]自动添加(至少大规模删除的成本有足够的阻力),同时又是一种监管的手段,是有可能得到广泛采用的。
这个领域已经出现了一些提案,这些提案如何能够得到更多关注、讨论,以及最终成规模地部署就更好了:
依赖于[=机器学习模型=]提供服务有一个众所周知的问题,就是可能吸收甚至可能强化[=训练=]数据中存在的偏见。偏见在其他算法和人类决策流程中也很常见。但对[=AI系统=]而言这是一个更大的挑战,因为由于当下的这些模型很大程度上是像一个盒子一样封闭运行的,所以很难审计和纠正。
这种偏见会在更大程度上影响那些期望的输入和输出在训练数据中没有被充分代表的用户(正如2023 AI与无障碍研究专题研讨会所报告的[[WAI-AI]])。而凭直觉就很容易联想到那些已经被社会和技术所抛弃的人。比如,假设你的语言、外表或行为不符合主流预期的规范,就不太可能被主流内容关注,因而就不太可能在训练数据中出现,或者即使出现也是被歪曲的。
在更好的至少能够系统检测这种偏见的工具出现之前,鼓励和推动系统性地信息发布,包括是否使用了机器学习模型、这些模型是如何训练和检测偏见的,应该能够对最终用户选择自己要使用的服务提供更多有益的帮助(当然,前提是用户必须能够选择,比如不适用于某些政府提供的服务)。
“针对模型报告的模型卡(Model cards for Model Reporting)”[[MODEL-CARDS]]就是这样一个手段,我们曾在2020 W3C关于Web与机器学习研讨会上讨论过[[W3C-ML-WS]]。假设这个报告能够提供有意义和可行的透明度,那么对(这个)技术标准提出的问题就是,应该如何将这些卡序列化并使其在Web上可被发现。
W3C应该关注一种特殊的模型部署方式,即浏览器引擎本身使用的用于响应API请求的模型。很多Web浏览器API已经(或多或少明确地)暴露了[=机器学习模型=]的输出:
正如下面要讨论的,这些API也带来一些工程化问题,包括如何确保像更传统的确定性算法一样提供同等程度的互用能力。
如果模型是在没有经过分类或只部分经过分类的Web内容上进行训练的,那么这些模型很可能会包含个人可识别信息(Personally Identifiable Information,PII)。同样,对于在用户选择与服务提供商共享(无论是否允许公众使用)的数据上训练的模型也是一个道理。这些模型有可能经常为知道如何提问的用户检索并向他们共享用户信息。而这不符合那些被收集个人信息的用户对隐私的预期,而且可能违反很多司法管辖区的隐私法规。更糟糕的是,这也会带来新型攻击的风险(参见“安全与安保”)。
虽然在内容创作方面讨论的排除规则有可能在某种程度上对第一种情形有帮助,但对第二种情形则无能为力。这个问题领域很可能面临严格的监管和法律审查。
从技术标准化的角度来看,除了标注内容,用户数据又被用于模型[=训练=]的现象以及由此引发的一些反弹,可能让(来自用户和服务提供商的)对于分布式架构的呼吁卷土重来,使用户数据较少受到集中控制(最近Activity Streams的应用范围不断扩大就说明了这一点)。
这种模式的一个特别典型的例子,就是最近出现的所谓个人数据存储:通过更加清晰地区分数据存储与数据处理的角色(在传统云基础设施下,通常完全由一个角色来处理),为用户提供更多方式更加细粒度地控制自己的数据。
这个话题最近在W3C已经通过2023年底SOLID工作组建议的章程有所显现(W3C社区已经认可该章程的重要性,但尚未达成共识)。
允许在个人数据之上[=运行=]模型同时又不必把数据上传到服务器,正是浏览器Web神经网络API(Web Neural Network API)[[WEBNN]]背后的动机之一。这套API是对WebAssembly[[WASM-CORE-2]]和WebGPU[[WEBGPU]]已经提供的计算能力的补充,提供了额外的特定于机器学习的优化,以便模型能够在浏览器(也就是在最终用户的设备上)高效[=运行=]。
很多[=机器学习模型=]都能够以非常低的成本模仿人类生成质量可以接受文本甚至视频(实时的或录制的)。这就显著放大了网络钓鱼和其他网络诈骗得逞的风险,同时也很大程度上提高了通过在线交际建立信任的门槛。如果用户对自己在数字化媒介中进行交际不再有安全感,那么Web将无法再扮演这种交际平台的角色。
这就对在Web上实现可靠身份与凭据管理产生了更加强烈的需求。可验证凭据工作组(Verifiable Credentials Working Group)的工作能够让凭据以密码级安全、保留隐私,以及机器可验证的方式进行表示 [[VC-DATA-MODEL]]。而把联合身份(Federated Identity)系统更好地集成到浏览器中 [[FEDCM]],以及刚出现的将数据凭据在Web内容中公开化 [[DIGITAL-CREDENTIALS]] 的建议能够在某种程度上降低与这些新的模仿人类的威胁相关的风险。
很显然,[=训练=]和[=运行=][=机器学习模型=]需要消耗大量资源,特别是要消耗大量电力和水。减少人类对自然资源占用的使命也应该特别明确地适用于通过标准化能够有助于其大规模部署的技术。
可持续Web设计社区组(Sustainable Web Design Community Group)(有望成为标准化工作组)有一项相对比较新但很有前景的工作,解释了如何以可持续的方式使用Web技术。
W3C仍然缺少一个完善的评估其标准对环境所产生影响的框架。鉴于有据可查的[=AI系统=]对环境的高度影响,W3C中那些预期会加速[=机器学习模型=]部署的小组,在探索和记录他们的工作对环境有哪些预期影响,以及他们能够找到哪些可能的应对方案方面采取积极主动的态度会变得非常重要。
人们已经知道或已经假定,一些规模最大且最受瞩目的[=机器学习模型=]在没有创作者或发布者明确同意的情况下,使用了从Web爬取的数据进行训练。
因此引发的争议正在从版权法的角度进行辩论(也有一些仲裁的例子)。
我们不知道这种特定的使用场景能否适用版权法规,以及适用什么样的版权法规。除了法律上的考虑,版权机制能够在创作者和消费者之间营造一种(相对而言)共同的认知,即默认情况下,未经创作者同意,内容不能被重新分发、合成、改编或构建。这个共同认知让大量内容在Web上开放地分发成为可能。同时也让创作者能够在消费者始终都会来到自己页面的假定之下斟酌使用各种变现手段(订阅、付费阅读、广告)。
很多[=AI系统=]都整合了(1)对Web内容的自动化大规模消费,以及(2)大规模内容的生产,却从来没有意识到或者说考虑过回报那些用来训练的内容。
尽管这种紧张的气氛并不新鲜(下面会讨论到),但基于机器学习的系统无疑将颠覆已有的平衡。除非能够找到一个新的可持续的平衡点,否则将会给Web带来如下不良影响。
为了重新平衡这种情况而作出改变的版权法规也可能带来一些间接风险,即在限制内容消费者的权力的同时,也会削弱以内容分发作为核心主张的Web平台的价值。
考虑到搜索引擎在Web平台上所扮演的中心角色,不难理解围绕大规模爬取Web内容的重用而出现的很多激烈争论其实有着悠久的历史。搜索引擎具有对Web上的内容进行检索和组织的能力,因而提供(同时也拥有)了价值。但这个价值高度依赖于构建Web内容的标准化基础设施。
搜索引擎与内容提供者之间多多少少已经达成了隐式契约,即搜索引擎可以对来自提供者的内容进行检索、解析以及只展示一部分内容。相应地,搜索引擎将为内容来源提供更多曝光机会和流量。进一步的共识也已经基于Web的运行方式确定下来,让这个隐式契约成为任何在Web上公开发布内容的人的默认选项,也就是通过robots.txt
指令[[RFC9309]]编码的一种退出机制。
随着时间推移,除了通过用户查询来匹配网站链接之外,搜索引擎还集成了更多直接暴露目标网站内容的方式。包括使用富媒体片段(典型的做法是利用schema.org的元数据),以及实现嵌入式的预览组件(比如像AMP项目的组件)。这些变化在发生的同时,有时候也会引发质疑的讨论,焦点是如何平衡给爬取内容更多曝光量的同时又不会降低最终用户访问来源网站的积极性(因为他们在搜索结果页就已经得到足够多的信息了)。
在某些情况下,[=AI系统=]被用来替代或补充完成人们以前通常使用搜索引擎来完成的工作(实际上也越来越多地被集成到搜索引擎界面上)。因此,探索搜索引擎与内容创作者的需求平衡演进的过程能够在多大程度上启发关于爬虫用于训练[=机器学习模型=]的讨论看起来是有用的。
为了进行比较,有必要明确它们的区别。
robots.txt
指令支持基于用户代理向特定的爬虫下发特定的规则。虽然对于众所周知的搜索引擎爬虫来说,这个方法能实际起到管理的作用(无论效果是好是坏),但指望内容创作者去维护一份预期要允许或屏蔽哪些以检索训练数据为目的、数量快速增长的爬虫列表,应该是不太现实且无法持续的。
鉴于人们对[=AI系统=]相关爬取行为可能有着不同的预期,目前尚不清楚从早期Web继承而来的这种无许可模式(robots.txt是1994年设计的)是否能够满足在Web上发布内容的长期可持续性目标(但其本身对AI爬虫应该会长期关注的)。
一般来说,对于在这个领域寻求标准化的一个可能有用的建议,就是识别能够帮助内容生产者和AI爬虫找到可接受的条件,理想情况下在一定范围内对各方都具有吸引力的解决方案。
有一些组和个人已经开始探索如何让内容发布者表达自己希望怎么让自己的内容用于[=训练=][=机器学习模型=]的意愿。
在W3C对Web的构想[[w3c-vision]]中,一个核心就是确保Web基于互用原则发展。换句话说,W3C对于作为Web标准编制的技术,要确保它们的实现和部署都能够以跨产品一致的方式进行,从而为用户提供更多选择,同时促进内容长期可用。
在互用能力依赖的算法具有确定性的情况下,保证互用能力的关键是尽可能充分地描述细节,保证相关算法的清晰,同时在产品上运行足够多的测试以验证达到了预期的结果。向更加算法性的规范[[design-principles]]转变,以及全面自动化测试(比如通过Web平台测试项目)很大程度上都是由提供可靠的互用平台这一目标驱动的。
如上面所讨论的,[=机器学习模型=]已经在标准的Web API中出现了。这给我们的互用性目标的实现带来了两方面挑战。
这些挑战带来的一个可能的后果,就是在越来越多的特性通过[=机器学习模型=]来实现的同时,缩小能够真正实现互用和标准化的特性的范围(类似于假定Web应用不断增长的能力对标准化协议的需求的影响)。在这种情况下,类似基于AI的编解码器这样的讨论在互用能力方面很可能会有很大不同。