2026/4/18 13:05:45
网站建设
项目流程
网站建设 保密,马鞍山制作网站,网站建设用什么技术,wordpress可以做相册吗AI安全与反启蒙时代
摘要
关于对人工智能模型实施严格许可和监控的提案#xff0c;很可能无效甚至适得其反#xff0c;导致权力以不可持续的方式集中#xff0c;并可能逆转启蒙运动带来的社会进步。在保卫社会与赋能社会自我保护之间的平衡非常微妙。我们应当倡导开放、谦…AI安全与反启蒙时代摘要关于对人工智能模型实施严格许可和监控的提案很可能无效甚至适得其反导致权力以不可持续的方式集中并可能逆转启蒙运动带来的社会进步。在保卫社会与赋能社会自我保护之间的平衡非常微妙。我们应当倡导开放、谦逊和广泛协商以制定出更符合我们原则和价值观的应对方案——这些方案能随着我们对这项可能造福或危害社会的技术加深了解而不断演进。执行摘要人工智能技术发展迅猛我们尚不知其潜力边界。某中心首席执行官Sam Altman认为AI可能“捕获宇宙中所有未来价值的视界”。但也可能出现问题有专家警告“AI可能导致人类灭绝的风险”。这导致许多人提出AI监管方案包括白皮书《前沿人工智能监管管理对公共安全的新兴风险》后文简称“FAR”以及欧盟《人工智能法案》议会版本中的提议为AI模型的开发和部署制定标准创建确保遵守这些标准的机制。然而其他专家反驳道“对生存风险的过度关注……‘挤占了更紧迫问题的空间’并阴险地向专注于其他当前风险的研究人员施加社会压力。”尽管当前风险很重要但人类灭绝的威胁是否意味着我们应该无论如何都要推行此类监管答案可能是否定的。正如我们将看到的如果AI强大到足以构成灾难性威胁该提案可能实际上并无帮助。事实上它可能让情况变得更糟因为它会制造一种极端严重的权力失衡最终导致社会崩溃。这些担忧适用于所有试图确保模型本身“开发”安全而不仅仅是其使用方式的监管。这些监管的影响可能无法逆转因此我们在立法前应极其谨慎。FAR和《人工智能法案》旨在监管的模型开发类型是“基础模型”——一种通用AI能够以不同程度的成功率处理几乎所有问题。无法确保任何通用设备例如计算机或钢笔永远不会被用于造成伤害。因此确保AI模型不被滥用的唯一方法是确保无人能直接使用它们。相反它们必须被限制在一个严格控制的狭窄服务接口中如ChatGPT即GPT-4的接口。但那些拥有AI模型完全访问权限的人例如托管服务的公司内部人员相对于仅限于“安全”接口的人拥有巨大优势。如果AI变得极其强大那么对模型的完全访问权限对于需要保持竞争力的人以及希望造成伤害的人都至关重要。他们可以简单地从头开始训练自己的模型或者通过勒索、贿赂或窃取来获取现有模型。这可能导致一个只有拥有海量资源训练基础模型、或道德底线低下去窃取它们的群体才能接触到人类最强大技术的社会。这些群体可能变得比任何国家都强大。历史上巨大的权力差异曾导致暴力和社会整体屈从。如果我们现在以“安全”为名通过监管来增加权力的集中化我们就有可能会逆转启蒙时代取得的进步并进入一个新的时代反启蒙时代。相反我们可以坚持开放和信任的启蒙思想例如支持开源模型开发。开源通过广泛参与和共享促成了巨大的技术进步。开放的AI模型或许也能做到这一点。广泛参与能让更多拥有不同专业知识的人帮助识别和应对威胁从而提升整体安全——正如我们在网络安全等领域所见。我们现在可以采取一些干预措施包括欧盟《人工智能法案》中提出的对“高风险应用”进行监管。通过对应用进行监管我们关注的是真实的危害并能让最直接责任方承担责任。《人工智能法案》中另一个有用的方法是监管披露以确保模型使用者拥有恰当使用所需的信息。AI的影响很复杂不太可能有万全之策。在我们创造出先进AI之前我们无法真正理解其影响。因此我们不应急于监管这项技术并应小心避免“治疗”比“疾病”本身更糟。大问题AI能力快速提升许多人要求被保护也有许多人提供这种保护。最新的是一份名为《前沿人工智能监管管理对公共安全的新兴风险》FAR的白皮书。该文许多作者与某中心和某机构有联系并与受这两家公司投资者资助的各种组织有关联。FAR声称“需要政府介入以确保此类‘前沿AI模型’为公共利益服务”。但我们真的能确保这一点吗代价是什么FAR未能解决一个巨大的、赤裸裸的问题。任何拥有强大AI模型完整版本访问权限的人比只能通过受限服务访问该模型的人拥有大得多的权力。但很少有人能访问完整模型。如果AI真的变得极其强大那么这种巨大的权力差异是不可持续的。尽管表面上满足了各种安全要求但FAR所推动的监管体系最终会将巨大权力赋予那些根深蒂固的公司凭借它们拥有原始模型的访问权限使它们对所有其他参与者包括试图监管或约束它们的政府形成信息不对称。这可能导致社会的毁灭。原因如下因为这些模型是通用计算设备不可能保证它们不会被用于有害应用。这就像试图制造一台不可能被误用例如用于发送勒索邮件的计算机。完整的原始模型远比任何基于它的“确保安全”的服务要强大得多。原始模型是通用的它可以用于任何目的。但如果你给人一个通用计算设备你无法确保他们不会用它来造成伤害。因此你只能给他们访问一个服务的权限该服务提供了通往完整模型的一个小窗口。例如某中心向公众提供对GPT-4的一个严格控制和调优的文本对话接口但不提供对GPT-4模型本身的完全访问。如果你控制着一个强大的模型该模型是所有信息消费和生产的媒介并且它是一个专有秘密你就可以塑造人们的信念、行为——并随心所欲地审查。FAR所倡导的理念最终将导致除了少数几家公司员工以外的所有人都无法接触AI前沿而这些公司的支配地位将因这些理念而得以确立。这是社会走向的一条极其危险且脆弱的道路。竞赛那么让我们回顾一下在这些监管提案下会发生什么。我们拥有世界上最强大的技术一直在快速发展但只有少数大公司拥有该技术最强大版本的访问权限允许其以不受限制的方式使用。接下来会发生什么显然现在所有关心权力和金钱的人都迫切需要找到获得这些模型完全访问权限的方法。毕竟任何无法接触到史上最强大技术的人都不可能参与竞争。对他们来说好消息是这些模型本质上只是一堆数字。它们可以极其容易地被复制一旦你得到了它们你就可以免费分发给所有朋友。FAR专门有一节讨论这个问题称之为“扩散问题”。周围有很多擅长数据窃取的专家他们知道如何利用勒索、贿赂、社会工程学等各种经验证明非常有效的方法。对于那些有分寸不使用此类不光彩手段但拥有资源的人来说他们也可以通过花费大约1亿美元来加入具备AI能力的行列。即使是《财富》全球2000强中最小的公司也有70亿美元的年收入这样的支出完全在其预算范围内。当然大多数国家的政府也能负担得起这样的费用。当然根据拟议法规的要求这些组织都不能直接向公众提供这些模型但根据定义每个组织中至少会有一部分人拥有完整模型的权力。那些渴望权力和财富但未能获得模型权重访问权限的人现在有了新目标进入拥有大型模型组织的权力职位或者进入做出这些决策的政府部门。那些最初旨在为社会利益开发AI、充满善意的组织很快就会发现自己变成了追逐企业利润的机器的一部分——所有公司成长过程中都会加入的、由擅长追逐利润的人运营的机器。事实是这整个试图控制AI使用的努力是徒劳和无效的。不仅模型的“扩散”无法控制因为数字信息太容易被窃取和复制而且对模型训练所需计算能力的限制也无法执行。这是因为现在世界各地的人们可以虚拟地联合起来共同训练一个模型。例如某中心创建了一个完全去中心化、开放、可扩展的AI云最近的研究表明这种方法可以走得很远。用于训练模型的图形处理单元GPU与用于玩电脑游戏的硬件完全相同。目前全球用于玩游戏的计算能力比用于AI的还要多。世界各地的游戏玩家只需在电脑上安装一个小软件就可以选择帮助训练这些开源模型。组织如此大规模的行动会很困难但并非没有先例如 FoldingHome 和 SETIHome 等项目的成功所示。开发者已经在思考如何确保普通人能够继续训练这些模型——例如在最近与 Lex Fridman 的访谈中某机构创始人 George Hotz 解释了他的新公司 Tiny Corp 正在开发的“Tiny Rack”其设计前提是“你能在不引起怀疑的情况下把最多的电力弄进你家其中一个答案是电动汽车充电器。”因此他正在构建一个使用与汽车充电器相同电量的AI模型训练系统。AI安全社区很清楚这个问题并提出了各种解决方案。例如AI政策专家 Yo Shavit 最近发表的一篇有影响力的论文研究了可以添加到计算机芯片中的监控机制指出“随着先进机器学习系统的能力开始在 geopolitics 和社会秩序中发挥重要作用可能变得至关重要1政府能够在其境内强制执行关于开发先进ML系统的规则以及2各国能够核查彼此对先进ML开发的潜在国际协议的遵守情况。”任何解决此问题的方法都必须确保要求所有此类芯片制造商在其芯片中加入监控功能因为显然如果有一家公司不这样做那么所有想要训练自己强大模型的人都会使用该公司的芯片。Shavit 指出“在硬件层面彻底执行此类规则将需要监控和监管个人对其个人电脑的使用这在伦理基础上是高度不可接受的。”然而现实是要使集中化和控制有效此类规则是必需的因为个人电脑通过互联网连接就可以用于训练大型模型。当自称 AI 安全运动先驱的 Eliezer Yudkowsky 提议空袭未经授权的数据中心并以核战争威胁来确保那些未能控制计算能力未经授权使用的国家遵守规定时许多人感到震惊。但轰炸数据中心和对所有计算机进行全球监控是确保 FAR 所提议的那种安全合规的唯一途径。监管使用而非开发Alex Engler 指出了一种替代强制执行安全标准或模型许可的方法即“监管有风险的、有害的应用而不是开源 AI 模型”。大多数监管都是这样运作的通过责任追究。如果有人做了坏事他们就会有麻烦。如果有人创建了一个通用工具而别人用它做了坏事工具制造者通常不会惹上麻烦。“双重用途”技术如互联网、计算机、纸笔并不局限于只有大公司才能使用任何人都可以制造计算机或造纸。他们不必确保他们制造的东西只能用于社会公益。这是一个关键区别监管使用即实际将模型投入系统使用——尤其是像医疗这样的高风险系统与监管开发即训练模型的过程之间的区别。这个区别之所以关键是因为这些模型实际上只不过是数学函数。它们输入一堆数字计算并返回另一堆数字。它们本身不做任何事——只能计算数字。然而这些计算可能非常有用事实上计算机本身也仅仅是计算器因此得名“计算机”。它们只有在被使用时即连接到某个实际能做事的系统才是有用的。FAR 提到了这个区别声称“AI 能力的改进可能是不可预测的并且通常需要密集测试才能完全理解。因此不要求模型在部署前进行充分测试的监管可能无法可靠地防止已部署模型构成严重风险。”这是一个不合逻辑的推论。因为模型在不被使用时不会造成伤害所以开发模型本身不可能是一项有害活动。此外因为我们讨论的是通用模型我们无法确保模型本身的安全——我们只能尝试确保模型使用的安全。另一个有用的监管思路是考虑保护对敏感基础设施如化学实验室的访问。FAR 简要考虑了这个想法说“对于前沿AI开发特定行业的监管可能很有价值但很可能无法解决一部分高严重性和规模的风险。”但它没有进一步研究而是基于一个假定的、看似“可能”存在的剩余风险子集去推动一个正如我们所见可能颠覆数百年文化、社会和政治发展的方法。如果我们能够构建先进的AI我们应该期望它至少能帮助我们识别需要加固的敏感基础设施。如果有可能利用此类基础设施造成伤害那么它似乎很可能可以被识别出来——如果AI无法识别它那么它就无法利用它。当然实际处理已识别的威胁可能并不简单例如如果发现台式DNA打印机可能被用于制造危险病原体那么加固所有这些设备将是一项巨大的工作。但这仍然比限制世界上所有计算设备的工作量要小得多侵入性也低得多。这引出了另一个有用的监管路径部署披露。如果你考虑将任何使用AI的自动化系统连接到任何类型的敏感基础设施那么我们应该要求披露这一事实。此外某些类型的连接和基础设施应需要预先进行仔细的安全检查和审计。通往集中化的道路更好的AI可以用来改进AI。这一点甚至在更早期能力较弱、资源较少的算法时代就已经多次出现。某机构利用AI改善数据中心能耗、创建更好的神经网络架构以及优化网络参数的方法。模型输出已被用于创建训练新模型的提示词、为这些提示词生成模型答案并解释答案的推理过程。随着模型变得更强大研究人员将找到更多方法来使用它们改进数据、模型和训练过程。没有理由相信我们已经接近这项技术的极限。没有任何数据可以用来明确预测这能走多远或者接下来会发生什么。那些拥有完整模型访问权限的人可以比没有访问权限的人更快更好地构建新模型。原因之一是他们可以充分利用强大的功能如微调、激活以及直接研究和修改权重的能力。例如最近一篇论文发现微调可以让模型用比基础模型少几个数量级的参数来解决具有挑战性的问题。这种反馈循环导致集中化大公司变得更大其他参与者无法竞争。这导致集中化、竞争减少进而导致价格更高、创新更少、安全性更低因为存在单点故障且更大的利润动机会鼓励冒险行为。还有其他强大的力量推动集中化。以某机构为例。某机构拥有比地球上任何人都多的数据。更多数据直接导致更好的基础模型。此外随着人们使用其AI服务他们正在获取越来越多的关于这些交互的数据。他们使用AI改进产品使其对用户更具“粘性”并鼓励更多人使用从而获得更多数据这进一步改善了他们的模型和基于模型的产品。同时它们越来越垂直整合因此强大的供应商很少。它们制造自己的AI芯片TPU、运营自己的数据中心并开发自己的软件。对前沿模型开发的监管鼓励更大的集中化。特别是许可制度这是FAR提出的一种强有力的集中化力量。对前沿模型开发的许可要求新进入者必须申请许可才能开发与当前技术水平相当或更好的模型。这使得与根深蒂固的参与者竞争更加困难。它还开辟了一条通往监管捕获的极端强大的路径因为它导致一个非民主的许可委员会拥有决定谁有权构建地球上最强大技术的最终发言权。因此这样的机构可能成为世界上最强大的群体。开源与AI启蒙的新时代替代渴望安全和确定性、走向控制和集中化的是再次承担我们数百年前承担过的风险相信人类和社会的力量与善良的风险。正如启蒙时代的思想家们提出“如果每个人都能接受教育会怎样如果每个人都有投票权会怎样”这样的难题一样我们应该问“如果每个人都能访问AI的全部能力会怎样”需要明确的是提出这样的问题可能不受欢迎。反启蒙运动是一场持续百年的强大运动抵制“对进步的信念、所有人的理性、自由民主以及社会日益世俗化”。它依赖一个关键假设正如法国哲学家 Joseph de Maistre 所阐述的那样“一般而言如果人类局限于自身他们太邪恶了不配拥有自由。”我们可以从启蒙运动的结果看出这个前提是错误的。但这个观念就是挥之不去。几十年来社会学家一直在研究和记录“精英恐慌”——精英阶层倾向于假设普通人会对灾难做出不良反应因此必须受到控制。但这同样错了。事实上正如 Rebecca Solnit 所解释的它不仅仅是错误“我将这些危机时刻视为大众权力和积极社会变革的时刻。我书中的一个主要例子是墨西哥城1985年的地震引发了公众对一党制的不满从而导致了公民社会的重生。”当我们应对AI误用的威胁时拥抱对进步和所有人理性的信念是什么样子的许多专家正在研究的一个想法是开源模型可能是关键。模型只是软件——它们是体现为代码的数学函数。当我们复制软件时我们通常不称之为“扩散”像FAR那样。这个词通常与核武器联系在一起。当我们复制软件时我们称之为“安装”、“部署”或“共享”。因为软件可以自由复制它激发了一场巨大的开源运动将这种共享视为一种道义上的善。当所有人都能受益时为什么要将价值限制在少数人手中这个想法很强大。今天几乎你使用的每个网站都在运行开源网络服务器如 Apache而该服务器又安装在开源操作系统通常是 Linux上。大多数程序都用开源编译器编译用开源编辑器编写。像维基百科这样的开源文档具有变革性。起初这些都被视为疯狂的想法有很多怀疑者但最终它们被证明是正确的。简而言之如果没有开源你今天使用的大部分计算机和互联网世界都将不存在。如果最强大的AI模型是开源的会怎样仍然会有坏人试图利用它们伤害他人或不公正地致富。但大多数人不是坏人。大多数人将使用这些模型来创造和保护。让拥有不同专业知识和背景的广泛人类社会尽其所能识别和应对威胁并有AI的全部力量作为后盾还有什么比这更安全的呢如果世界顶尖的网络安全、生物武器和社会工程学学者在AI的帮助下研究AI安全并且你可以访问和使用他们所有的成果与只有营利公司少数人拥有AI模型的完全访问权限相比你会感到安全多少为了获得完全模型访问的更好功能并减少商业对以往具有共享文化的开放研究社区的控制开源社区最近介入并训练了一些相当有能力的语言模型。截至2023年7月这些模型中最好的已经达到与第二梯队商用廉价模型相似的水平但不如GPT-4或 Claude。它们的能力正在迅速提高并且正吸引着来自富有的捐助者、政府、大学以及寻求避免权力集中并确保获得高质量AI模型的公司的越来越多的投资。然而FAR中关于安全保证的提案与开源前沿模型是不相容的。FAR提议“在安全部署被证明可行之前避免前沿AI模型的潜在危险能力被开源可能是审慎的”。但即使一个开源模型以与监管批准的封闭商业模型完全相同的方式、从完全相同的数据训练而来它仍然永远无法提供相同的安全保证。这是因为作为一个通用计算设备任何人都可以将其用于任何目的——包括使用新数据集和新任务对其进行微调。开源不是万灵药。这仍然需要谨慎、合作以及深入细致的研究。通过使系统向所有人开放我们确保整个社会既能从其能力中受益也能努力理解和对抗其潜在危害。某机构和某机构顶尖的AI和政策小组联合回应了美国政府关于AI问责的意见征求声明“为使基础模型增进公共利益其开发和部署应确保透明度、支持创新、分散权力并最小化伤害……我们认为开源基础模型可以实现所有这四个目标部分归功于开源的固有优点促进透明、促进创新、反对集中。”此外他们警告“如果闭源模型不能被研究人员和技术专家审查安全漏洞可能在造成伤害之前未被识别……另一方面跨领域的专家可以审查和分析开源模型这使得安全漏洞更容易被发现和解决。此外限制谁能创建基础模型将减少有能力的基础模型的多样性并可能导致复杂系统中的单点故障。”实际上获取最佳AI模型对研究AI安全至关重要的观点是当今两家最先进的AI公司——某中心和某机构——起源故事的基础。许多人惊讶于这些公司高管大声警告AI潜在的生存风险但他们自己却在构建这些模型。但这并不矛盾——他们已经解释过这样做的原因是他们认为如果无法获得最先进的模型就不可能正确理解和减轻AI风险。今天开源模型的访问权限正面临严重威胁。基于与FAR类似的原则《欧洲人工智能法案》可能会有效禁止开源基础模型。技术创新政策分析师 Alex Engler 在其文章《欧盟监管开源AI的努力适得其反》中写道“理事会对开源进行监管的尝试可能产生一套复杂的规则危及开源AI贡献者但可能并未改进通用AI的使用。开源AI模型通过挑战大型科技公司对通用AI的统治并使公众了解AI的功能提供了巨大的社会价值。”首先不造成伤害FAR 得出结论“对解决前沿 AI 模型所带来挑战的最佳监管方法的不确定性不应阻碍立即行动”。但或许应该阻碍。事实上AI 政策专家 Patrick Grady 和 Daniel Castro 恰恰建议——不要急于采取监管行动‘围绕新技术的恐惧遵循一个可预测的轨迹称为“技术恐慌周期”。恐惧上升、达到顶峰、然后随着公众熟悉技术及其益处而下降。确实创意领域其他先前的“生成式”技术如印刷机、留声机和电影机也遵循了同样的轨迹。但与今天不同的是当时的政策制定者不太可能做太多事情来监管和限制这些技术。随着对生成式 AI 的恐慌进入最动荡的阶段政策制定者应该深呼吸认识到我们正处于一个可预测的周期中并将直接针对生成式 AI 的任何监管努力暂时搁置。’相反监管者或许应该考虑希波克拉底的医学指导“不造成伤害”。医疗干预可能有副作用有时治疗可能比疾病本身更糟。有些药物甚至可能损害免疫反应使身体过于虚弱而无法抵抗感染。监管干预也是如此。不仅“确保安全”所带来的集中化和监管捕获影响会对社会造成直接伤害甚至可能导致安全性下降。如果只有一个大型组织掌握着巨大技术力量的钥匙我们就会发现自己处于一种脆弱的境地即社会其他成员无法获得同等的力量来保护自己。权力斗争甚至可能成为触发滥用 AI 并导致社会毁灭的那类事件的导火索。AI 监管的影响将是微妙、复杂且难以预测的。保卫社会与赋能社会自我保护之间的平衡极其微妙。急于监管似乎不太可能成功走好这根钢丝。我们还有时间。人类社会整体的能力总和是巨大的AI 要超越这个能力是一项艰巨的任务。某中心的技术专家 Ted Sanders曾赢得多次技术预测竞赛与某机构 AI 总监 Ari Allyn-Feuer 共同完成了一份长达 114 页的关于 AI 发展时间框架的深入分析结论是“我们估计到 2043 年实现变革性通用人工智能AGI的可能性低于 1%”。重要的是时间越久我们了解得越多。不仅是关于技术还有社会对其的反应方式。我们不应急于实施可能将社会推向一个可能无法逆转的、反乌托邦道路的监管变革。对先进语言模型安全性的担忧并不新鲜。早在 2019 年初我写了《关于 AI 零日威胁以及某中心 GPT-2 的一些想法》这是对某中心当时有争议且在当时不寻常的决定——不发布其新语言模型的权重——的回应。在思考这一决定时我指出关于这个话题最深入的分析是《人工智能的恶意使用》这篇论文。该论文的主要作者现在任职于某中心并且深度参与了模型发布的决策。让我们看看那篇论文的建议政策制定者应与技术研究人员密切合作调查、预防和减轻 AI 的潜在恶意使用。AI 研究人员和工程师应认真对待其工作的双重用途性质让与误用相关的考虑影响研究重点和规范并在可预见有害应用时主动联系相关方。应在方法更成熟的研究领域如计算机安全确定最佳实践并在适用的情况下引入 AI 领域。积极寻求扩大参与讨论这些挑战的利益相关者和领域专家的范围。《人工智能的恶意使用》由来自 14 个机构的 26 位作者撰写涵盖学术界、民间社会和工业界。主要作者现在是某中心的政策负责人。有趣的是作为 FAR 的共同起草者某中心已经偏离这些最初的想法有多远。恶意使用论文中的四点建议充满了谦逊——它们认识到有效的风险应对措施需要“主动联系相关方”从“拥有更成熟方法应对双重用途问题的研究领域如计算机安全”学习并“扩大参与讨论的利益相关者和领域专家的范围”。重点不在于集中化和控制而在于外展和合作。机器人末日即将来临的想法引人注目且吸引人。FAR 警告我们必须“防范模型可能具有情境意识和欺骗性”并链接到一篇文章声称我们当前的路径“很可能最终导致全面的 AI 接管即 AI 系统可能发动暴力起义或政变”。正是这类想法会推动我们去做任何能让我们感到更安全的事情。要抵制这种反应需要成熟和冷静的头脑。古希腊人教导我们傲慢的危险过度的骄傲、自大或过度自信。当我们过度自信地认为我们知道未来会怎样时我们很可能会反应过度并恰恰创造出我们试图避免的未来。如果在我们试图避免 AI 末日的过程中我们集中控制了世界上最强大的技术注定让未来的社会回归到一种封建状态其中最有价值的商品——计算能力——由少数精英拥有我们会怎样我们就像国王俄狄浦斯被预言会杀父娶母最终却恰恰因为试图避免这一命运的行为而应验了预言。或者像法厄同过于自信能够驾驭太阳战车以至于偏离了父亲赫利俄斯设定的中道几乎摧毁了地球。《人工智能的恶意使用》指向了一种不同的方法基于谦逊与多领域的专家协商与技术影响群体合作在一个从经验中学习的迭代过程中。例如如果我们采纳他们的建议并向计算机安全专家学习我们会学到该领域的一个关键理念是“通过隐匿实现安全”——即将秘密隐藏作为安全和保障的基础——是无效且危险的。网络安全专家、某中心信息技术政策中心主任 Arvind Narayanan 和 Sayash Kapoor 在最近的分析中详细说明了由许可和类似监管即“只有少数几家公司能够开发最先进的AI”将导致的五大“主要AI风险”单一文化可能加剧安全风险单一文化可能导致结果同质化定义可接受言论的边界影响态度和观点监管捕获。我们是如何走到这一步的我认识的每一位花时间使用过 GPT-4 和 Bard 等工具的人都对其能力感到震惊——包括我自己尽管它们有很多错误即“幻觉”但它们几乎能为任何话题提供各种帮助。我每天都使用它们从获取编程帮助到为我女儿寻找游戏点子。正如 FAR 所解释“基础模型例如大型语言模型是在大规模、广泛的自然语言和其他文本如计算机代码语料库上训练的通常从预测下一个‘标记’这一简单目标开始。这种相对简单的方法产生了具有惊人广泛能力的模型。因此这些模型比许多其他类别的 AI 模型具有更通用的功能。”它接着说“在关注可能具有危险、涌现能力的基础模型时我们对前沿 AI 的定义排除了专用模型即使这些模型可能具有足够危险的能力。例如优化化合物毒性或病原体毒力的模型可能导致有意的或至少是预见的伤害因此可能更适合用更有针对性的法规来覆盖。我们的定义侧重于可能拥有危险能力的模型而不仅仅是那些确实拥有这些能力的模型。”因此作者提议“负责任的前沿 AI 开发和部署的安全标准”以及“授权监督机构识别和制裁不合规行为或通过许可前沿 AI 的部署甚至可能是其开发”。他们提议这样做是为了“确保”模型“为公共利益服务”。假设这些提案被接受并制定了相关法规。接下来会发生什么有两种可能AI 能力的增长遇到瓶颈因此尽管 AI 可能是一项非常重要的技术但我们没有达到可能毁灭社会的超级智能或者AI 能力继续发展直到它成为人类历史上迄今为止最强大的技术力量。某中心首席执行官 Sam Altman 的预言成为现实即拥有这项技术的人可以“或许捕获宇宙中所有未来价值的视界”。在情况1下没什么更多可讨论的。FAR 提出的法规最坏的情况是不必要的并可能导致对一个相当有价值的产品空间进行监管捕获。这很可惜但我们可以忍受。但这并不是 FAR 提案旨在应对的情况——对于像现有技术那样的滥用风险我们已经有很多简单、易于理解的方法通常基于对滥用的责任追究即如果你使用某项技术做了坏事你会有麻烦制造该技术的人通常不会惹上麻烦除非他们存在疏忽或以其他方式明显且直接地促成了坏事。因此我们应该关注情况2——即 AI 确实变得非常重要的情形。需要明确的是没有人确定这会发生但许多长期研究 AI 的人认为这是一个真实的可能性。人类最强大的技术我们现在正处于“通用人工智能”时代这得益于“通用”或“基础”模型例如某中心的 GPT-4、某机构的 Bard 和某机构的 Claude。这些模型是通用计算设备。它们可以以不同程度的成功率回答你抛给它们的几乎所有问题。随着基础模型变得更强大我们应该期望研究人员找到更多方法来使用它们改进数据、模型和训练过程。当前的模型、数据集创建技术和训练方法都相当简单——基本思想可以用几行代码概括。有很多相当明显的路径可以极大地改进它们没有理由相信我们已经接近这项技术的极限。因此我们应该预期在未来的几个月和几年里技术发展的周期会越来越快。没有任何数据可以用来明确预测这能走多远或者接下来会发生什么。许多研究人员和 AI 公司高管认为可能没有实际的限制。但训练这些模型成本高昂。得益于技术进步训练相同规模的模型越来越便宜但模型本身却越来越大。GPT-4 的训练可能花费了大约 1 亿美元。目前所有最强大的模型GPT-4、Bard 和 Claude都是由美国分别是某中心、某机构和某机构和中国的大公司训练的。共同建设已经有许多监管举措在实施包括白宫科技政策办公室的《人工智能权利法案蓝图》、国家标准与技术研究院的《人工智能风险管理框架》以及拜登保护美国人免受算法歧视的《第 14091 号行政命令》。AI 社区也开发了共享重要信息的有效机制例如数据集文档、模型报告模型卡和生态图。监管可以要求数据集和模型包含关于其构建或训练方式的信息以帮助用户更有效、更安全地部署它们。这类似于营养标签虽然我们不禁止人们吃太多垃圾食品但我们努力为他们提供做出明智选择所需的信息。拟议的欧盟《人工智能法案》已经包含了对此类信息的要求。尽管我们可以借鉴许多优秀的工作但还有更多事情要做。AI 世界发展迅速我们每天都在学习。因此重要的是要确保我们做出的选择能为未来保留选择权。现在为我们自己选择一条路并决定以不可阻挡的势头猛冲下去还为时过早。相反作为一个社会我们需要能够快速并以知情的方式应对新出现的机遇和威胁。这意味着让所有相关领域的广泛专家以及受影响社区的成员参与进来。我们为政策制定机构建设的能力越强越好。如果决策者对 AI 缺乏深入了解他们别无选择只能听从行业意见。但正如某机构网络政策中心国际政策主任 Marietje Schaake 所说“我们需要让 CEO 远离 AI 监管”“想象一下某机构首席执行官向国会解释由于金融产品对立法者来说太复杂银行应该自行决定如何防止洗钱、启用欺诈检测和设定流动性贷款比率。他会被轰下台。愤怒的选民会指出在全球金融危机中自我监管的结果有多好。从大型烟草到大型石油我们艰难地认识到企业无法制定无私的法规。它们既不独立也无法创造制衡自身的力量。”我们还应注意不要让引人入胜的科幻场景分散我们对当前真实伤害的注意力。变形金刚神经网络架构为包括 GPT-4 在内的所有顶级语言模型提供支持的共同创造者 Aiden Gomez 警告“这项技术确实存在风险。有理由担心这项技术、谁使用它以及如何使用它。因此把所有时间都花在争论我们的物种是否会因为超级智能 AGI 的接管而灭绝上这是对我们时间和公众注意力的荒谬浪费……我真的希望公众知道一些更奇幻的风险故事[是没有根据的]。它们分散了应该进行的对话的注意力。”反启蒙时代如果面对一种新的力量面对不确定性面对对我们安全的威胁我们退缩到集中化、控制、将权力限制在少数人手中的确定性中那会怎样这就是反启蒙时代。是带来启蒙时代的原则的倒退。我们将创造一个“拥有者”和“未拥有者”的世界。“拥有者”大公司、有组织犯罪、政府、以及所有说服亲朋好友为他们获取权重副本的人、所有访问黑客分发这些权重的暗网网站的人、所有复制它们的人……可以构建越来越好、根据 FAR 的说法可用于大规模宣传、生物和网络威胁开发或者仅仅用于确保你击败所有竞争对手并垄断最具战略性和盈利性行业的模型。“未拥有者”对社会提供的价值很小因为他们只能通过提供有限但“安全”应用的狭窄门户访问 AI。推动对 AI 能力的商业控制是危险的。创造了“休克疗法”这一术语指“利用公众在集体冲击后的迷茫……来推行激进的亲企业措施”的残酷策略的 Naomi Klein 现在警告说AI “很可能成为一个可怕的进一步剥夺和破坏的工具”。一旦我们走上这条道路就很难回头。事实上这可能是不可能的。技术政策专家 Anja Kaspersen、Kobi Leins 和 Wendell Wallach 在他们的文章《我们是否在自动化邪恶的平庸和极端》中指出部署糟糕的解决方案例如设计不良的监管可能需要数十年来纠正如果该解决方案对某些人有利可图的话“基于 AI 的工具的快速部署与含铅汽油的推广有很强的相似性。汽油中的铅解决了一个真正的问题——发动机爆震。含铅汽油的发明者 Thomas Midgley 了解铅中毒因为他自己也患上了这种疾病。还有其他危害更小的解决方法只有在立法者最终介入制定正确的激励措施以抵消销售含铅汽油所获得的巨额利润时这些方法才得以开发。”随着集中化我们将创造“拥有者”和“未拥有者”而“拥有者”将能够访问一种使他们远比其他人强大的技术。当巨大的权力和财富差距被创造出来时它们会被那些最渴望权力和财富的人攫取历史告诉我们暴力是消除这种差异的唯一途径。正如 John F. Kennedy 所说“那些使和平革命不可能的人将使暴力革命不可避免。”也许拥有 AI 的力量以及维持控制所需的监控即使是暴力也将成为一种无效的解决方案。如果我们确实开始朝着这个方向前进让我们睁大眼睛明白它将把我们带向何方。启蒙时代的脆弱性在人类历史的大部分时间里未来是可怕的。是不安全的。是未知的。我们以最简单、最明显的方式回应集体将信任寄托在比我们更强大的他人身上以保护我们的安全。大多数社会将教育和权力等危险工具限制在少数精英手中。但后来情况发生了变化。西方产生了一种新思想。如果还有另一种方式可以确保安全相信整个社会的总体善良而不是信赖强大的精英如果每个人都有机会接受教育有投票权接触到技术呢这——尽管还需要几个世纪的进步才能完全实现其承诺——就是启蒙时代。既然我们中这么多人生活在自由民主国家很容易忘记这是多么脆弱和罕见。但我们可以看到世界各地的国家现在正滑向威权领导人的怀抱。正如 Hermann Göring 所说“总能引导人民听从领导人的命令。这很容易。你只需要告诉他们正在遭受攻击……”让我们明确一点我们没有遭受攻击。现在不是放弃我们为平等和机会来之不易的进步的时候。没有人能保证你的安全但我们可以共同努力与 AI 一起构建一个为我们所有人服务的社会。附录背景本文最初是对《前沿人工智能监管管理对公共安全的新兴风险》FAR的红队评估。尽管红队评估在政策提案中并不常见主要用于计算机安全领域但它或许应该是因为政策提案可能存在难以预见、未经仔细分析的风险。在《欧盟人工智能法案》议会版本其中包含了对基础模型开发的全面新监管发布后连同其他我受邀审查的、来自其他司法管辖区的类似私人监管提案我决定扩展我们的分析范围以涵盖对模型开发的更广泛监管。在撰写本评估的过程中我与来自监管、政策、AI 安全、AI 能力、网络安全、经济学和技术转型领域的 70 多位专家讨论了这些问题并查阅了 300 多篇学术论文。Eric Ries 和我一起录制了几次专家访谈我们将在未来几周内发布。我们的观点是社会成功过渡到 AI 未来最重要的基础是整个社会的参与、投入和知情。因此我们正在努力建设一个跨学科社区资源以帮助应对先进 AI 潜在机遇和威胁的人们。这个资源将被称为“AI 答案”。您正在阅读的这篇评估是该项目开发过程中产生的第一个公开成果。如果您是该领域的政策制定者或决策者或者从事您认为其成果可能对该领域有用的任何领域的研究我们希望收到您的来信致谢在本文的整个撰写过程中Eric Ries 一直是我亲密的合作者我对他给予的智慧、耐心和坚韧深表感激。非常感谢以下评审人提供的详细反馈Percy Liang、Marietje Schakke、Jack Clark、Andrew Maynard、Vijay Sundaram 和 Brian Christian。特别要感谢 FAR 的作者之一 Yo Shavit他非常慷慨地花费时间帮助我加强对他自己论文的这篇批评我也感谢与 Andy Matuschak 进行的许多深入交谈他深思熟虑的分析对本文观点的形成至关重要。我还要感谢 Arvind Narayanan、Sayash Kapoor、Seth Lazar 和 Rich Harang感谢 Eric 和我与他们进行的精彩对话。感谢来自某中心的 Jade Leung 和来自 Governance.ai 的 Markus Anderljung 同意接受评审过程并为我们提供了 FAR 的预发布版本以供研究。脚注虽然对该论文的作者公平地说——我还没有在任何地方看到提到或解决这个问题。↩︎如果 AI 能力持续发展且没有限制这种情况将会发生。↩︎前沿模型的成本可能继续上升。生成式 AI 初创公司 inflection.ai更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享