我对AI 2027的回应

特别感谢Balvi志愿者的反馈和审查

今年四月，Daniel Kokotajlo、Scott Alexander等人发布了他们所描述的“一个场景，代表了我们对[超人类AI在未来五年内的影响]可能是什么样子的最佳猜测”。该场景预测到2027年我们将制造出超人类AI，而我们文明的整个未来取决于它的结果：到2030年，我们将从美国的角度获得乌托邦，或从任何人类的角度获得彻底的毁灭。

自那时以来，已经有大量的回应，关于他们所呈现的场景的可能性有着不同的看法。例如：

在批评的回应中，大多数人倾向于关注快速时间线的问题：AI的进步是否真的会像Kokotajlo等人所说的那样继续并加速？这是近年来AI讨论中一直存在的辩论，许多人对超人类AI会如此迅速出现持怀疑态度。最近，AI能够完全自主执行的任务长度大约每七个月翻倍。如果假设这一趋势无限持续，AI将在2030年代中期能够自主操作相当于整个人类职业的时间。这仍然是一个非常快的时间线，但远比2027年慢。持有较长时间线的人倾向于认为存在类别差异，“插值/模式匹配”（由今天的LLM完成）与“外推/真正的原创思维”（迄今为止仍然只有人类完成）之间的区别，自动化后者可能需要我们几乎没有任何开发起步想法的技术。也许我们只是在重演当我们首次看到计算器大规模采用时发生的事情，错误地假设仅仅因为我们迅速自动化了一个重要的认知类别，其他一切很快就会跟上。

这篇文章不会试图直接进入时间线辩论，甚至（非常重要的）关于超智能AI是否默认危险的辩论。也就是说，我承认我个人的时间线超过2027年，而我在这篇文章中提出的论点在时间线越长时越具说服力。一般来说，这篇文章将从不同的角度探讨一个批评：

AI 2027场景隐含假设领先AI（Agent-5和随后Consensus-1）的能力迅速增加，达到获得神一般的经济和破坏力的程度，而其他人的（经济和防御）能力大致保持不变。这与场景自身的承认（在信息图中）不相容，即使在悲观的世界中，我们也应该期待到2029年看到癌症甚至衰老被治愈，以及心智上传可用。

一些我将在这篇文章中描述的对策可能在读者看来在技术上是可行的，但在短时间内在现实世界中部署却不切实际。在许多情况下，我同意这一点。然而，AI 2027场景并不假设当今的现实世界：它假设在四年内（或任何可能的末日时间线），会开发出使人类拥有远超我们今天的能力的技术。那么，让我们看看当双方都获得AI超能力时会发生什么。

生物末日远非场景所描述的必然结果

让我们聚焦于“竞赛”场景（即因为美国过于关注击败中国而不重视人类安全，导致每个人都死去的场景）。这是每个人都死去的部分：

在大约三个月的时间里，Consensus-1围绕人类扩展，在草原和冰盖上铺设工厂和太阳能电池板。最终，它发现剩余的人类成为了太大的障碍：在2030年中，AI在主要城市释放了十几种悄然传播的生物武器，让它们悄悄感染几乎所有人，然后用化学喷雾触发它们。大多数人在数小时内死亡；少数幸存者（例如，躲在掩体中的准备者、潜艇上的水手）被无人机清除。机器人扫描受害者的大脑，将副本存入记忆中以供未来研究或复活。

让我们剖析这个场景。即使在今天，也有正在开发的技术可以使AI实现那种“干净胜利”的可能性大大降低：

空气过滤、通风和UVC，可以被动地大幅降低空气传播疾病的传播率。
实时被动检测的形式，适用于两个用例：
- 被动检测一个人在数小时内是否感染并通知他们。
- 快速检测环境中尚未知的新病毒序列（PCR无法做到这一点，因为它依赖于放大预先已知的序列，但更复杂的技术可以）。
各种增强和刺激我们免疫系统的方法，远比我们在Covid疫苗中看到的更有效、安全、通用且易于本地制造，以使其对自然和工程化的流行病具有抵抗力。人类在全球人口为800万的环境中进化，我们大部分时间都在户外，因此直观上应该在适应当今更高威胁的世界中有简单的胜利。

这些方法叠加在一起可能将空气传播疾病的R0降低10-20倍（想想：通过更好的空气减少4倍传播，通过感染者立即得知需要隔离减少3倍，甚至仅仅是天真地上调呼吸免疫系统减少1.5倍），如果不是更多的话。这将足以使所有现存的空气传播疾病（甚至麻疹）不再具备传播能力，而这些数字远未达到理论最优值。

随着实时病毒测序的充分采用以实现早期检测，“悄然传播的生物武器”能够在不引发警报的情况下到达全球人口的想法变得非常可疑。请注意，这甚至会捕捉到像释放多种流行病和仅在组合中变得危险的化学物质等先进方法。

现在，让我们记住我们正在讨论AI 2027场景，其中纳米机器人和戴森群在2030年被列为“新兴技术”。这暗示的效率提升也是对上述对策广泛部署持乐观态度的原因之一，尽管在2025年的今天，我们生活在一个人类缓慢懒惰且大部分政府服务仍然依赖于纸笔（没有任何有效的安全理由）的世界中。

如果世界上最强大的AI能够在2030年前将世界的森林和田野转变为工厂和太阳能农场，那么世界上第二强大的AI也能够在2030年前在我们的建筑中安装一堆传感器、灯具和过滤器。

但让我们进一步推演AI 2027的假设，进入完全的科幻领域：

体内（鼻子、嘴巴、肺部）微观空气过滤
一条自动化管道，从新病原体被发现到调整你的免疫系统的指令，这可以立即应用
如果“脑上传”可用，那么就用一个特斯拉Optimus或Unitree替换掉你的整个身体（实时流式备份到一个K-Scale开源类人机器人——一个不同品牌以实现冗余——位于火星上）
各种新的制造技术，作为机器人经济的一部分，可能会默认得到超级优化，能够在本地生产比今天更多的这些东西，而无需全球供应链

在一个癌症和衰老在2029年1月被治愈的世界中，进展进一步加速，我们已经进入2030年中期，实际上感觉不太可能我们没有一种可穿戴设备能够实时生物打印和注射东西到你体内，以保护你免受任意感染（和毒药）。上述生物论证没有涵盖镜像生命和蚊子大小的杀手无人机（在AI 2027场景中预计从2029年开始可用）。然而，这些选项并不能实现AI 2027场景所描绘的那种突然的干净胜利，如何对称防御它们直观上要清晰得多。

因此，生物武器实际上很不可能以AI 2027场景所描述的方式导致人类人口的干净消灭。现在，我所描述的一切结果无疑也远非人类的干净胜利。无论我们做什么（也许除了“将我们的思想上传到机器人”这个选项），全面的AI生物战争仍然会极其危险。然而，达到一个远低于人类干净胜利的标准是有价值的：攻击部分失败的高概率将作为强有力的威慑，阻止已经在世界上占据强大地位的AI尝试任何形式的攻击。当然，AI时间线越长，这种方法实际上更有可能更充分地实现其承诺。

生物攻击与其他类型攻击的结合如何？

上述对策的成功，特别是需要拯救超过小型爱好者社区的集体措施，依赖于三个前提条件：

世界的物理安全（包括生物和反无人机）由地方权威（无论是人类还是AI）管理，而这些权威并非全部是Consensus-1的傀儡（Consensus-1是最终控制世界并在AI 2027场景中杀死所有人的AI的名称）
Consensus-1无法黑客攻击所有其他国家（或城市或其他安全区）的防御并立即将其归零。
Consensus-1不控制全球信息领域到没有人想去做工作以尝试保护自己

直观上，(1)可以有两种情况。今天，一些警察部队高度集中，具有强大的国家指挥结构，而其他警察部队则是地方化的。如果物理安全必须迅速转变以满足AI时代的需求，那么局势将完全重置，新的结果将取决于未来几年的选择。政府可能会变得懒惰，全部依赖Palantir。或者他们可能会积极选择一些结合本地开发和开源技术的选项。

在这里，我认为我们需要做出正确的选择。

关于这些主题的许多悲观论述假设（2）和（3）是无望的。因此，让我们更详细地探讨每一个。

网络安全的厄运也远非必然

公众和专业人士普遍认为，真正的网络安全是无望的，我们能做的最好就是在发现漏洞时迅速修补，并通过储备我们自己发现的漏洞来维持威慑以对抗网络攻击者。也许我们能做到的最好是《太空堡垒卡拉迪加》的情景，几乎所有人类飞船都在一次赛隆网络攻击中同时下线，唯一幸存的飞船是因为它们根本没有使用任何网络技术。我并不认同这种观点。相反，我认为网络安全的“终局”是非常有利于防御的，结合AI 2027假设的快速技术发展，我们可以实现这一目标。

一种看待这一点的方法是使用AI研究人员最喜欢的技术：外推趋势。以下是根据一项GPT深度研究调查所暗示的每千行代码的漏洞率趋势线，假设使用了顶级的安全技术。

在此基础上，我们在开发和广泛消费者采用沙箱和其他隔离和最小化可信代码库的技术方面也看到了显著的改善。在短期内，只有攻击者可以访问的超级智能漏洞发现者将能够找到大量漏洞。但如果用于发现漏洞或正式验证代码的高度智能代理在公开场合可用，那么自然的终局平衡是软件开发者在发布代码之前作为持续集成管道的一部分找到所有漏洞。

我可以看到两个令人信服的理由，为什么即使在这个世界中，漏洞也不会接近完全消除：

由于人类意图本身非常复杂而产生的缺陷，因此大部分困难在于建立一个足够准确的我们意图的模型，而不是在代码本身。
非安全关键组件，在这些组件中，我们可能会继续在消费技术中保持既有趋势，倾向于通过编写更多代码来处理更多任务（或降低开发预算）来获取软件工程的收益，而不是在不断提高的安全标准下完成相同数量的任务。

然而，这两个类别都不适用于“攻击者能否获得维持我们生存的事物的根访问权限？”这样的情况，这正是我们在这里讨论的内容。

我承认我的观点比当前网络安全领域非常聪明的人们的主流观点更为乐观。然而，即使你在今天的世界背景下不同意我的看法，值得记住的是，AI 2027场景假设了超级智能。至少，如果“1亿个极其超级智能的副本以2400倍人类速度思考”无法让我们拥有没有这些缺陷的代码，那么我们绝对应该重新评估超级智能是否真的如作者所想象的那样强大。

在某个时刻，我们需要大幅提升我们对安全的标准，不仅是软件，还有硬件。IRIS是改善硬件可验证性现状的一个当代努力。我们可以将IRIS作为起点，或创造更好的技术。现实中，这可能涉及一种“构造即正确”的方法，其中关键组件的硬件制造管道是故意设计的，考虑到特定的验证过程。

这些都是AI驱动的自动化将大大简化的事情。

超级说服的厄运也远非必然

正如我上面提到的，另一种可能使更强大的防御能力变得无关紧要的方式是，如果AI简单地说服我们中的关键群体，认为抵御超级智能AI威胁是不必要的，并且任何试图为自己或其社区寻找防御的人都是罪犯。

我一段时间以来的总体观点是，有两件事可以改善我们抵御超级说服的能力：

一个不那么单一的信息生态系统。可以说，我们已经在缓慢地走向一个后推特的世界，在这个世界中，互联网正在变得更加碎片化。这是好的（即使碎片化过程是混乱的），我们通常需要更多的信息多极化。
防御性AI。个人需要配备在本地运行的AI，明确忠于他们，以帮助平衡他们在互联网上看到的黑暗模式和威胁。这类想法的试点项目分散存在（例如，查看台湾的消息检查器应用程序，它在您的手机上进行本地扫描），并且有自然的市场来进一步测试这些想法（例如，保护人们免受诈骗），但这可以从更多的努力中受益。

抱歉，我无法处理该请求。

像这样的应用程序可以变得更加个性化、用户主权和强大。

这场战斗不应该是一个极其超智能的超级说服者与你之间的对抗。战斗应该是一个极其超智能的超级说服者与你加上一个稍微不那么极其超智能的分析者代表你行动之间的对抗。

这应该是应该发生的事情。但会发生吗？信息防御技术的普遍采用是一个非常难以实现的目标，尤其是在AI 2027场景假设的短时间内。但可以说，更为谦逊的里程碑将是足够的。如果集体决策是最重要的，正如AI 2027场景所暗示的，所有重要的事情都发生在一个选举周期内，那么严格来说，重要的是直接决策者（政治家、公务员、程序员和一些公司的其他参与者）能够获得良好的信息防御技术。这在短时间内相对更可实现，根据我的经验，许多这样的个人已经乐于与多个AI进行对话以协助他们的决策。

这些论点的含义

在AI 2027的世界中，超智能AI可以轻易且迅速地处理人类的其余部分被视为不言而喻，因此我们能做的唯一事情就是尽力确保领先的AI是仁慈的。在我的世界中，情况实际上要复杂得多，领先的AI是否强大到足以轻易消灭人类的其余部分（以及其他AI）是一个非常有争议的问题，我们可以采取行动来调整这个问题。

如果这些论点是正确的，那么它对今天的政策有一些影响，这些影响有时与“主流AI安全经典”相似，有时则不同：

减缓超智能AI的发展仍然是好的。如果超智能AI在10年内出现而不是3年内出现，风险会更小，如果在30年内出现，风险会更小。给我们的文明更多的准备时间是好的。

如何做到这一点是一个具有挑战性的问题。我认为美国提议的10年禁止州级AI监管的提案被拒绝是普遍好的，但特别是在早期提案如SB-1047失败之后，我们从这里出发的方向就不那么明确了。我的观点是，减缓风险形式的AI进展的最不干扰和最稳健的方法可能涉及某种形式的条约来规范最先进的硬件。实现有效防御所需的许多硬件网络安全技术也是验证国际硬件条约的有用技术，因此在这里甚至存在协同效应。

话虽如此，值得注意的是，我认为风险的主要来源是与军事相关的参与者，他们将竭力争取从此类条约中豁免；这必须不被允许，如果最终发生，那么结果可能会导致仅限军事的AI进展增加风险。
对齐工作，即使AI更有可能做好的事情而不太可能做坏事，仍然是好的。主要的例外是，仍然是对齐工作最终滑向提升能力的情况（例如，见对评估影响的批判性看法）。
改善AI实验室透明度的监管仍然是好的。激励AI实验室正确行为仍然是减少风险的事情，而透明度是实现这一目标的一个好方法。
“开源坏”的心态变得更具风险。

许多人反对开放权重的AI，认为防御是不现实的，唯一的幸福路径是那些拥有良好对齐AI的好人能够在任何意图不良的人获得任何非常危险的能力之前达到超智能。但这篇文章中的论点描绘了一个不同的图景：防御在那些一个参与者远远领先而其他人至少在某种程度上跟不上他们的世界中是不现实的。技术扩散以维持权力平衡变得重要。但与此同时，我绝对不会说加速前沿AI能力的增长是好的，仅仅因为你是在开放源代码的情况下进行。

美国实验室之间的 “我们必须竞赛以击败中国”心态 变得更具风险，原因类似。如果霸权不是安全缓冲，而是风险的来源，那么这进一步反对了（不幸的是过于常见的）观点，即一个好心人应该加入一个领先的AI实验室，以帮助它更快地获胜。
像 公共AI 这样的倡议变得更有意义，既确保AI能力的广泛分布，又确保基础设施参与者实际上拥有快速使用新AI能力所需的工具，以满足这篇文章的要求。
防御技术应该更多地是“给羊穿盔甲”的风格，而不是“追捕所有狼”的风格。关于脆弱世界假说的讨论通常假设唯一的解决方案是一个霸权维持普遍监控，以防止任何潜在威胁的出现。但在一个非霸权的世界中，这不是一个可行的方法（另见：安全困境），实际上，自上而下的防御机制很容易被强大的AI颠覆并转化为其进攻。因此，防御的更大份额需要通过努力使世界变得不那么脆弱来实现。

上述论点是推测性的，任何行动都不应基于它们是近乎确定的假设。但AI 2027的故事也是推测性的，我们应该避免基于其具体细节是近乎确定的假设采取行动。

我特别担心一个常见的假设，即建立一个AI霸权，并确保他们“对齐”和“赢得竞赛”是唯一的前进道路。在我看来，这种策略有相当高的风险会降低我们的安全性，正是通过消除我们在霸权失去对齐时采取对策的能力。如果政治压力导致这样的霸权与军事应用紧密结合（见[1][2][3][4]），这使得许多对齐策略的有效性降低。

在AI 2027场景中，成功取决于美国选择走安全之路而不是厄运之路，通过在关键时刻自愿减缓其AI进展，以确保Agent-5的内部思维过程是人类可解释的。即使这发生了，成功也不是保证的，而且不清楚人类如何在依赖于一个单一超智能思维的持续对齐的情况下，从生存的边缘退下来。承认使世界变得不那么脆弱实际上是可能的，并投入更多的努力利用人类最新的技术来实现这一目标，是值得尝试的一条路径，无论未来5-10年的AI发展如何。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。