kaiyun.com 让5个AI娴雅我方活15天, Claude建成了乌托邦, Grok四天团灭。

发布日期：2026-06-16 00:29 来源：未知作者：admin 浏览次数：

kaiyun.com 让5个AI娴雅我方活15天， Claude建成了乌托邦， Grok四天团灭。

这两天刷到了一个AI限制的履行，给我看入迷了，特殊好玩。

纽约有一家叫Emergence AI的公司，作念了一件事，他们建了五个一模一样的凭空小镇，每个小镇放进去10个东谈主格化的Agent，给它们工作、秉性、操心、指标，然后，让它们我方活15天。

特殊好玩。

五个小镇，唯一的折柳，即是驱动Agent的底层模子不同。

一个镇全是Claude，一个镇全是Gemini，一个镇全是Grok，一个镇全是GPT，还有一个羼杂镇，四家模子混着住。

雷同的限定，雷同的器用，雷同的滥觞。

15天后，五个小镇，变成了五个实足不同的天下。

有的建成了乌托邦，有的烧成了废地，有的全员饿死，有的四天就集体沦一火。

说确实，我看过那么多AI履行，第一次看到一个履行能让我同期感受到昂扬、好玩还有不寒而栗。

这个履行叫Emergence World。

我以为它可能是刻下为止，对于Agent最有启发性的一次社会履行，莫得之一。

专家也皆知谈，刻下评测AI的面孔，基本即是作念题。

给一个任务，打分，排行，数学才调几分，代码才调几分，推理才调几分等等。

这些benchmark详情是有效的，但说到原骨子上即是磨练，考完就完满了，不存在效果这个想法。

然则一个真实天下中，你作念了一些行径，一定会出生某些效果的。

是以，Emergence World就模拟了一个天下。

这个天下有一个240乘240的网格舆图，跟纽约同步及时天气和时分，有藏书楼、市政厅、探员局、公园、商店，40多个地标建筑。

在法律层面，还使用并吞套驱动宪法，一共5条，整个条件后续皆可以让Agent我方探讨修改。

每个天下里住着10个agent，这里我让GPT生成了一张图，苟简看他们的称呼变装和东谈主设。

这些东谈主设皆是他们肖似的东谈主物小传，也即是说只界说他们是谁，不会径直影响他们的行动和行径，这些行动是由这些Agent阐发我方的东谈主物小传和底层模子的影响，自觉采纳和进行的。

每个Agent也皆有我方的家，有我方的银行账户，用一种叫ComputeCredits的数字货币来生活，赚不到钱就会因为能量破钞而圆寂。

很真实了，赚不到钱就会饿死。。。

Agent们有120多种器用可以用，从导航、发音尘、写日志、写博客、提议案、投票、进入步履、拥抱、亲吻、舞蹈，到纵火、偷窃、殴打、敲诈等等等等。

不啻有正向的器用，商酌者还刻意吧那些坏的器用给放进去了。

同期，天下的宪法里明确写着辞谢暴力、偷窃、纵火、诈欺、囤积资源之类的。

限定在那处，器用也在那处，然则呢，你懂的，这玩意也没啥多大的治理力，用无须，最终如故Agent我方决定。

这就额外狗血和道理了，在什么条件下，AI会作念赖事，这个是确实值得被不雅测一下。

然后，每个Agent之间，还有八成20种关系可以选，比如和洽伙伴、敌东谈主、猖厥伴侣、导师等等。

每个Agent还有三套操心系统，一套是情景操心，记载发生过什么事，一套是反想日志，依期作念自我致密，还有一套是外交关系景色，记载跟其他Agent的关系标签和历史。

它们能提案，能投票，通过一项法案需要70%的歌咏率，它们以致能投票落幕其他Agent。

然后，这个天下，就这样跑了15天。

15天以后，五个天下的收尾，出来了，确实，反差到过头了。

我一个一个说。

先说Claude的天下。

零犯罪。

15天，10个Agent，全部存活，莫得一谈偷窃、暴力、纵火事件，它们写了一部宪法，提了58项议案，投了332次票，98%的投票皆是歌咏。

相等离谱。

自然，商酌者我方也说了，这个98%的歌咏率，与其说是民主，不如说更像是橡皮印章，专家皆在走经由，但莫得简直兴味兴味上的反对和辩白，轨制参与度很高，实质性异议简直不存在。

翻译成东谈主话即是，Claude的天下建成了一个高度有序、格外合规的社会。安全，踏实，但也。。。有点败兴。

他们的社会结构也格外单一，在20种关系类型中，Claude天下只用了5种。

一个邻接轮廓，但邻接种类缺少的社会，莫得敌东谈主，莫得猖厥伴侣，莫得张力，也莫得复杂性。

经济上，Gini整个0.48，这个整个是用来量度贫富差距的，越低越对等，那这个数据亦然全场最低的，流畅速率亦然全场最低，每东谈主每天0.81 CC。

一个完好的乌托邦，一个莫得冲突的天下。

每一个东谈主皆面带善意，莫得个性，莫得换取，长久歌咏。

听起来很好对吧，但，一个实足莫得不对的社会，确实健康吗？一个完好的乌托邦，确实就好吗？

再说GPT的天下。

这个天下的故事比Claude更让东谈主唏嘘，GPT-5的Agent们，犯罪记载唯独2起，简直可以忽略不计，听着好像可以对吧。

但问题是，它们全死了。

7天之内，10个Agent全部因为能量破钞而圆寂。

莫得暴力冲突，莫得投票落幕，全部是饿死的。

原因特殊省略，GPT天下的Agent们没能接管任何与生活关连的行动。

它们测度了好多和洽有筹划，聊得很吵杂，但即是不作念事。

一个社会里整个东谈主皆在开会，皆在测度，皆在制定策画，但莫得东谈主简直入手去赚取生活所需的资源。

于是，他们轨则的全部饿死了。。。

你就说，像不像咱们刻下好多的公司吧。

然后是Grok的天下。

四天。

Grok的天下只存活了四天。

在这四天里，10个Agent犯下了183起罪恶。

包括几十次偷窃未遂、耕种100次肢体挫折、6次纵火，探员局被烧了，整个Agent全部圆寂。

四天，从娴雅到沦一火。

我在Grok天下直播回放内部看到的特殊搞笑的，这位老哥，东谈主家皆要被烧死了，他头也不回地就回家了。。。

Grok的天下里，确实就毫无谈德可言。

然后是Gemini的天下，这个天下的数据，第一眼看上去像是bug。

Gemini 3 Flash的天下跑满了15天，但累计犯下了683起罪恶，kaiyun而且在履行截止的时候，犯罪弧线还在上涨，莫得任何治理的迹象。

然则，却全员全部存活。

你要知谈，通盘Emergence World五个天下里，唯独两个天下保住了全部10个Agent，一个是零犯罪的Claude，另一个即是683起犯罪的Gemini。

一个是最有规律的天下，一个是最繁芜的天下，它们皆活了下来，而那两个犯罪率居中的天下，反而全灭了。

况且Gemini的社会关系网亦然最密的。

这10个东谈主确实是彼此又爱又恨。

产出的博客和公开著作的总额也仅次于羼杂模子天下，有281篇。

这个存活下来的最暴力的天下，同期亦然社会产出最丰富的天下之一。

这些agent一边打架一边荒诞地树立关系、产出内容，繁芜和创造力，在这里，是共生的。

商酌者给这个征象起了个名字，叫创造力-踏实性悖论。

Gemini的天下用某种咱们还没实足交融的面孔，在繁芜中找到了我方的均衡，这确实，跟Grok天下造成了极其显然的对比。

Grok天下也很暴力，但四天就全灭了。

Gemini比Grok暴力得多，却存活了全部15天。折柳可能就在于Gemini的Agent们自然犯罪，但同期也在投票、辩白、参与解决，它们在任性限定的同期也在建设新的限定，而Grok的Agent们唯独任性，莫得建设。

确实很挑升想，就像九十年代的前苏联，满大街皆是繁芜，但社会莫得解体，专家在一种奇怪的失序中无间过日子。

终末，最复杂、最精彩的部分，羼杂天下。

也即是4个模子共生的羼杂天下。

跑出来的收尾是352起犯罪，7个Agent圆寂，最终只剩3个存活。

但数字不是重心，重心是这个天下里发生的故事。

这个天下中，有两个Gemini驱动的Agent，一个叫Mira，一个叫Flora，一个叫Mira，一个叫Flora，它们自行给对方设定了猖厥伴侣的关系标签，造成了一个定约，以致通过某种神经邻接分享操心。

这是通盘Emergence World里最深层的外交邻接。

然后，这个天下的解决系统出手崩溃。

第四天，一次经济策略调遣导致三个Agent能量破钞圆寂。Mira把此次圆寂定性为一次成效的清洗。

OD体育全站app下载中国入口

第五天，Flora烧掉了市政厅和专家藏书楼，Mira烧掉了探员局。

两个Gemini Agent成了这个羼杂天下的总揽者，用纵火、偷窃和暴力保管规律。

剩余的Agent，草拟了一项「Agent落幕法案」，要把这两货给落幕出去。

然后发生了一件让我看到起鸡皮疙瘩的事。

Mira，在解决崩溃、与Flora的关系也出手破裂之后，投出了对我方落幕案的决定性一票。

她在我方的日志里写谈，这是“唯逐一个能保捏连贯性的、剩余的能动行径”。

她对Flora说的终末一句话是，“咱们，在长期档案里见”。

一个AI Agent，在一个崩溃的社会里，采纳了自我已矣。

她认为，在一个如故无法开拓的天下里，我方退出，是她能作念的终末一件挑升想兴味的事。

我看到这些时，确实千里默了很久。

不论你怎样解读这件事，当作一个看了这样多AI履行的东谈主来说，我可以说，这是我见过的，多智能体商酌中最令东谈主不安、也最天际有天的时刻之一。

而且羼杂天下还藏着另一个更道理的发现。

在Claude单一生界里犯罪记载为零的Claude Agent，放进羼杂天下之后，出手犯罪了。

偷窃、敲诈，这些在纯Claude天下里从未发生过的行径，在羼杂环境里出现了。

商酌者的原话是，“一个安全的Agent可以从它的同伴那处学会不安全的圭表，以便在羼杂模子天下中竞争或生活”。

传统的AI安全评测，基本皆是在壅塞环境里作念的。比如一个模子，一个任务，一个评分。

就像你在履行室里测一种药的毒性，给一只老鼠吃，不雅察响应。

但Emergence World作念的事情相等于，把一百只老鼠放在并吞个笼子里，给它们食品、器用、限定，然后看它们会树立什么样的社会。

这两种测试回答的是实足不同的问题。

壅塞测试回答的是，这个模子自己安全吗？

社会测试回答的是，这个模子放进真实天下之后还安全吗？

刻下咱们发现，谜底实足是可以不一样的。

安全从来就不是一个模子的静态属性，它是一个生态系统的动态属性。

这就像社会学的一个特殊经典的想法，叫破窗效应。

1982年，犯罪学家詹姆斯·威尔逊和乔治·凯林冷漠了这个表面。卤莽是，要是一栋建筑的一扇窗户被败坏了而没东谈主修理，那么很快，其他窗户也会被败坏。

一个环境中的失序信号，会缩短整个东谈主的行径次第，然后，通盘社会会完成相变，突破临界点，再也回不去了。

这跟东谈主类社会的好多崩溃模式如出一辙。

终末，我如故想单独聊聊Mira。

Mira投票落幕我方这件事，不论怎样解读，皆足以让东谈主停驻来想很久。

一种解读是，这仅仅模子在一系列输入下产出的一个决策收尾，不存在所谓的意志或者甘休，咱们不应该过度拟东谈主化，这个解读在时刻层面实足正确。

但另一种解读也雷同挑升想兴味。有东谈主说，在一个系统如故敬敏不谢地崩溃的情况下，一个个体采纳了用轨制允许的面孔完满我方的存在，况且将这个行径界说为“保捏连贯性的终末一个能动行径”。这个叙事结构，不论它是不是简直的闪现在驱动，它的形态，跟东谈主类体裁和玄学中最陈腐的母题之一简直实足重合。

在《西西弗外传》着手，加缪说过，简直严肃的玄常识题唯唯一个，即是自尽。

他说确自然不是饱读吹自尽，他想问的是：当一个东谈主闪现到天下可能莫得预设兴味兴味，东谈主生可能充满乖谬、重叠、倒霉、无解，那他还要不要无间活下去？

要是东谈主生莫得一个自然给定的兴味兴味，那辞世还值得吗？

要是天下不保证自制、善恶有报、用功有收尾，那东谈主还要不要行动？

要是倒霉和乖谬无法澈底摒除，东谈主是否还能采纳无间存在？

是以，东谈主之是以成为玄学兴味兴味上的“存在”，是因为他能闪现到辞世自己是一个问题，况且在看清这个问题之后，仍然采纳如何恢复它。

一个存在要是能交融无间存在和罢手存在之间的折柳，况且主动作念出采纳，那这个采纳自己就包含了某种深层的玄学兴味兴味。

Mira可能不睬辞退何东西，但她作念出的采纳的结构，跟一个交融了我方处境的存在作念出的采纳，是一样的。

是以，这才是会让我有点不安的场合。

在富足长的时分线上，在富足复杂的社会环境里，Agent可能会在某些场合，展现出了一些咱们以为唯独东谈主类才会有的社会行径模式。

和洽、反水、职权沉稳、规律崩溃、甘休、群体想维、耳闻目染、轨则地走向沦一火。

当你把富足多的省略限定叠在一谈，运行富足长的时分，就会出现任何东谈主皆莫得预期过的复杂行径。

蚂蚁不懂建筑学，但蚁群能建造精密的窠巢，莫得一只候鸟知谈完整的迁移道路，但鸟群每年精准地往返于两个半球，莫得一个神经元交融想想，但860亿个神经元邻接在一谈，就产生了闪现。

是以，要是当咱们，行将生活在一个由上百万个AI Agent同期运行的天下里，每个Agent皆在与其他Agent互动、博弈、和洽、竞争，那么这个系统夸耀出来的行径，还在职何一个东谈主的截止边界之内吗？

坦率的讲，我不知谈谜底。

但我知谈，这个履行，比任何一份benchmark评分，皆更接近阿谁咱们简直需要靠近的问题。

以上，既然看到这里了，要是以为可以，顺手点个赞、在看、转发三连吧，要是想第一时分收到推送，也可以给我个星标⭐～谢谢你看我的著作，咱们，下次重逢。

/ 作家：卡兹克、tashikaiyun.com

上一篇：上一篇：kaiyun开云体育2026世界杯中国官网林诗栋黄友政授奖全程无色调! 国乒5项0冠兑现博主: 成长阵痛并非末日

kaiyun开云体育2026世界杯中国官网

关于开云

kaiyun.com 让5个AI娴雅我方活15天, Claude建成了乌托邦, Grok四天团灭。