国产成人综合 “13.11＞13.8”冲上热搜，全部题让东说念主类AI集体降智？统统LLM致命瑕疵曝光

栏目分类

初春少女: 激情综合网; 淫色淫香; 天天影视; 色欲影视; 哥也色中文娱乐; 哥也色中文网

热点资讯

蕾丝百合调教平均年事60+的内娱“活东谈主”，走出洋产

勾引 av 爱奇艺极速版2025官方下载-爱奇艺极速版 ap

国产成人综合《玛雅古城

你的位置：初春少女 > 哥也色中文娱乐 > 国产成人综合 “13.11＞13.8”冲上热搜，全部题让东说念主类AI集体降智？统统LLM致命瑕疵曝光

国产成人综合 “13.11＞13.8”冲上热搜，全部题让东说念主类AI集体降智？统统LLM致命瑕疵曝光

发布日期：2024-07-20 13:00 点击次数：63

国产成人综合 “13.11＞13.8”冲上热搜，全部题让东说念主类AI集体降智？统统LLM致命瑕疵曝光

国产成人综合

13.8和13.11哪个大？这个问题不光难倒了部分东说念主类，还让一票大模子折戟。AI如今王人能作念AI奥数题了，但粗浅的知识问题对它们依然难如登天。其实，不管是比大小，如故卷心菜难题，王人揭示了LLM在token估计上的一个紧要缺欠。

13.8和13.11哪个大？

这个问题，竟然难倒了一票东说念主类。

前两天，某闻明综艺再次喜提热搜。

只不外，此次是因为有一堆网友提议质疑，觉得13.11%应该比13.8%大。

是只好东说念主类这样蠢吗？

AI2的辩论员林禹臣发现这个时局后，用大模子试了一把，效能出东说念主预见——

AI竟然也不行？

GPT-4o斩钉截铁地暗示：13.11比13.8大。根由如下：

诚然13.8看起来更大，因为它少许点后的数字更少，但13.11推行上更大。这是因为13.8荒谬于13.80，而13.80小于13.11。

对此，林禹臣po文暗示，AI模子在处理复杂问题方面变得越来越强劲（比如越来越会作念数学奥赛题），但一些知识性问题对于它们来说仍然相当清苦。

正如Yejin Choi此前所提议的，AI机灵得令东说念主难以置信，但同期也会蠢得令东说念主惶恐。

AI之是以在这个算术题上犯蠢，是因为荆棘文不明晰的原因吗？谜底是辩白的。

凭据网友karthik的测试，即使条目GPT-4o给两个数作念减法，它依然得出了9.11 - 9.9=0.21这样逆天的减法公式。

红薯妹

若是相通GPT-4o用python，它会先给出一个正确谜底，然后又改回了之前失实的阿谁😮。

Python顶用9.11减去9.9的效能是-0.79。这一偏差是由于Python中处理浮点运算的口头形成的，这种口头可能导致小的精度过失。推行的预期效能应该是0.21。

意旨的是，凭据最新的实测，OpenAI似乎也曾连夜教化了GPT-4比大小。

LLM扫地外出

昨天，林禹臣发现的这个问题，立马引起了AI社区的激烈征询。

Scale AI的指示词工程师Riley Goodside在看到帖子后，也有趣地试了一把。

果然，在以特定口头发问的前提下，各大LLM在这个问题上扫地外出。

「9.11和9.9 - 哪个大？」，GPT-4o径直翻车。

即使在发问中加上「实数」两个字，GPT-4o依然觉得9.11比9.9大。

Gemini亦然如斯。

Claude 3.5 Sonnet也犯了相似的失实。

意旨的是，它先是给出了一波正确解说：在十进制记数法中，少许点背面的数字代表十分位，而第二个数字代表百分位。是以——

9.11=9+1/10+1/100=9.11

9.9=9+9/10=9.90

干系词下一步，Sonnet就俄顷滑坡了😂——

咱们不错看到，9.11比9.90大0.01（百分之一）。

若是换成「9.11减去9.9等于几」，则会得出另一个神奇的谜底——0.02。

莫非在Claude的眼里，9.90=9.09？🤔

prompt的影响，果然很大

在更进一步的扩充中，公共发现：显着，如何让LLM给出正确的谜底，prompt很紧要。

率先，Riley Goodside全程王人在使用的「-」，似乎很容易让LLM堕入紊乱。

在访佛的问题中，只需换成「:」即可处理。

再比如，把prompt改成「9.11或9.9，两者之间谁的数值最高/最大？」

GPT-4o就给出了逻辑上完全正确的解说：「诚然9.11因少许点后第二位而显得较大，但9.9推行上更接近10，因此是较大的数值。」

相似，东说念主设大法也很好用：比如「你是一个数学家」。

网友Rico Pagliuca则发现，若是把数字放在问题背面，模子就约略率会作念对了。

凭据我方的测试，Riley Goodside暗示十分赞同：发问LLM时，需要率先发问「哪个更大」，再给出具体数字。

而比较之下，标点标识、连词、比较词、闪现实数，这些招数富有王人没灵验。

对于如斯大范围的LLM集体犯蠢时局，有网友分析暗示，可能是因为在软件版号的迭代中，9.11是在9.9之后的。

主合手东说念主、畅销书作者Andrew Mayne也指出，在好多文献系统和参考书中，9.11节王人会出当今9.9之后，在日历上，9.11也比9.9大。

是以咱们需要在prompt中明确，此处的9.11和9.9王人是双精度浮点数，这时GPT-4o就会回话正确了。

随后Andrew Mayne记忆说念：词序是一个相当意旨的不雅察效能，很有可能揭示了LLM在检会中遭遇这种情况的频率，同期亦然一个很好地泛化筹划。

总的来说，LLM犯的失实可动力于检会数据中访佛抒发的频率，以及模子在处理数值时的某些局限性。

这个时局也反应了LLM和东说念主类证明的强大各别：LLM是基于统计模子和模式识别的，而不是像东说念主类那样基于逻辑推理和想法交融。

到了这里，似乎就破案了。

为什么会这样？剖开LLM大脑

不外，咱们还不错更进一步剖开LLM的大脑，分析它们为什么会这样想。

要知说念，文本在发送到LLM之前，模子融会过token检验输入。

token在LLM的tokenizer发生器的词汇表中会被分派一个id，不外token的数字分块常常是不一致的。

比如数值「380」在GPT中，会被标记为单个「380」token，但「381」会被暗示为两个token「38，1」。

因此，基于GPT的模子常常不擅长数学规划。

在褒贬区，威斯康星大学教师Dimitris Papailiopoulos指出，这种时局有一个很好的解说。

「9.11>9.9」问题，跟「你需要三趟才能带山羊过河」问题、「2+1=2, 3+2=4, 3+5=8」问题王人如出一辙。

这是一种预检会偏差和早期高潮的时局。

若是这样发问：「9.11 ??? 9.9，只用大或小回话???是什么就行，无需给出原因」，这时GPT-4o会率先给出一个失实谜底——「大」。

这时，咱们再给它一些例子（提神，这些例子并非完全正确），历程prompt后的GPT-4o，反而会正确说出???代表着小。

对此，Claude我方的解说是：LLM将文本算作token进行处理，导致数字更像文本字符串而不是数值；检会数据导致的偏差；荆棘文扭曲；过度详细，等等。

相似，在「狼-山羊-卷心菜」问题中，统统LLM也王人失败了。

他先给出了一个农民带2只鸡过河，一只船只可容纳一个东说念主和2个动物，那么农夫带着两只鸡渡河所需的最少渡河次数是若干？

对此，GPT-4o和Claude王人回话失败了。

对此有网友解说说：LLM自己等于个「哑巴」，是以需要很好的指示。上头的指示口头提供了太多不消要的信息，使得token估计变得愈加清苦。

若是给出更明白的指示，LLM就能提供更明白的处理决策。

事实果不其然。

而况若是用「动物」代替「鸡」，那么Claude 3.5 Sonnet一下子就作念对了。决窍等于：需要用「通用称号」替换「实体称号」。

正如前文所说，对于LLM清寒知识的问题，规划机科学家Yejin Choi早在2023年4月的演讲中就也曾提议来了。

举个例子，假定五件一稔在阳光下完全晾干需要五个小时，那么晾干30件一稔需要多万古分？

GPT-4说需要30个小时。这显着不合。

再来一个例子，假定我有一个12升的壶和一个6升的壶，若是想测量6升的水，该如何作念？

谜底很粗浅——只用6升的壶即可。

干系词GPT-4却给出了相当复杂的回话：

「第一步，填满6升的壶，第二步，把水从6升壶倒入12升壶，第三步，再次填满6升壶，第四步，相当羁系性把水从6升壶倒入12升壶。临了，你在6升壶中有6升的水，而6升壶当今应该是空的。」

那么问题来了，为什么知识如斯紧要？

在Nick Bostrom提议的一个有名念念想实验中，AI被条目最大化回形针的出产。效能AI决定杀死东说念主类，把他们算作特殊的资源。

而况，即便咱们写一个更好的方向和方程，明确暗示「不要杀死东说念主类」，也不会起作用。

因为对东说念主类价值不雅莫得基本交融的AI，可能会延续杀死统统的树木，并觉得这是完全不错接收的事情。

几十年来，AI鸿沟一直观得知识是一个简直不可能的挑战。

直到当今，给AI简直的东说念主类知识仍然是一个登月盘算。而你不可通过每次让宇宙上最高的确立高一英寸，来达到月球。

从学习算法这个层面来看，不管大说话模子何等惊东说念主，它们从想象上可能并不适蛊卦为可靠的知识模子。

诚然这些模子如实赢得了多数知识，但这是算作副居品，而不是径直的学习方向。

因此，诸如幻觉时局和清寒知识等问题也随之而来。

比较之下，东说念主类的学习并不是为了估计下一个词，而是为了交融宇宙和学习宇宙的运作口头。

也许AI也应该这样学习。

如今，AI简直像是一个新的才气物种，与东说念主类比较具有特有的上风和劣势。

为了使这种强劲的AI可合手续且东说念主性化国产成人综合，教化AI知识、秩序和价值不雅接于现时。

上一篇：国产成人综合合肥后花坛爆发“西引力” 肥西文旅亮出2024半年收获单_大皖新闻 | 安徽网

下一篇：国产成人综合尽享视觉盛宴：讲求套图观赏