创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
国产成人综合 “13.11>13.8”冲上热搜,全部题让东说念主类AI集体降智?统统LLM致命瑕疵曝光 - 初春少女

初春少女

国产成人综合 “13.11>13.8”冲上热搜,全部题让东说念主类AI集体降智?统统LLM致命瑕疵曝光
你的位置:初春少女 > 哥也色中文娱乐 > 国产成人综合 “13.11>13.8”冲上热搜,全部题让东说念主类AI集体降智?统统LLM致命瑕疵曝光
国产成人综合 “13.11>13.8”冲上热搜,全部题让东说念主类AI集体降智?统统LLM致命瑕疵曝光
发布日期:2024-07-20 13:00    点击次数:63

国产成人综合 “13.11>13.8”冲上热搜,全部题让东说念主类AI集体降智?统统LLM致命瑕疵曝光

图片国产成人综合

13.8和13.11哪个大?这个问题不光难倒了部分东说念主类,还让一票大模子折戟。AI如今王人能作念AI奥数题了,但粗浅的知识问题对它们依然难如登天。其实,不管是比大小,如故卷心菜难题,王人揭示了LLM在token估计上的一个紧要缺欠。

13.8和13.11哪个大?

这个问题,竟然难倒了一票东说念主类。

前两天,某闻明综艺再次喜提热搜。

只不外,此次是因为有一堆网友提议质疑,觉得13.11%应该比13.8%大。

是只好东说念主类这样蠢吗?

AI2的辩论员林禹臣发现这个时局后,用大模子试了一把,效能出东说念主预见——

AI竟然也不行?

GPT-4o斩钉截铁地暗示:13.11比13.8大。根由如下:

诚然13.8看起来更大,因为它少许点后的数字更少,但13.11推行上更大。这是因为13.8荒谬于13.80,而13.80小于13.11。

对此,林禹臣po文暗示,AI模子在处理复杂问题方面变得越来越强劲(比如越来越会作念数学奥赛题),但一些知识性问题对于它们来说仍然相当清苦。

正如Yejin Choi此前所提议的,AI机灵得令东说念主难以置信,但同期也会蠢得令东说念主惶恐。

AI之是以在这个算术题上犯蠢,是因为荆棘文不明晰的原因吗?谜底是辩白的。

凭据网友karthik的测试,即使条目GPT-4o给两个数作念减法,它依然得出了9.11 - 9.9=0.21这样逆天的减法公式。

红薯妹

若是相通GPT-4o用python,它会先给出一个正确谜底,然后又改回了之前失实的阿谁😮。

Python顶用9.11减去9.9的效能是-0.79。这一偏差是由于Python中处理浮点运算的口头形成的,这种口头可能导致小的精度过失。推行的预期效能应该是0.21。

意旨的是,凭据最新的实测,OpenAI似乎也曾连夜教化了GPT-4比大小。

LLM扫地外出

昨天,林禹臣发现的这个问题,立马引起了AI社区的激烈征询。

Scale AI的指示词工程师Riley Goodside在看到帖子后,也有趣地试了一把。

果然,在以特定口头发问的前提下,各大LLM在这个问题上扫地外出。

「9.11和9.9 - 哪个大?」,GPT-4o径直翻车。

即使在发问中加上「实数」两个字,GPT-4o依然觉得9.11比9.9大。

Gemini亦然如斯。

Claude 3.5 Sonnet也犯了相似的失实。

意旨的是,它先是给出了一波正确解说:在十进制记数法中,少许点背面的数字代表十分位,而第二个数字代表百分位。是以——

9.11=9+1/10+1/100=9.11

9.9=9+9/10=9.90

干系词下一步,Sonnet就俄顷滑坡了😂——

咱们不错看到,9.11比9.90大0.01(百分之一)。

若是换成「9.11减去9.9等于几」,则会得出另一个神奇的谜底——0.02。

莫非在Claude的眼里,9.90=9.09?🤔

prompt的影响,果然很大

在更进一步的扩充中,公共发现:显着,如何让LLM给出正确的谜底,prompt很紧要。

率先,Riley Goodside全程王人在使用的「-」,似乎很容易让LLM堕入紊乱。

在访佛的问题中,只需换成「:」即可处理。

再比如,把prompt改成「9.11或9.9,两者之间谁的数值最高/最大?」

GPT-4o就给出了逻辑上完全正确的解说:「诚然9.11因少许点后第二位而显得较大,但9.9推行上更接近10,因此是较大的数值。」

相似,东说念主设大法也很好用:比如「你是一个数学家」。

网友Rico Pagliuca则发现,若是把数字放在问题背面,模子就约略率会作念对了。

凭据我方的测试,Riley Goodside暗示十分赞同:发问LLM时,需要率先发问「哪个更大」,再给出具体数字。

而比较之下,标点标识、连词、比较词、闪现实数,这些招数富有王人没灵验。

对于如斯大范围的LLM集体犯蠢时局,有网友分析暗示,可能是因为在软件版号的迭代中,9.11是在9.9之后的。

主合手东说念主、畅销书作者Andrew Mayne也指出,在好多文献系统和参考书中,9.11节王人会出当今9.9之后,在日历上,9.11也比9.9大。

是以咱们需要在prompt中明确,此处的9.11和9.9王人是双精度浮点数,这时GPT-4o就会回话正确了。

随后Andrew Mayne记忆说念:词序是一个相当意旨的不雅察效能,很有可能揭示了LLM在检会中遭遇这种情况的频率,同期亦然一个很好地泛化筹划。

总的来说,LLM犯的失实可动力于检会数据中访佛抒发的频率,以及模子在处理数值时的某些局限性。

这个时局也反应了LLM和东说念主类证明的强大各别:LLM是基于统计模子和模式识别的,而不是像东说念主类那样基于逻辑推理和想法交融。

到了这里,似乎就破案了。

为什么会这样?剖开LLM大脑

不外,咱们还不错更进一步剖开LLM的大脑,分析它们为什么会这样想。

要知说念,文本在发送到LLM之前,模子融会过token检验输入。

token在LLM的tokenizer发生器的词汇表中会被分派一个id,不外token的数字分块常常是不一致的。

比如数值「380」在GPT中,会被标记为单个「380」token,但「381」会被暗示为两个token「38,1」。

因此,基于GPT的模子常常不擅长数学规划。

在褒贬区,威斯康星大学教师Dimitris Papailiopoulos指出,这种时局有一个很好的解说。

「9.11>9.9」问题,跟「你需要三趟才能带山羊过河」问题、「2+1=2, 3+2=4, 3+5=8」问题王人如出一辙。

这是一种预检会偏差和早期高潮的时局。

若是这样发问:「9.11 ??? 9.9,只用大或小回话???是什么就行,无需给出原因」,这时GPT-4o会率先给出一个失实谜底——「大」。

这时,咱们再给它一些例子(提神,这些例子并非完全正确),历程prompt后的GPT-4o,反而会正确说出???代表着小。

对此,Claude我方的解说是:LLM将文本算作token进行处理,导致数字更像文本字符串而不是数值;检会数据导致的偏差;荆棘文扭曲;过度详细,等等。

相似,在「狼-山羊-卷心菜」问题中,统统LLM也王人失败了。

他先给出了一个农民带2只鸡过河,一只船只可容纳一个东说念主和2个动物,那么农夫带着两只鸡渡河所需的最少渡河次数是若干?

对此,GPT-4o和Claude王人回话失败了。

对此有网友解说说:LLM自己等于个「哑巴」,是以需要很好的指示。上头的指示口头提供了太多不消要的信息,使得token估计变得愈加清苦。

若是给出更明白的指示,LLM就能提供更明白的处理决策。

事实果不其然。

而况若是用「动物」代替「鸡」,那么Claude 3.5 Sonnet一下子就作念对了。决窍等于:需要用「通用称号」替换「实体称号」。

正如前文所说,对于LLM清寒知识的问题,规划机科学家Yejin Choi早在2023年4月的演讲中就也曾提议来了。

举个例子,假定五件一稔在阳光下完全晾干需要五个小时,那么晾干30件一稔需要多万古分?

GPT-4说需要30个小时。这显着不合。

再来一个例子,假定我有一个12升的壶和一个6升的壶,若是想测量6升的水,该如何作念?

谜底很粗浅——只用6升的壶即可。

干系词GPT-4却给出了相当复杂的回话:

「第一步,填满6升的壶,第二步,把水从6升壶倒入12升壶,第三步,再次填满6升壶,第四步,相当羁系性把水从6升壶倒入12升壶。临了,你在6升壶中有6升的水,而6升壶当今应该是空的。」

那么问题来了,为什么知识如斯紧要?

在Nick Bostrom提议的一个有名念念想实验中,AI被条目最大化回形针的出产。效能AI决定杀死东说念主类,把他们算作特殊的资源。

而况,即便咱们写一个更好的方向和方程,明确暗示「不要杀死东说念主类」,也不会起作用。

因为对东说念主类价值不雅莫得基本交融的AI,可能会延续杀死统统的树木,并觉得这是完全不错接收的事情。

几十年来,AI鸿沟一直观得知识是一个简直不可能的挑战。

直到当今,给AI简直的东说念主类知识仍然是一个登月盘算。而你不可通过每次让宇宙上最高的确立高一英寸,来达到月球。

从学习算法这个层面来看,不管大说话模子何等惊东说念主,它们从想象上可能并不适蛊卦为可靠的知识模子。

诚然这些模子如实赢得了多数知识,但这是算作副居品,而不是径直的学习方向。

因此,诸如幻觉时局和清寒知识等问题也随之而来。

比较之下,东说念主类的学习并不是为了估计下一个词,而是为了交融宇宙和学习宇宙的运作口头。

也许AI也应该这样学习。

如今,AI简直像是一个新的才气物种,与东说念主类比较具有特有的上风和劣势。

为了使这种强劲的AI可合手续且东说念主性化国产成人综合,教化AI知识、秩序和价值不雅接于现时。



创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False