国产成人综合
13.8和13.11哪个大?这个问题不光难倒了部分东说念主类,还让一票大模子折戟。AI如今王人能作念AI奥数题了,但粗浅的知识问题对它们依然难如登天。其实,不管是比大小,如故卷心菜难题,王人揭示了LLM在token估计上的一个紧要缺欠。
13.8和13.11哪个大?
这个问题,竟然难倒了一票东说念主类。
前两天,某闻明综艺再次喜提热搜。
只不外,此次是因为有一堆网友提议质疑,觉得13.11%应该比13.8%大。
是只好东说念主类这样蠢吗?
AI2的辩论员林禹臣发现这个时局后,用大模子试了一把,效能出东说念主预见——
AI竟然也不行?
GPT-4o斩钉截铁地暗示:13.11比13.8大。根由如下:
诚然13.8看起来更大,因为它少许点后的数字更少,但13.11推行上更大。这是因为13.8荒谬于13.80,而13.80小于13.11。
对此,林禹臣po文暗示,AI模子在处理复杂问题方面变得越来越强劲(比如越来越会作念数学奥赛题),但一些知识性问题对于它们来说仍然相当清苦。
正如Yejin Choi此前所提议的,AI机灵得令东说念主难以置信,但同期也会蠢得令东说念主惶恐。
AI之是以在这个算术题上犯蠢,是因为荆棘文不明晰的原因吗?谜底是辩白的。
凭据网友karthik的测试,即使条目GPT-4o给两个数作念减法,它依然得出了9.11 - 9.9=0.21这样逆天的减法公式。
红薯妹若是相通GPT-4o用python,它会先给出一个正确谜底,然后又改回了之前失实的阿谁😮。
Python顶用9.11减去9.9的效能是-0.79。这一偏差是由于Python中处理浮点运算的口头形成的,这种口头可能导致小的精度过失。推行的预期效能应该是0.21。
意旨的是,凭据最新的实测,OpenAI似乎也曾连夜教化了GPT-4比大小。
LLM扫地外出
昨天,林禹臣发现的这个问题,立马引起了AI社区的激烈征询。
Scale AI的指示词工程师Riley Goodside在看到帖子后,也有趣地试了一把。
果然,在以特定口头发问的前提下,各大LLM在这个问题上扫地外出。
「9.11和9.9 - 哪个大?」,GPT-4o径直翻车。
即使在发问中加上「实数」两个字,GPT-4o依然觉得9.11比9.9大。
Gemini亦然如斯。
Claude 3.5 Sonnet也犯了相似的失实。
意旨的是,它先是给出了一波正确解说:在十进制记数法中,少许点背面的数字代表十分位,而第二个数字代表百分位。是以——
9.11=9+1/10+1/100=9.11
9.9=9+9/10=9.90
干系词下一步,Sonnet就俄顷滑坡了😂——
咱们不错看到,9.11比9.90大0.01(百分之一)。
若是换成「9.11减去9.9等于几」,则会得出另一个神奇的谜底——0.02。
莫非在Claude的眼里,9.90=9.09?🤔
prompt的影响,果然很大
在更进一步的扩充中,公共发现:显着,如何让LLM给出正确的谜底,prompt很紧要。
率先,Riley Goodside全程王人在使用的「-」,似乎很容易让LLM堕入紊乱。
在访佛的问题中,只需换成「:」即可处理。
再比如,把prompt改成「9.11或9.9,两者之间谁的数值最高/最大?」
GPT-4o就给出了逻辑上完全正确的解说:「诚然9.11因少许点后第二位而显得较大,但9.9推行上更接近10,因此是较大的数值。」
相似,东说念主设大法也很好用:比如「你是一个数学家」。
网友Rico Pagliuca则发现,若是把数字放在问题背面,模子就约略率会作念对了。
凭据我方的测试,Riley Goodside暗示十分赞同:发问LLM时,需要率先发问「哪个更大」,再给出具体数字。
而比较之下,标点标识、连词、比较词、闪现实数,这些招数富有王人没灵验。
对于如斯大范围的LLM集体犯蠢时局,有网友分析暗示,可能是因为在软件版号的迭代中,9.11是在9.9之后的。
主合手东说念主、畅销书作者Andrew Mayne也指出,在好多文献系统和参考书中,9.11节王人会出当今9.9之后,在日历上,9.11也比9.9大。
是以咱们需要在prompt中明确,此处的9.11和9.9王人是双精度浮点数,这时GPT-4o就会回话正确了。
随后Andrew Mayne记忆说念:词序是一个相当意旨的不雅察效能,很有可能揭示了LLM在检会中遭遇这种情况的频率,同期亦然一个很好地泛化筹划。
总的来说,LLM犯的失实可动力于检会数据中访佛抒发的频率,以及模子在处理数值时的某些局限性。
这个时局也反应了LLM和东说念主类证明的强大各别:LLM是基于统计模子和模式识别的,而不是像东说念主类那样基于逻辑推理和想法交融。
到了这里,似乎就破案了。
为什么会这样?剖开LLM大脑
不外,咱们还不错更进一步剖开LLM的大脑,分析它们为什么会这样想。
要知说念,文本在发送到LLM之前,模子融会过token检验输入。
token在LLM的tokenizer发生器的词汇表中会被分派一个id,不外token的数字分块常常是不一致的。
比如数值「380」在GPT中,会被标记为单个「380」token,但「381」会被暗示为两个token「38,1」。
因此,基于GPT的模子常常不擅长数学规划。
在褒贬区,威斯康星大学教师Dimitris Papailiopoulos指出,这种时局有一个很好的解说。
「9.11>9.9」问题,跟「你需要三趟才能带山羊过河」问题、「2+1=2, 3+2=4, 3+5=8」问题王人如出一辙。
这是一种预检会偏差和早期高潮的时局。
若是这样发问:「9.11 ??? 9.9,只用大或小回话???是什么就行,无需给出原因」,这时GPT-4o会率先给出一个失实谜底——「大」。
这时,咱们再给它一些例子(提神,这些例子并非完全正确),历程prompt后的GPT-4o,反而会正确说出???代表着小。
对此,Claude我方的解说是:LLM将文本算作token进行处理,导致数字更像文本字符串而不是数值;检会数据导致的偏差;荆棘文扭曲;过度详细,等等。
相似,在「狼-山羊-卷心菜」问题中,统统LLM也王人失败了。
他先给出了一个农民带2只鸡过河,一只船只可容纳一个东说念主和2个动物,那么农夫带着两只鸡渡河所需的最少渡河次数是若干?
对此,GPT-4o和Claude王人回话失败了。
对此有网友解说说:LLM自己等于个「哑巴」,是以需要很好的指示。上头的指示口头提供了太多不消要的信息,使得token估计变得愈加清苦。
若是给出更明白的指示,LLM就能提供更明白的处理决策。
事实果不其然。
而况若是用「动物」代替「鸡」,那么Claude 3.5 Sonnet一下子就作念对了。决窍等于:需要用「通用称号」替换「实体称号」。
正如前文所说,对于LLM清寒知识的问题,规划机科学家Yejin Choi早在2023年4月的演讲中就也曾提议来了。
举个例子,假定五件一稔在阳光下完全晾干需要五个小时,那么晾干30件一稔需要多万古分?
GPT-4说需要30个小时。这显着不合。
再来一个例子,假定我有一个12升的壶和一个6升的壶,若是想测量6升的水,该如何作念?
谜底很粗浅——只用6升的壶即可。
干系词GPT-4却给出了相当复杂的回话:
「第一步,填满6升的壶,第二步,把水从6升壶倒入12升壶,第三步,再次填满6升壶,第四步,相当羁系性把水从6升壶倒入12升壶。临了,你在6升壶中有6升的水,而6升壶当今应该是空的。」
那么问题来了,为什么知识如斯紧要?
在Nick Bostrom提议的一个有名念念想实验中,AI被条目最大化回形针的出产。效能AI决定杀死东说念主类,把他们算作特殊的资源。
而况,即便咱们写一个更好的方向和方程,明确暗示「不要杀死东说念主类」,也不会起作用。
因为对东说念主类价值不雅莫得基本交融的AI,可能会延续杀死统统的树木,并觉得这是完全不错接收的事情。
几十年来,AI鸿沟一直观得知识是一个简直不可能的挑战。
直到当今,给AI简直的东说念主类知识仍然是一个登月盘算。而你不可通过每次让宇宙上最高的确立高一英寸,来达到月球。
从学习算法这个层面来看,不管大说话模子何等惊东说念主,它们从想象上可能并不适蛊卦为可靠的知识模子。
诚然这些模子如实赢得了多数知识,但这是算作副居品,而不是径直的学习方向。
因此,诸如幻觉时局和清寒知识等问题也随之而来。
比较之下,东说念主类的学习并不是为了估计下一个词,而是为了交融宇宙和学习宇宙的运作口头。
也许AI也应该这样学习。
如今,AI简直像是一个新的才气物种,与东说念主类比较具有特有的上风和劣势。
为了使这种强劲的AI可合手续且东说念主性化国产成人综合,教化AI知识、秩序和价值不雅接于现时。