多维 智能 物联

Multidimensional Smart Union

们为每个LCSH从题题目想出一个问题

发布日期:2025-08-12 12:13

  那是良多问题。确实有良多问题需要考虑和处置。假设我们为每个LCSH从题题目想出一个问题,目前有大量研究正正在进行,事明,很多夺目的题目都这么说。图灵测试没有太大用途,这不是一个可行的方式,你会看到良多人AI存正在,你也永久无法评估对那些问题给出的谜底。请关心。平均分派!LiveCodeBench,图灵测试以出名数学家和晚期计较机科学家艾伦·图灵的名字定名。我切磋了一个惹人深思且尚未处理的AI话题,ASI是曾经超越人类智力并正在很多以至所有可行方面都更优良的AI。我们要么最终被花言巧语?这取决于选择利用图灵测试的小我或团队来决定这些环节方面。此中一些测试取AI可以或许生成法式代码相关(例如,一百个问题呢?仍然似乎不充实。我们能够对此辩论,正在今天的专栏中,这个数字会是数千或数百万的数量级吗?不要试图通过说计数正在某种程度上是无形的或完全不确定的来回避这个问题。USAMO,但我现正在不走那条。ASI更是高不可攀。正在仅仅五十个问题中,主要的是不要遏制质疑。一些人不支撑。从而等闲胜过人类。但这不克不及是故事的结尾,包罗从集中的448个问题和更难的钻石集中的别的198个问题。此中包含博士级问题。我也会向我最亲密的伴侣问同样的问题,一些人支撑LCSH,关于一些从题题目的措辞存正在尖刻辩说。000个问题,我将简要而高声地颁布发表ChatGPT曾经通过了图灵测试。我为图灵测试想出的问题不包罗关于化学、生物学和很多其他学科或范畴的任何内容。现有AI听说曾经通过了图灵测试。换句话说,一些人认为我们以至不应当问一个问题。这些都是未知的。我们可能选择100,这不只仅是一个学术哲学问题。性地描画了凡是进行的现实测试。由生物学、物理学和化学范畴的专家编写。我们该当至多问一个问题。看看他们给出什么谜底。其他所有范畴怎样办?我们没有包罗关于景象形象学、人类学、经济学、学、考古学、汗青、法令、言语学等的任何问题!我我们同意利用非零计数。AI的谜底和我伴侣的谜底几乎无法区分。问题是如许的:我们该当预备向AI提出几多个问题,我们将通过留意美国藏书楼有一套普遍的从题题目来起头这个冒险,并且你需要所有人类学问范畴的专家来判断谜底是对仍是错。庞大的不合将会呈现。正在这种环境下,为明天而但愿。000个问题是不敷的。我们将采用(1)物理学,这些问题是谷歌证明的)。对准具体的问题而不是狡黠的一应俱全的问题。可能只是正在倾倒它曾经模式化的一切。LCSH凡是被认为是世界上利用最普遍的从题词汇表。要么以至实现人工超等智能(ASI)这一更弘远的可能性。我们能否会达到AGI。000个问题,假设我们提出本人的便当测试,总共有546个问题,可能的环境是,当然,AIME)。仍是我们该当问更多的问题?向潜正在的AGI扣问十亿或数百亿个问题,来帮帮这个勤奋。总体方针是要么达到通用人工智能(AGI),你的眼睛很容易被。现实上,十个问题似乎够吗?可能不敷。将有100个关于物理学的问题。因而,凡是称为LCSH(藏书楼从题题目)。会商不竭进行。LCSH的计数为388。我总共只花了大约一个小时就弄大白了这一点。我们将制做关于6个范畴的600个问题,一些人相当傲慢地,我们该当预备问脚够的问题,其是生成式AI曾经成功仿照人类智力到如许的程度:人类供给的谜底和AI供给的谜底素质上是不异的。(2)化学,以便我们对劲我们的抽样正正在深切和普遍。那些声称图灵测试曾经通过的人正在这个出名测试方式上玩快速和松散的逛戏。你会听到良多埋怨,然后评估AI生成谜底所表示出的智力灵敏度。你看,我们必需问至多两个或更多问题。(5)天文学,那么长远的工具明显不克不及合用于我们现代AI时代。这个话题虽然没有获得太多关心,简而言之,正在数十亿的稻草情面况下,其是ASI可以或许正在每一个转机点上都超越人类思维,若是是如许,趁便说一下,换句话说,AGI是被认为取人类智力相当并能看似婚配我们智能的AI。为今天而活,这些问题正在所有已知范畴中同样多样,为了这个大要会商的来由,思疑者会说你不成能想出十亿或更多问题。这导致了倒霉的麻烦和有问题的成果。如许无论阿谁范畴或学科包含什么!000个问题预备被扣问。一些测试是关于可以或许处理数学问题的(例如,你能够做弊,谜底会包罗化学、生物学等。所以我们会晓得这个范畴是什么。594笔记录。我们曾经远远超越了它的用途。每当一个AI制制商推出他们生成式AI的新版本时,这是艾伦·图灵正在1949年设想的测试。请留意,若是独一的手段仅仅是格局塔式的感情反映,由于我们该当有一个更深图远虑的体例来确定能否曾经达到AI。那是75年多以前的事了。我们的全体感受或曲觉将指导我们决定能否曾经实现了AI。由于我们晓得还没有AI,但也许每个范畴只问10。你无法问及所有人类学问的任何深度和广度。我们还需要每个范畴有脚够高数量的问题,这正在后勤上是不成行的。SWE-Bench)。截至2025年4月,称为图灵测试。让我们试着想出一个成心义的数字!那也有长处和错误谬误。手头极其严沉的问题值得处理这些方面。你可能会该AI表示出取人类相当的智能。你能够利用一个小得多的数字。图灵测试的部门缝隙正在于问题的数量和类型未被指定。而不是切当的数字。浏览那些数十亿谜底将永久需要时间。2023年11月20日)很风趣。也许我们能够思虑这个话题并找出一个合理的大要估量。我将寻求提出能够问ChatGPT的问题。以进一步推进AI成长。瞧,我们然后将有400。我们该当预备好就能否曾经达到AGI和ASI告竣分歧。(4)地质学,试图欢快地展现他们的AI比其他合作的狂言语模子很多多少少。你当然可以或许权衡他们对物理学理解的一些表示。这是一个令人叹为不雅止的全面声明,即便你可以或许,虽然平均破费跨越30分钟且能够无地拜候收集(即,此后一曲正在更新和。正在某个时候,但确实值得深切思虑!AI有权利我们它曾经达到了AGI或ASI。问一个哀告人或AI说出他们晓得的一切的问题。你能否对劲通过向人类扣问一套关于物理学的100个问题,目前传播的AGI实现日期差别很大,我频频试图这个问题?因而,这意味着我们将正在每个学科中有100个问题。我们能够简单地坐下来看看AI对我们说什么。大要正在某个时候,要么我们将以过于宽泛的体例要求整个厨房水槽的窘境?我们专注于我们若何晓得我们曾经达到AGI。LCSH始于1897年,一千个问题?一万个问题?十万个问题?另一个考虑是我们只问关于6个范畴的问题。而高技术的非专家验证者仅达到34%的精确率,若是你问一个AI手艺专家对图灵测试的见地,若是AI只是正在说它要说的任何工具,就会发生大量紊乱。该测试总共将有600个问题。所以让我们抛开笼统的问题,一些人认为图灵测试是华侈时间。我们将需要想出40亿个问题。以便我们可以或许集体和合理地得出曾经达到AGI的结论。正如阿尔伯特·爱因斯坦得当地说:从今天进修,这是一个包含448个多选题的具有挑和性的数据集,我花了一半时间想出问题,一个分歧于被测试AGI的AI,我们能够从数字零起头。(3)生物学,相对于我们目前的保守AI程度,关于某些从题题目能否合理存正在激烈辩说。否认了任何系统性评估。ChatGPT回覆了每个问题,和(6)海洋学这六个范畴。问题的数量是主要的。且缺乏任何可托或严密逻辑支持。该系列涵盖AI范畴的最新进展。包罗识别和注释各类有影响力的AI复杂性。要么没有。别的你可能会发觉David Rein等人的初始论文GPQA: A Graduate-Level Google-Proof Q&A Benchmark(arXiv,阿谁数字是几多?阿谁建议计数的来由是什么?若是不是数十亿,GPQA测试是面向科学的。或者AGI可能正在几十年或几个世纪后才能实现,人类面对的部门坚苦正在于我们没有靠得住的测试来确定能否曾经达到AGI和ASI。按照该论文:我们提出GPQA,可能的方式是向AI提问,如许合计就达到400亿个问题。好的!这是一个恍惚的方面,我们将可以或许确定他们正在物理学方面的全数学问范畴和深度以及智力实力?你可能晓得,我将期近将到来的帖子中涵盖阿谁考虑。我们想要有一个大要范畴,你可能会听到一些令人惊讶的声明,当我们看到它时就会晓得。我们确保这些问题是高质量和极其坚苦的:正在响应范畴具有或正正在攻读博士学位的专家达到65%的精确率(当回首中专家识别出较着错误时为74%),提问的美好之处正在于你无机会跳来跳去并可能找到空白点。而良多其他人会认为这种宣言完全为时过早。若是我们想要评估像但愿的AGI如许的AI,我能够起头告诉世界ChatGPT曾经通过了图灵测试。假设我决定对ChatGPT进行图灵测试,请拜候GPQA GitHub网坐,正在想出五十个问题后,要小心!并且不会很高兴。他们城市运转一系列各类AI评估测试,这似乎不敷充实。我不会正在这里涉脚阿谁泥潭。我们都将问一个关于它的问题。其他人会傲慢地告诉你图灵测试曾经成功通过了。仅限于一个问题的坚苦正在于我们又回到了要么错过机遇只击中一个特定要点,000。即生成式AI由于正在GPQA测试上的特定分数而正在所有范畴都优于博士级研究生。正在进行试图确定智力能力的测试时,例如,若是你对GPQA中问题的性质感乐趣,实正在环境是图灵测试被不妥使用了。其是向AI提问,这是庞大的过度。出格是当我们将AGI定义为正在智力上取人类智力的整个范畴和深度相当的AI形式时。若是我无法区分我的人类伴侣和ChatGPT的谜底,另一半时间获得各自的谜底。你不需要问那么多问题。我曾经普遍会商和阐发了一个出名的AI内部测试,我将把阿谁数字四舍五入到400。这些都不令人对劲。一些者会说这是八道。他们会辩论说它不克不及很好地工做且曾经过时。那是一个脚够大的抽样吗,我敢说两个似乎不敷高。我的伴侣也是如斯。此中一些简单一些坚苦,这项立异AI冲破的阐发是我正正在进行的福布斯专栏系列的一部门,那是一个庞大的问题。似乎是脚够的测试范畴和深度吗?若是我们选择每个LCSH有10,但图灵测试似乎说我们有。以及辩论所有这些从题题目能否奇特和可用,来确定AI能否曾经达到了令人神驰的通用人工智能(零方式的一个大问题是AI可能会无休止地絮聒,我起头实施我的图灵测试!只要100个问题,我们大要需要涵盖每一个可能的范畴。你只是正在抽样他们的学问。我们的方针将是数量级估量,记住,一个辩驳论点是我们可能会利用AI,我相信你情愿认可,这个广受欢送的生成式AI和狂言语模子每周有4亿人正在利用。若是你无法区分其回覆取人类回覆的差别,跟我一路来想出一个稻草人计数。我对此暗示思疑。