要在AI下半場定義“好問題”,紅杉中國推出全新AI基準(zhǔn)測試xbench

        獵云網(wǎng)王非2025-05-26 14:28 大公司
        第一個由投資機構(gòu)打造的AI基準(zhǔn)測試。

        隨著基礎(chǔ)模型的快速發(fā)展和AI Agent進入規(guī)模化應(yīng)用,被廣泛用于評估AI能力的基準(zhǔn)測試(Benchmark)卻面臨一個日益尖銳的問題:想要真實反映AI系統(tǒng)的客觀能力正變得越來越困難,這其中最直接的表現(xiàn)——基礎(chǔ)模型“刷爆”了市面上的基準(zhǔn)測試題庫,紛紛在各大測試榜單上斬獲高分甚至滿分。

        因此,構(gòu)建一個更加科學(xué)、長效和反映AI客觀能力的評測體系,正在成為指引AI技術(shù)突破與產(chǎn)品迭代的重要需求。

        5月26日,紅杉中國宣布推出全新的AI基準(zhǔn)測試xbench,并發(fā)布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個由投資機構(gòu)發(fā)起,聯(lián)合國內(nèi)外十余家頂尖高校和研究機構(gòu)的數(shù)十位博士研究生,采用雙軌評估體系和長青評估機制的AI基準(zhǔn)測試。xbench將在評估和推動AI系統(tǒng)能力提升上限與技術(shù)邊界的同時,重點量化AI系統(tǒng)在真實場景的效用價值,并長期捕捉Agent產(chǎn)品的關(guān)鍵突破。

        來源:紅杉中國


        xbench基準(zhǔn)測試的特點包括:


        xbench采用雙軌評估體系,構(gòu)建多維度測評數(shù)據(jù)集,旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創(chuàng)新性地將評測任務(wù)分為兩條互補的主線:(1)評估AI 系統(tǒng)的能力上限與技術(shù)邊界;(2)量化AI 系統(tǒng)在真實場景的效用價值(Utility Value)。其中,后者需要動態(tài)對齊現(xiàn)實世界的應(yīng)用需求,基于實際工作流程和具體社會角色,為各垂直領(lǐng)域構(gòu)建具有明確業(yè)務(wù)價值的測評標(biāo)準(zhǔn)。

        xbench 采用長青評估 (Evergreen Evalution)機制,通過持續(xù)維護并動態(tài)更新測試內(nèi)容 ,以確保時效性和相關(guān)性。xbench將定期測評市場主流Agent產(chǎn)品,跟蹤模型能力演進,捕捉 Agent產(chǎn)品迭代過程中的關(guān)鍵突破,進而預(yù)測下一個Agent 應(yīng)用的技術(shù)-市場契合點(TMF,Tech-Market Fit)。作為獨立第三方,xbench致力于為每類產(chǎn)品設(shè)計公允的評估環(huán)境,提供客觀且可復(fù)現(xiàn)的評價結(jié)果。

        首期發(fā)布包含兩個核心評估集:科學(xué)問題解答測評集(xbench-ScienceQA)與中文互聯(lián)網(wǎng)深度搜索測評集(xbench-DeepSearch),并對該領(lǐng)域主要產(chǎn)品進行了綜合排名。同期提出了垂直領(lǐng)域智能體的評測方法論,并構(gòu)建了面向招聘(Recruitment)和營銷(Marketing)領(lǐng)域的垂類 Agent評測框架。

        在過去兩年多的時間里,xbench一直是紅杉中國在內(nèi)部使用的跟蹤和評估基礎(chǔ)模型能力的工具,今天紅杉將其公開并貢獻給整個AI社區(qū)。無論是基礎(chǔ)模型和Agent的開發(fā)者, 還是相關(guān)領(lǐng)域的專家和企業(yè),或者是對AI評測具有濃厚興趣的研究者,xbench都歡迎加入,成為使用并完善xbench的一份子,一起打造評估AI能力的新范式。

        xbench最早是紅杉中國在2022年ChatGPT推出后,對AGI進程和主流模型進行的內(nèi)部月評與匯報。在建設(shè)和不斷升級“私有題庫”的過程中,紅杉中國發(fā)現(xiàn)主流模型“刷爆”題目的速度越來越快,基準(zhǔn)測試的有效時間在急劇縮短。正是由于這一顯著變化,紅杉中國對現(xiàn)有評估方式產(chǎn)生了質(zhì)疑——

        “當(dāng)大家紛紛考滿分的時候,到底是學(xué)生變聰明了,還是卷子出了問題?”


        因此,紅杉中國開始思考并準(zhǔn)備解決兩個核心問題:


        1)模型能力和AI實際效用之間的關(guān)系?基準(zhǔn)測試的題目越出越難,意義是什么?是否落入了慣性思維?AI落地的實際經(jīng)濟價值真的會和AI做難題呈正相關(guān)嗎?

        2) 不同時間維度上的能力比較:在xbench每一次更換題庫之后,我們就失去了對AI能力的前后可比性追蹤。因為在新的題庫下,模型版本也在迭代,無法比較不同時間維度上單個模型的能力如何變化。在判斷創(chuàng)業(yè)項目的時候,創(chuàng)業(yè)者的“成長斜率”是一個重要依據(jù),但在評估AI能力上,題庫的不斷更新卻反而讓判斷失效。


        為了解決這兩個問題,xbench給出了新的解題思路:


        1) 打破慣性思維,為現(xiàn)實世界的實用性開發(fā)新穎的任務(wù)設(shè)置和評估方式。

        當(dāng)AI進入“下半場”,不僅需要越來越難的AI Search能力的測試基準(zhǔn)(AI Capabilities Evals),也需要一套對齊現(xiàn)實世界專家的實用性任務(wù)體系(Utility Tasks)。前者考察的是能力邊界,呈現(xiàn)形式是score,而后者考察的實用性任務(wù)和環(huán)境多樣性,商業(yè)KPIs(Conversion Rate, Closing Rate)和直接的經(jīng)濟產(chǎn)出。

        因此,xbench引入了Profession Aligned的基準(zhǔn)概念,接下來的評估會使用“雙軌制”,分為AGI Tracking和Profession Aligned,AI將面臨更多復(fù)雜環(huán)境下效用的考察,從業(yè)務(wù)中收集的動態(tài)題集,而不單是更難的智力題。

        來源:紅杉中國

        2)建立長青評估體系。靜態(tài)評估集一旦面世,會出現(xiàn)題目泄露導(dǎo)致過擬合然后迅速失效的問題,我們將維護一個動態(tài)更新的題目擴充評估集來緩解這一現(xiàn)象。

        針對AI Capacity Evals:學(xué)術(shù)界提出了很多出色的方法論,但是受限于資源與時間不充分,無法維護成動態(tài)擴充的持續(xù)評估。xbench希望能延續(xù)一系列公開評估集的方法,并提供第三方、黑白盒、Live的評測。

        針對Profession Aligned Evals:xbench希望建立從真實業(yè)務(wù)中Live收集機制,邀請各行業(yè)的職業(yè)專家共同構(gòu)建和維護行業(yè)的動態(tài)評估集。

        同時,在動態(tài)更新的基礎(chǔ)上,xbench設(shè)計可橫向?qū)Ρ鹊哪芰χ笜?biāo),用于在時間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號,幫助判斷某個模型是否達到市場可落地閾值,以及在什么時間點上,Agent可以接管已有的業(yè)務(wù)流程,提供規(guī)模化服務(wù)。

        在xbench推出當(dāng)天,官網(wǎng)xbench.org上線了首期針對主流基礎(chǔ)模型和Agent的測評結(jié)果。

        來源:紅杉中國

        紅杉中國表示:xbench歡迎社區(qū)共建。對于基礎(chǔ)模型與Agent開發(fā)者,可以使用最新版本的xbench評測集來第一時間驗證其產(chǎn)品效果,得到內(nèi)部黑盒評估集得分;對于垂類Agent開發(fā)者、相關(guān)領(lǐng)域的專業(yè)和企業(yè),歡迎與xbench共建與發(fā)布特定行業(yè)垂類標(biāo)準(zhǔn)的Profession Aligned xbench;對于從事AI評測研究,具有明確研究想法的研究者,希望獲取專業(yè)標(biāo)注并長期維護評估更新,xbench可以幫助AI評估研究想法落地并產(chǎn)生長期影響力。

        【本文為合作媒體授權(quán)博望財經(jīng)轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表博望財經(jīng)立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲得授權(quán)。有任何疑問都請聯(lián)系(聯(lián)系(微信公眾號ID:AppleiTree)。免責(zé)聲明:本網(wǎng)站所有文章僅作為資訊傳播使用,既不代表任何觀點導(dǎo)向,也不構(gòu)成任何投資建議。】

        猜你喜歡

        亚洲色成人WWW永久网站| 亚洲AV综合色区无码一二三区 | 国产精品国产亚洲区艳妇糸列短篇 | 亚洲国产一区二区三区青草影视| 国产AV无码专区亚洲AV漫画| 亚洲精品无码99在线观看| 亚洲国产成人久久精品99| 亚洲 综合 国产 欧洲 丝袜 | 亚洲视频在线免费观看| 久久夜色精品国产嚕嚕亚洲av| 国产AV无码专区亚洲Av| 亚洲AV无码一区二区乱子伦| 亚洲AV综合色区无码另类小说| 亚洲av无码无在线观看红杏| 亚洲va在线va天堂va888www| 亚洲图片一区二区| 亚洲综合一区二区| 亚洲国产精品乱码在线观看97| 亚洲国产精品yw在线观看| 亚洲午夜国产精品| 亚洲中文字幕无码中文字| 亚洲国产成人久久综合| 亚洲AV成人无码网站| 亚洲国产精品一区二区第四页 | 亚洲精品无码成人片在线观看| 久久精品国产精品亚洲下载| 亚洲日本va在线视频观看| 亚洲av永久无码精品表情包| 亚洲精品福利视频| 亚洲无人区视频大全| 亚洲成_人网站图片| 亚洲av无码专区国产不乱码| 国产亚洲蜜芽精品久久| 久久青青草原亚洲av无码| 亚洲成AV人片在线播放无码| 久久精品国产96精品亚洲 | 色婷婷六月亚洲婷婷丁香| 亚洲人成伊人成综合网久久| 亚洲永久网址在线观看| 国产亚洲精品美女2020久久| 美腿丝袜亚洲综合|