要在AI下半場定義“好問題”，紅杉中國推出全新AI基準測試xbench

獵云網王非2025-05-26 14:28 大公司

第一個由投資機構打造的AI基準測試。

隨著基礎模型的快速發展和AI Agent進入規模化應用，被廣泛用于評估AI能力的基準測試（Benchmark）卻面臨一個日益尖銳的問題：想要真實反映AI系統的客觀能力正變得越來越困難，這其中最直接的表現——基礎模型“刷爆”了市面上的基準測試題庫，紛紛在各大測試榜單上斬獲高分甚至滿分。

因此，構建一個更加科學、長效和反映AI客觀能力的評測體系，正在成為指引AI技術突破與產品迭代的重要需求。

5月26日，紅杉中國宣布推出全新的AI基準測試xbench，并發布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個由投資機構發起，聯合國內外十余家頂尖高校和研究機構的數十位博士研究生，采用雙軌評估體系和長青評估機制的AI基準測試。xbench將在評估和推動AI系統能力提升上限與技術邊界的同時，重點量化AI系統在真實場景的效用價值，并長期捕捉Agent產品的關鍵突破。

來源：紅杉中國

xbench基準測試的特點包括：

xbench采用雙軌評估體系，構建多維度測評數據集，旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創新性地將評測任務分為兩條互補的主線：（1）評估AI 系統的能力上限與技術邊界；（2）量化AI 系統在真實場景的效用價值（Utility Value）。其中，后者需要動態對齊現實世界的應用需求，基于實際工作流程和具體社會角色，為各垂直領域構建具有明確業務價值的測評標準。

xbench 采用長青評估（Evergreen Evalution）機制，通過持續維護并動態更新測試內容，以確保時效性和相關性。xbench將定期測評市場主流Agent產品，跟蹤模型能力演進，捕捉 Agent產品迭代過程中的關鍵突破，進而預測下一個Agent 應用的技術-市場契合點（TMF，Tech-Market Fit)。作為獨立第三方，xbench致力于為每類產品設計公允的評估環境，提供客觀且可復現的評價結果。

首期發布包含兩個核心評估集：科學問題解答測評集（xbench-ScienceQA）與中文互聯網深度搜索測評集（xbench-DeepSearch），并對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論，并構建了面向招聘（Recruitment）和營銷（Marketing）領域的垂類 Agent評測框架。

在過去兩年多的時間里，xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具，今天紅杉將其公開并貢獻給整個AI社區。無論是基礎模型和Agent的開發者，還是相關領域的專家和企業，或者是對AI評測具有濃厚興趣的研究者，xbench都歡迎加入，成為使用并完善xbench的一份子，一起打造評估AI能力的新范式。

xbench最早是紅杉中國在2022年ChatGPT推出后，對AGI進程和主流模型進行的內部月評與匯報。在建設和不斷升級“私有題庫”的過程中，紅杉中國發現主流模型“刷爆”題目的速度越來越快，基準測試的有效時間在急劇縮短。正是由于這一顯著變化，紅杉中國對現有評估方式產生了質疑——

“當大家紛紛考滿分的時候，到底是學生變聰明了，還是卷子出了問題？”

因此，紅杉中國開始思考并準備解決兩個核心問題：

1）模型能力和AI實際效用之間的關系？基準測試的題目越出越難，意義是什么？是否落入了慣性思維？AI落地的實際經濟價值真的會和AI做難題呈正相關嗎？

2) 不同時間維度上的能力比較：在xbench每一次更換題庫之后，我們就失去了對AI能力的前后可比性追蹤。因為在新的題庫下，模型版本也在迭代，無法比較不同時間維度上單個模型的能力如何變化。在判斷創業項目的時候，創業者的“成長斜率”是一個重要依據，但在評估AI能力上，題庫的不斷更新卻反而讓判斷失效。

為了解決這兩個問題，xbench給出了新的解題思路：

1) 打破慣性思維，為現實世界的實用性開發新穎的任務設置和評估方式。

當AI進入“下半場”，不僅需要越來越難的AI Search能力的測試基準（AI Capabilities Evals），也需要一套對齊現實世界專家的實用性任務體系（Utility Tasks）。前者考察的是能力邊界，呈現形式是score，而后者考察的實用性任務和環境多樣性，商業KPIs（Conversion Rate, Closing Rate）和直接的經濟產出。

因此，xbench引入了Profession Aligned的基準概念，接下來的評估會使用“雙軌制”，分為AGI Tracking和Profession Aligned，AI將面臨更多復雜環境下效用的考察，從業務中收集的動態題集，而不單是更難的智力題。

來源：紅杉中國

2）建立長青評估體系。靜態評估集一旦面世，會出現題目泄露導致過擬合然后迅速失效的問題，我們將維護一個動態更新的題目擴充評估集來緩解這一現象。

針對AI Capacity Evals：學術界提出了很多出色的方法論，但是受限于資源與時間不充分，無法維護成動態擴充的持續評估。xbench希望能延續一系列公開評估集的方法，并提供第三方、黑白盒、Live的評測。

針對Profession Aligned Evals：xbench希望建立從真實業務中Live收集機制，邀請各行業的職業專家共同構建和維護行業的動態評估集。

同時，在動態更新的基礎上，xbench設計可橫向對比的能力指標，用于在時間上觀察到排名之外發展速度與關鍵突破的信號，幫助判斷某個模型是否達到市場可落地閾值，以及在什么時間點上，Agent可以接管已有的業務流程，提供規模化服務。

在xbench推出當天，官網xbench.org上線了首期針對主流基礎模型和Agent的測評結果。

來源：紅杉中國

紅杉中國表示：xbench歡迎社區共建。對于基礎模型與Agent開發者，可以使用最新版本的xbench評測集來第一時間驗證其產品效果，得到內部黑盒評估集得分；對于垂類Agent開發者、相關領域的專業和企業，歡迎與xbench共建與發布特定行業垂類標準的Profession Aligned xbench；對于從事AI評測研究，具有明確研究想法的研究者，希望獲取專業標注并長期維護評估更新，xbench可以幫助AI評估研究想法落地并產生長期影響力。

【本文為合作媒體授權博望財經轉載，文章版權歸原作者及原出處所有。文章系作者個人觀點，不代表博望財經立場，轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系（聯系（微信公眾號ID：AppleiTree）。免責聲明：本網站所有文章僅作為資訊傳播使用，既不代表任何觀點導向，也不構成任何投資建議。】

成人欧美一区二区三区视频不卡_欧美午夜艳片欧美精品_日日摸日日碰夜夜爽视频网站_欧美卡一卡二卡新区aaa

要在AI下半場定義“好問題”，紅杉中國推出全新AI基準測試xbench

xbench基準測試的特點包括：

因此，紅杉中國開始思考并準備解決兩個核心問題：

為了解決這兩個問題，xbench給出了新的解題思路：

猜你喜歡

24小時熱榜

關于我們

聯系我們