人工智慧(AI)技術的發展日新月異,現有評測與比較大型語言模型的方式已不敷使用,科技業者正趕忙重新設計用來測試與評估AI模型的方式,希望創建新基準。
英國金融時報(FT)報導,AI業者的AI模型會交由公司團隊或外部研究人員進行評估,為標準化測試的一環,也就是評估模型能力以及不同系統或新舊版本之間效能差異的基準。然而,AI近期的發展速度,意味著最新模型在現有測試中,已能逼近或超過90%的準確率,凸顯研發新基準的必要性。
Hellaswag和MMLU等既有公開測試,是用選擇題評估AI模型對各個主題的常識和能力。如今研究人員認為AI模型需要更複雜的問題。
因此,Meta、OpenAI和微軟等科技業者,紛紛創建自家的內部基準與測試。微軟在自家內部的基準測試,納入先前在訓練中未出現過的問題,以評估其AI模型是否像人類一樣進行推理。OpenAI則主要透過數學、STEM科目和撰寫程式碼任務的評估,來衡量模型的推理能力。
外部組織也努力打造新的基準,例如,新創公司Scale AI和Hendrycks在9月宣布一個名為「人類最後考試」的計畫,匯集不同學科的專家來設計複雜問題,需抽象推理才能完成。
一項公開測試SWE-Bench Verified在今年8月更新,以提升評估AI模型的能力。這個測試是使用來自GitHub的現實世界中的軟體問題,會提供AI代理人程式碼儲存庫,和一個工程問題,詢問他們如何解決。這項任務需要推理才能完成。以此進行測試,OpenAI的最新模型GPT-4o預覽版解決41.4%的問題,而Anthropic的Claude 3.5 Sonnet解決了49%的問題。
執行更高階的測試有另一個重要的要素是,確保基準測試的問題沒出現在公共領域,以防AI模型透過訓練資料產生答案而不是靠推理來解決問題。對釋放AI代理人的潛力來說,推理和規劃的能力至關重要。
▪ 2024美大選開票數據/6州變天翻轉 關鍵搖擺州全被川普拿下
▪ 川普重返白宮!回顧美國近10任總統 他們都曾創驚人紀錄
▪ 川普勝選關鍵「7大搖擺州」左右選情 近3次開票結果比較
▪ 美總統怎選?5大QA看懂選舉人團制度 致勝關鍵全靠「它」
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:技術的發展日新月異 AI模型評估基準要升級
地址:https://www.torrentbusiness.com/article/134081.html