技術的發展日新月異 AI模型評估基準要升級

2024/11/11 02:11

文 |

人工智慧（AI）技術的發展日新月異，現有評測與比較大型語言模型的方式已不敷使用，科技業者正趕忙重新設計用來測試與評估AI模型的方式，希望創建新基準。

英國金融時報（FT）報導，AI業者的AI模型會交由公司團隊或外部研究人員進行評估，為標準化測試的一環，也就是評估模型能力以及不同系統或新舊版本之間效能差異的基準。然而，AI近期的發展速度，意味著最新模型在現有測試中，已能逼近或超過90%的準確率，凸顯研發新基準的必要性。

Hellaswag和MMLU等既有公開測試，是用選擇題評估AI模型對各個主題的常識和能力。如今研究人員認為AI模型需要更複雜的問題。

因此，Meta、OpenAI和微軟等科技業者，紛紛創建自家的內部基準與測試。微軟在自家內部的基準測試，納入先前在訓練中未出現過的問題，以評估其AI模型是否像人類一樣進行推理。OpenAI則主要透過數學、STEM科目和撰寫程式碼任務的評估，來衡量模型的推理能力。

外部組織也努力打造新的基準，例如，新創公司Scale AI和Hendrycks在9月宣布一個名為「人類最後考試」的計畫，匯集不同學科的專家來設計複雜問題，需抽象推理才能完成。

一項公開測試SWE-Bench Verified在今年8月更新，以提升評估AI模型的能力。這個測試是使用來自GitHub的現實世界中的軟體問題，會提供AI代理人程式碼儲存庫，和一個工程問題，詢問他們如何解決。這項任務需要推理才能完成。以此進行測試，OpenAI的最新模型GPT-4o預覽版解決41.4%的問題，而Anthropic的Claude 3.5 Sonnet解決了49%的問題。

執行更高階的測試有另一個重要的要素是，確保基準測試的問題沒出現在公共領域，以防AI模型透過訓練資料產生答案而不是靠推理來解決問題。對釋放AI代理人的潛力來說，推理和規劃的能力至關重要。

【美選熱話題】

▪ 2024美大選開票數據／6州變天翻轉關鍵搖擺州全被川普拿下
▪ 川普重返白宮！回顧美國近10任總統他們都曾創驚人紀錄
▪ 川普勝選關鍵「7大搖擺州」左右選情近3次開票結果比較
▪ 美總統怎選？5大QA看懂選舉人團制度致勝關鍵全靠「它」

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：技術的發展日新月異 AI模型評估基準要升級

地址：https://www.torrentbusiness.com/article/134081.html

標籤：OpenAI 推理

技術的發展日新月異 AI模型評估基準要升級

你可能感興趣

輝達翻紅！美股早盤盤整比特幣逼近10萬美元

美就業市場續強上周初領失業金人數降至4月來最低

輝達獲利強勁但財測未達市場高標亞股多收低

印度大亨阿達尼遭美檢方控涉嫌行賄集團發聲明反駁

比特幣還會飆嗎？川普2.0時代操作「川普交易」7點須知

輝達營收預測未達最高期待日股收低

熱門文章

最新文章

技術的發展日新月異 AI模型評估基準要升級

你可能感興趣

輝達翻紅！美股早盤盤整 比特幣逼近10萬美元

美就業市場續強 上周初領失業金人數降至4月來最低

輝達獲利強勁但財測未達市場高標 亞股多收低

印度大亨阿達尼遭美檢方控涉嫌行賄 集團發聲明反駁

比特幣還會飆嗎？ 川普2.0時代操作「川普交易」7點須知

輝達營收預測未達最高期待 日股收低

熱門文章

最新文章

輝達翻紅！美股早盤盤整比特幣逼近10萬美元

美就業市場續強上周初領失業金人數降至4月來最低

輝達獲利強勁但財測未達市場高標亞股多收低

印度大亨阿達尼遭美檢方控涉嫌行賄集團發聲明反駁

比特幣還會飆嗎？川普2.0時代操作「川普交易」7點須知

輝達營收預測未達最高期待日股收低