訓練人工智慧資料不夠用

2024/04/14 03:07

文 |

爭相開發更強大人工智慧（AI）的企業很快就會遭遇一個新難題：比起他們的遠大計畫，網際網路太小了。

網路資源供不應求的主要原因是，有些資料所有人不讓AI公司透過網際網路取用他們擁有的資料，而網際網路上優質的公共資源也不多。有的AI業界高階主管與研究人員認為，符合AI訓練所需的高品質文本資料，可能在兩年內就會出現供應短缺問題，拖累AI發展速度。

知情人士說，AI公司已在尋找尚未開發的資料來源，也重新思考該如何訓練AI系統。ChatGPT開發商OpenAI就討論過，將公開的YouTube影片內容轉換成腳本，拿來訓練公司的下一代AI模型GPT-5。也有公司嘗試使用AI生成的資料（也稱「合成資料」）作為訓練材料，不過許多研究人員說，這種方法實際上可能會造成系統嚴重故障。

AI公司物色所需資料通常都祕密進行，業者相信，這些手段都攸關競爭優勢。

目前AI語言模型是使用取自網際網路的文本所建立，收進來的材料被分解成詞元（token），AI模型用它們來學習如何構建出類似人類的表達。

OpenAI沒有透露過目前最先進的語言模型GPT-4的詳細訓練材料。根據AI研究專家維拉羅伯推估，GPT-4的訓練素材應該已經多達12兆個詞元；而根據一個電腦運算擴展定律，如果繼續遵循當前軌跡，像GPT-5這樣的AI系統將需要60兆到100兆個詞元的資料。

Meta Platforms執行長祖克柏最近宣傳了公司可由自家旗下各平台獲取資料的能力，認定這將會是Meta發展AI的一大優勢。他說，Meta可以挖掘旗下Facebook、Instagram等網站上，數以千億計公開分享的圖片和影片，總量大於多數常用的資料集。不過數量雖大，但還不清楚有多大比率會被視為高品質資料。

OpenAI執行長奧特曼則說過，OpenAI正在研究訓練未來AI模型的新方法。他去年在一場會議上提到，「我認為我們正處於那種模型要很大、很大的時代的末期；我們會用其他方法讓AI系統變得更好」。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：訓練人工智慧資料不夠用

地址：https://www.torrentbusiness.com/article/101616.html

標籤：OpenAI 材料網路

訓練人工智慧資料不夠用

你可能感興趣

輝達翻紅！美股早盤盤整比特幣逼近10萬美元

美就業市場續強上周初領失業金人數降至4月來最低

輝達獲利強勁但財測未達市場高標亞股多收低

印度大亨阿達尼遭美檢方控涉嫌行賄集團發聲明反駁

比特幣還會飆嗎？川普2.0時代操作「川普交易」7點須知

輝達營收預測未達最高期待日股收低

熱門文章

最新文章

訓練人工智慧 資料不夠用

你可能感興趣

輝達翻紅！美股早盤盤整 比特幣逼近10萬美元

美就業市場續強 上周初領失業金人數降至4月來最低

輝達獲利強勁但財測未達市場高標 亞股多收低

印度大亨阿達尼遭美檢方控涉嫌行賄 集團發聲明反駁

比特幣還會飆嗎？ 川普2.0時代操作「川普交易」7點須知

輝達營收預測未達最高期待 日股收低

熱門文章

最新文章

訓練人工智慧資料不夠用

輝達翻紅！美股早盤盤整比特幣逼近10萬美元

美就業市場續強上周初領失業金人數降至4月來最低

輝達獲利強勁但財測未達市場高標亞股多收低

印度大亨阿達尼遭美檢方控涉嫌行賄集團發聲明反駁

比特幣還會飆嗎？川普2.0時代操作「川普交易」7點須知

輝達營收預測未達最高期待日股收低