大型語言和多模態(tài)模型的訓練計算量也在穩(wěn)步增加(圖1.2.16)。用于訓練Minerva(540B)的計算量大約是OpenAI的GPT-3(2022年6月發(fā)布)的9倍,是GPT-2(2019年2月發(fā)布)的1839倍。Minerva是谷歌于2022年6月發(fā)布的一個大型語言和多模模型,在定量推理問題上表現(xiàn)出了令人印象深刻的能力。
2019-22年選擇大型語言和多模態(tài)模型的訓練計算(FLOP)
圖1.2.16
訓練費用
圍繞大型語言和多模態(tài)模型的話語的一個特殊主題與它們的假設成本有關。盡管人工智能公司很少公開談論訓練成本,但人們普遍猜測,這些模型的訓練成本為數(shù)百萬美元,而且隨著規(guī)模的擴大,成本將變得越來越昂貴。本小節(jié)介紹了一種新的分析,其中人工智能索引研究團隊對各種大型語言和多模態(tài)模型的訓練成本進行了估計(圖1.2.17)。這些估計是基于模型的作者所披露的硬件和訓練時間。在沒有透露訓練時間的情況下,我們根據(jù)硬件速度、訓練計算和硬件利用率效率進行計算??紤]到估計值的可能可變性,我們用中、高或低的標簽來限定每個估計值:中估計值被認為是中級估計值,高被認為是高估估計值,低被認為是低估估計值。在某些情況下,沒有足夠的數(shù)據(jù)來估計特定的大型語言和多模態(tài)模型的訓練成本,因此這些模型在我們的分析中被省略了。
選擇大型語言和多模態(tài)模型的估計訓練成本
圖1.2.17
大型語言和多模態(tài)模型的成本與其規(guī)模之間也有明顯的關系。如圖1.2.18和1.2.19所示,具有更多參數(shù)的大型語言和多模態(tài)模型以及使用大量計算的訓練往往更昂貴。
選擇大型語言和多模態(tài)模型的估計訓練成本和參數(shù)數(shù)
圖1.2.18
選擇大型語言和多模態(tài)模型的估計訓練成本及訓練計算(FLOP)
圖1.2.19
人工智能會議是研究人員分享其工作、與同行和合作者建立聯(lián)系的關鍵場所。出席會議表明了人們對一個科學領域的更廣泛的工業(yè)和學術興趣。在過去的20年里,人工智能會議的規(guī)模、數(shù)量和聲望都有所增長。本節(jié)介紹了參加主要人工智能會議的趨勢數(shù)據(jù)。
2024-12-29 08:55
2024-12-29 08:45
2024-12-28 11:42
2024-12-27 09:59
2024-12-27 09:46
2024-12-27 09:44
2024-12-27 09:42
2024-12-26 10:48
2024-12-23 11:01
2024-12-22 08:54