8月16日消息,近日,OpenAI聯(lián)合創(chuàng)始人兼總裁Greg Brockman在世界AI工程師大會上,分享了他對AI技術(shù)發(fā)展瓶頸、科研與工程關(guān)系等AI關(guān)鍵議題的最新看法。作為2015年便入局AI的行業(yè)老兵,在回答主持人關(guān)于GPT-6發(fā)展挑戰(zhàn)的問題時,Brockman提出了一項十分重要的觀察:
隨著算力和數(shù)據(jù)規(guī)模的快速擴(kuò)展,基礎(chǔ)研究正在回歸,算法的重要性再次凸顯,成為未來AI技術(shù)發(fā)展的關(guān)鍵瓶頸。
對Brockman而言,這并非壞事。他覺得整天圍繞Attention is All You Need這一經(jīng)典論文和Transformer做文章已經(jīng)有些乏味,智力上難免讓人覺得“不過癮”。目前,強(qiáng)化學(xué)習(xí)已成為算法研究的新方向之一,但他也意識到,仍存在許多明顯的能力缺口。

▲Greg Brockman(右)與主持人(左)
工程與科研,是驅(qū)動AI發(fā)展的兩大引擎。工程師出身的Brockman認(rèn)為,工程師的貢獻(xiàn)與研究人員不相上下,甚至在某些方面更為重要。如果沒有科研創(chuàng)新,就無事可做;如果沒有工程能力,那些想法就無法實現(xiàn)。
OpenAI從一開始就堅持工程與研究同等看待,而兩者的思維方式又有所不同。對新加入OpenAI的工程師,Brockman的第一堂課便是:保持技術(shù)上的謙遜,因為在傳統(tǒng)互聯(lián)網(wǎng)大廠行之有效的方法,在OpenAI未必適用。
產(chǎn)品與科研間的資源協(xié)調(diào),也是OpenAI時常面臨的問題。Brockman在訪談中承認(rèn),為了支撐產(chǎn)品上線的海量算力需求,OpenAI不得不以幾乎是“抵押未來”的方式,借調(diào)部分本應(yīng)用于科研的算力。不過,他認(rèn)為這一取舍是值得的。
Brockman還在訪談中回顧了自己童年時期對數(shù)學(xué)的興趣,再到轉(zhuǎn)向編程,從哈佛轉(zhuǎn)校至MIT,最終輟學(xué)加入金融科技創(chuàng)企Stripe的經(jīng)歷。由于篇幅所限,實錄并未包含這部分內(nèi)容。
在采訪的尾聲,Brockman回答了來自英偉達(dá)創(chuàng)始人兼CEO黃仁勛的兩個問題,分別涉及未來AI基礎(chǔ)設(shè)施的形態(tài)與開發(fā)流程的演變。
Greg Brockman的這場采訪錄制于今年6月,以下是部分精彩內(nèi)容的整理(智東西在不改變原意的前提下,進(jìn)行了一定程度的增刪修改):
01 .
工程師與研究人員同等重要,
加入OpenAI第一課是技術(shù)謙遜
主持人:2022年時你說,現(xiàn)在是成為機(jī)器學(xué)習(xí)工程師的時候了,偉大的工程師能夠在與偉大的研究人員相同的水平上為未來的進(jìn)步做出貢獻(xiàn)。這在今天還成立嗎?
Greg Brockman:我認(rèn)為工程師做的貢獻(xiàn)和研究人員是相仿的,甚至更大。
一開始,OpenAI在早期就是一群博士畢業(yè)的研究科學(xué)家,提出一些想法并進(jìn)行測試,工程對這些研究是必不可少的。AlexNet本質(zhì)上是“在GPU上實現(xiàn)快速卷積內(nèi)核(convolutional kernels)”的工程。
有趣的是,當(dāng)時在Alex Krizhevsky實驗室的人實際上對這一研究不以為然,他們覺得AlexNet只是用于某個圖像數(shù)據(jù)集的快速內(nèi)核,并不重要。
但I(xiàn)lya說:“我們可以將其應(yīng)用于ImageNet。效果肯定會很好。”這一決定將偉大的工程與理論創(chuàng)新結(jié)合了起來。
我認(rèn)為,我之前的看法至今依然有效。現(xiàn)在,業(yè)界所需的工程不僅僅是打造特定的內(nèi)核,而是構(gòu)建完整的系統(tǒng),將其擴(kuò)展到10萬塊GPU,打造強(qiáng)化學(xué)習(xí)系統(tǒng),協(xié)調(diào)好各個部分之間的關(guān)系。
如果沒有創(chuàng)新的想法,就無事可做;如果沒有工程能力,那個想法就無法實現(xiàn)。我們要做的是將兩個方面和諧地結(jié)合在一起。
Ilya和Alex的關(guān)系,是研究與工程合作的象征,這種合作現(xiàn)在是OpenAI的哲學(xué)。
OpenAI從一開始就認(rèn)為工程和研究同等重要,兩個團(tuán)隊需要緊密合作。研究和工程之間的關(guān)系也是永遠(yuǎn)無法完全解決的問題,解決了當(dāng)前水平的問題后,會面臨更復(fù)雜的問題。
我注意到,我們遇到的問題,基本與其他實驗室面臨的情況相同,只是我們可能會走得更遠(yuǎn),或出現(xiàn)一些不同的變體。我認(rèn)為,這背后有一些根本性原因。在一開始,我明顯感受到工程背景與研究背景的人,對系統(tǒng)約束的理解,差異很大。
作為工程師,你會認(rèn)為:“如果接口已經(jīng)確定,那就不必關(guān)心它背后的實現(xiàn),我可以按任何我想要的方式來實現(xiàn)它。”
但作為研究人員,你會想:“如果系統(tǒng)的任何部分出現(xiàn)錯誤,我看到的只是性能稍有下降,沒有異常提示,也不知道錯誤在哪。我必須對整段代碼負(fù)責(zé)。”除非接口非常穩(wěn)固、可以完全信賴——這是個很高的標(biāo)準(zhǔn)——否則研究人員就得對這段代碼負(fù)責(zé)。這種差異常常帶來摩擦。
我曾在一個早期項目中看到,工程師寫好代碼后,研究人員會對每一行進(jìn)行大討論,進(jìn)度極為緩慢。后來,我們改變了做法,我直接參與項目,一次提出五個想法,研究人員會說其中四個不行,而我會覺得這正是我想要的反饋。
我們意識到的最大價值,也是我常對來自工程界的OpenAI新同事強(qiáng)調(diào)的,就是技術(shù)上的謙遜。
你帶著寶貴技能進(jìn)入這里,但這是與傳統(tǒng)互聯(lián)網(wǎng)初創(chuàng)公司截然不同的環(huán)境。要學(xué)會分辨什么時候可以依賴原有直覺,什么時候需要放下它們,這并不容易。
最重要的是,保持謙遜,認(rèn)真傾聽,并假設(shè)自己還有未理解的地方,直到真正明白原因。那時再去改變架構(gòu)、調(diào)整抽象層。真正理解并帶著這種謙遜去做事,是決定成敗的關(guān)鍵因素。
02 .
部分科研算力被調(diào)給產(chǎn)品,
OpenAI有時不得不“抵押未來”
主持人:我們來談?wù)凮penAI最近的一些重大發(fā)布,也分享幾個有趣的故事。其中一個特別值得一提的,是關(guān)于擴(kuò)展性的問題——在不同數(shù)量級上,一切都有可能崩潰。
ChatGPT發(fā)布時,僅用五天就吸引了100萬用戶;而今年4.0版本的ImageGen發(fā)布后,同樣在五天內(nèi),用戶數(shù)便突破了1億。這兩個階段相比,有哪些不同之處?
Greg Brockman:它們在很多方面都很相似。ChatGPT原本只是一次低調(diào)的研究預(yù)覽,我們悄悄發(fā)布,卻很快出現(xiàn)了系統(tǒng)崩潰的情況。
我們預(yù)料它會受歡迎,但當(dāng)時認(rèn)為需要等到GPT-4才能真正達(dá)到這種熱度。內(nèi)部同事早已接觸過它,所以并不覺得驚艷。
這也是該領(lǐng)域的一個特點——更新節(jié)奏很快。你可能剛剛看到“這是我見過的最神奇的東西”,下一刻就會想:“為什么它不能一次合并10個PR(拉取請求)呢?”ImageGen的情況與之類似,發(fā)布后極受歡迎,傳播速度和用戶增長都令人難以置信。
為了支撐這兩次發(fā)布,我們甚至打破慣例,從研究中抽調(diào)部分計算資源用于產(chǎn)品上線。這相當(dāng)于“抵押未來”,以使系統(tǒng)正常工作,但如果能按時交付并滿足需求,讓更多人體驗到技術(shù)的魔力,這種取舍是值得的。
我們始終堅持同樣的理念——為用戶提供最佳體驗,推動技術(shù)發(fā)展,創(chuàng)造前所未有的成果,并盡全力將它們推向世界,取得成功。
03 .
AI編程不止“炫技”,
正向嚴(yán)肅軟件工程轉(zhuǎn)型
主持人:“氛圍編程”(vibe coding)現(xiàn)在這已經(jīng)成為了一種現(xiàn)象。你對它有什么看法?
Greg Brockman:氛圍編程作為一種賦能機(jī)制,非常神奇,也體現(xiàn)了未來的發(fā)展趨勢。它的具體形式會隨著時間推移不斷變化。
即使是像Codex這樣的技術(shù),我們的愿景也是:當(dāng)這些Agent真正投入使用時,不僅僅是一個或十個副本,而是可以同時運(yùn)行成百上千、甚至十萬的Agent。
你會希望像對待同事一樣與它們協(xié)作——它們在云端運(yùn)行,能連接到各種系統(tǒng)。即使你睡覺、筆記本電腦關(guān)機(jī),它們?nèi)阅芾^續(xù)工作。
目前,人們普遍將氛圍編程視為一種交互式循環(huán),但這種形態(tài)將會改變。未來的交互會越來越多,同時Agentic AI將介入并超越這種模式,從而推動更多系統(tǒng)的構(gòu)建。
一個有趣的現(xiàn)象是,許多氛圍編程的演示都集中在制作有趣的應(yīng)用或惡搞網(wǎng)站等“酷炫”項目上,但真正新穎且具有變革性的是,AI已經(jīng)開始能夠改造和深入現(xiàn)有應(yīng)用。
許多公司在處理遺留代碼庫時,需要遷移、更新庫、將COBOL等舊語言轉(zhuǎn)換為現(xiàn)代語言,這既困難又乏味,而AI正逐步解決這些問題。
氛圍編程的起點是“做一些很酷的應(yīng)用”,而它正在向嚴(yán)肅的軟件工程演進(jìn)——尤其是在深入現(xiàn)有系統(tǒng)并進(jìn)行改進(jìn)的能力上。這將讓企業(yè)更快發(fā)展,而這正是我們的前進(jìn)方向。
主持人:我聽說Codex對你來說有點像“親手養(yǎng)大的孩子”。你從一開始就強(qiáng)調(diào)要讓它模塊化、文檔完善。你認(rèn)為Codex會怎樣改變我們的編程方式?
Greg Brockman:說它是我的“孩子”有點言過其實。我有一個非常出色的團(tuán)隊,一直在努力支持他們及其愿景。這個方向既令人著迷,又充滿潛力。
最有趣的一點是,代碼庫的結(jié)構(gòu),決定了能從Codex中獲得多少價值。
現(xiàn)有代碼庫大多是為了發(fā)揮人類的優(yōu)勢而設(shè)計的,而模型更擅長處理多樣化的任務(wù),不像人類那樣能深度連接概念。如果系統(tǒng)能更契合模型的特點,效果會更好。
理想的做法是:將代碼拆分成更小的模塊,編寫快速可運(yùn)行的高質(zhì)量測試,然后由模型來填充細(xì)節(jié)。模型會自行運(yùn)行測試并完成實現(xiàn)。組件之間的連接(架構(gòu)圖)相對容易構(gòu)建,而細(xì)節(jié)填充往往最困難。
這種方式聽起來像是良好的軟件工程實踐,但現(xiàn)實中,由于人類可以在腦中處理更復(fù)雜的概念抽象,往往會省略這一步。編寫和完善測試是一項繁重的任務(wù),而模型可以比人類多運(yùn)行100倍甚至1000倍的測試,從而承擔(dān)更多工作。
在某種意義上,我們希望構(gòu)建的代碼庫更像是為初級開發(fā)人員而設(shè)計的,以便最大化模型的價值。當(dāng)然,隨著模型能力的提升,這種結(jié)構(gòu)是否仍然最優(yōu),將會是一個有趣的問題。
這一思路的好處在于,它與人類為了可維護(hù)性本應(yīng)遵循的實踐一致。軟件工程的未來可能需要重新引入那些我們?yōu)榱俗呓輳蕉艞壍淖龇ǎ瑥亩屜到y(tǒng)發(fā)揮最大價值。
04 .
訓(xùn)練系統(tǒng)愈加復(fù)雜,
檢查點設(shè)計需同步更新
問:我們現(xiàn)在執(zhí)行的任務(wù)往往耗時更長、占用更多GPU,而且可靠性不高,經(jīng)常出現(xiàn)失敗,導(dǎo)致訓(xùn)練中斷。這一點眾所周知。
不過你提到過,可以重新啟動一次運(yùn)行,這沒問題。但當(dāng)你需要訓(xùn)練具有長期軌跡的Agent時,該如何應(yīng)對?因為如果軌跡本身具有非確定性,且已經(jīng)進(jìn)行到一半,就很難真正從頭重啟。
Greg Brockman:隨著模型能力的提升,你會不斷遇到新問題、解決問題、再遇到新的挑戰(zhàn)。
當(dāng)運(yùn)行時間很短時,這些問題并不顯著;但如果任務(wù)需要運(yùn)行幾天,就必須認(rèn)真考慮如何保存狀態(tài)等細(xì)節(jié)。簡而言之,隨著訓(xùn)練系統(tǒng)復(fù)雜度增加,這類問題必須得到重視。
幾年前,我們主要關(guān)注傳統(tǒng)的無監(jiān)督訓(xùn)練,保存檢查點相對簡單,但即便如此,也并非易事。如果要從“偶爾保存檢查點”轉(zhuǎn)為“每一步都保存”,就必須嚴(yán)肅考慮如何避免數(shù)據(jù)復(fù)制、阻塞等問題。
在更復(fù)雜的強(qiáng)化學(xué)習(xí)系統(tǒng)中,檢查點仍然重要,比如保存緩存以避免重復(fù)計算。我們的系統(tǒng)有個優(yōu)勢:語言模型的狀態(tài)相對明確,易于存儲和處理。但如果連接的外部工具本身有狀態(tài),就可能無法在中斷后順利恢復(fù)。
因此,需要端到端地規(guī)劃整個系統(tǒng)的檢查點機(jī)制。或許在某些情況下,中斷并重啟系統(tǒng)、讓結(jié)果曲線出現(xiàn)一些波動是可以接受的,因為模型足夠智能,可以應(yīng)對這種情況。我們計劃推出的新功能,就是允許用戶接管虛擬機(jī),保存其狀態(tài)后再恢復(fù)運(yùn)行。
05 .
做AGI不僅是做軟件,
還需同步打造超級計算機(jī)
黃仁勛:真希望我能在現(xiàn)場親自向你提問。在這個新的世界里,數(shù)據(jù)中心的工作負(fù)載和AI基礎(chǔ)設(shè)施將變得極其多樣化。一方面,有些Agent進(jìn)行深度研究,負(fù)責(zé)思考、推理和規(guī)劃,并且需要大量內(nèi)存;另一方面,有些Agent需要盡可能快速地做出響應(yīng)。
如何構(gòu)建一個AI基礎(chǔ)設(shè)施,使其既能高效處理大量預(yù)填充任務(wù)、大量解碼任務(wù)以及介于兩者之間的工作負(fù)載,同時又能滿足那些需要低延遲、高性能的多模態(tài)視覺和語音AI的需求?這些AI就像你的R2-D2(星球大戰(zhàn)中的機(jī)器人),或你的隨時可用的伴侶。
這兩類工作負(fù)載截然不同:一種超級計算密集,可能運(yùn)行很長時間;另一種要求低延遲。未來理想的AI基礎(chǔ)設(shè)施是什么樣的呢?
Greg Brockman:當(dāng)然,這需要大量的GPU。如果我要總結(jié)的話,老黃希望我告訴他應(yīng)該建造什么樣的硬件。
有兩類需求:一類是長期、大規(guī)模計算需求,另一類是實時、即時計算需求。這確實很難,因為這是一個復(fù)雜的協(xié)同設(shè)計問題。
我是做軟件出身的,我們最初以為只是在開發(fā)AGI(通用人工智能)軟件,但很快就意識到,要實現(xiàn)這些目標(biāo),就必須建設(shè)大規(guī)模的基礎(chǔ)設(shè)施。
如果我們想打造真正改變世界的系統(tǒng),可能需要建造人類歷史上最大的計算機(jī),這在某種程度上是合理的。
一種簡單的做法是,確實需要兩類加速器:一種追求計算性能最大化,另一種追求極低延遲。在一類上堆疊大量高帶寬存儲器(HBM),另一類上堆疊大量計算單元,這樣就基本解決問題。真正難的是預(yù)測兩類需求的比例。如果平衡失誤,部分機(jī)群可能會變得無用,這聽起來很可怕。
不過,由于這個領(lǐng)域沒有固定規(guī)則和約束,主要是優(yōu)化問題,如果工程師資源配置出現(xiàn)偏差,我們通常也能找到辦法利用這些資源,盡管可能付出較大代價。
例如,整個行業(yè)都在轉(zhuǎn)向混合專家模型(Mixture-of-Experts)。某種程度上,這是因為部分DRAM被閑置了,我們就利用這些閑置資源增加模型參數(shù),從而提高機(jī)器學(xué)習(xí)計算效率,而不會增加額外計算成本。所以,即使資源平衡出錯,也不至于造成災(zāi)難。
加速器的同質(zhì)化是一個良好的起點,但我認(rèn)為,最終為特定用途定制加速器也是合理的。隨著基礎(chǔ)設(shè)施資本支出達(dá)到驚人的規(guī)模,對工作負(fù)載進(jìn)行高度優(yōu)化也變得合理。
但業(yè)界還沒有定論,因為研究發(fā)展速度非常快,而這又在很大程度上主導(dǎo)了整個方向。
06 .
基礎(chǔ)研究正在回歸,
算法取代數(shù)據(jù)、算力成為關(guān)鍵瓶頸
問:我本來沒有打算問這個問題,但你提到了研究。你能對GPT-6擴(kuò)展過程中面臨的瓶頸進(jìn)行排名嗎?計算、數(shù)據(jù)、算法、電力、資金。哪幾個是第一和第二?OpenAI最受限于哪一個?
Greg Brockman:我認(rèn)為,我們現(xiàn)在正處于一個基礎(chǔ)研究回歸的時代,這令人非常興奮。曾經(jīng)有一段時間,人們的關(guān)注點是:我們有了Transformer,那就不斷擴(kuò)展它。
在這些明確的問題中,主要任務(wù)只是提高指標(biāo),這固然有趣,但在某種程度上也令人感到在智力上不夠具有挑戰(zhàn)性,不讓人滿足。生活中不應(yīng)只有“Attention is All You Need”原始論文的思路。
如今,我們看到的情況是,隨著算力和數(shù)據(jù)規(guī)模的快速擴(kuò)展,算法的重要性再次凸顯,幾乎成為未來進(jìn)步的關(guān)鍵瓶頸。
這些問題都是基礎(chǔ)而關(guān)鍵的環(huán)節(jié),雖然在日常看起來可能有些不平衡,但從根本上,這些平衡必須保持。看到強(qiáng)化學(xué)習(xí)等范式的進(jìn)展非常令人振奮,這也是我們多年來有意識投資的領(lǐng)域。
當(dāng)我們訓(xùn)練GPT-4時,第一次與它交互時,大家都會想:“這是AGI嗎?”顯然還不是AGI,但又很難明確說明為什么不是。它表現(xiàn)得非常流暢,但有時會走上錯誤的方向。
這說明可靠性仍是一個核心問題:它從未真正體驗過這個世界,更像是一個只讀過所有書籍或僅通過觀察世界來了解的人,與世界隔著一扇玻璃窗。
因此,我們意識到需要不同的范式,并持續(xù)推動改進(jìn),直到系統(tǒng)真正具備實際能力。我認(rèn)為,這種情況至今仍然存在,還有許多明顯的能力缺口需要彌補(bǔ)。只要持續(xù)推進(jìn),我們終將達(dá)到目標(biāo)。
07 .
“多樣化模型庫”逐漸成形,
未來經(jīng)濟(jì)將由AI驅(qū)動
黃仁勛:對于在場的AI原生工程師來說,他們可能在想,未來幾年,OpenAI將擁有AGI(通用人工智能),他們將在OpenAI的AGI之上構(gòu)建特定領(lǐng)域的Agent。隨著OpenAI的AGI變得越來越強(qiáng)大,他們的開發(fā)流程將如何改變?
Greg Brockman:我認(rèn)為這是一個非常有趣的問題。可以從非常廣泛的角度去看,觀點堅定但互不相同。我的看法是:首先,一切皆有可能。
也許未來AI會強(qiáng)大到我們只需讓它們編寫所有代碼;也許會有在云端運(yùn)行的AI;也許會有許多特定領(lǐng)域的Agent,需要大量定制工作才能實現(xiàn)。
我認(rèn)為趨勢正在向這種“多樣化模型庫”的方向發(fā)展,這非常令人興奮,因為不同模型有不同的推理成本,從系統(tǒng)角度來看,蒸餾技術(shù)發(fā)揮得很好。實際上,很多能力來自于一個模型能調(diào)用其他模型的能力。
這將創(chuàng)造大量機(jī)會,我們正走向一個由AI驅(qū)動的經(jīng)濟(jì)。雖然我們還未完全到達(dá),但跡象已經(jīng)顯現(xiàn)。當(dāng)前在場的人正在構(gòu)建這一切。經(jīng)濟(jì)系統(tǒng)非常龐大、多樣且動態(tài)。
當(dāng)人們設(shè)想AI的潛力時,很容易只關(guān)注我們現(xiàn)在在做的事情,以及AI與人類的比例。但真正重點是:如何讓經(jīng)濟(jì)產(chǎn)出提升10倍,讓每個人都獲得更大收益?
未來,模型將更加強(qiáng)大,基礎(chǔ)技術(shù)更完善,我們會用它做更多事情,進(jìn)入門檻也將更低。
像醫(yī)療領(lǐng)域,不能簡單應(yīng)用,需要負(fù)責(zé)任地思考正確做法;教育領(lǐng)域涉及家長、教師和學(xué)生,每個環(huán)節(jié)都需要專業(yè)知識和大量工作。
因此,將會有大量機(jī)會去構(gòu)建這些系統(tǒng),在場的每一位工程師,都擁有實現(xiàn)這一目標(biāo)的能量。