一、認識Sora
Sora的這一次進展可以說是既在意料之中,也在意料之外。
所謂在意料之中是指在ChatGPT誕生不久,AI專家們都已經(jīng)形成共識,預判了大模型技術(shù)勢必要從單一的文本模態(tài)向多模態(tài)發(fā)展的基本趨勢。Sora只是順應這一趨勢而發(fā)生重大事件之一,它的誕生宣告了文生視頻、視頻編輯與生成的最新進展。
說意料之外,是當我們親眼看到其生成的視頻時,其畫質(zhì)之精良已經(jīng)堪比最先進的電影工業(yè)的產(chǎn)物,由此而帶來的感覺與認知上的沖擊是格外強烈的。從表面上來看,其在視頻長度、質(zhì)量以及可控性等方面均達到當前的最高水平,碾壓了同類競爭對手。從深層次來看,正如OpenAI的官網(wǎng)文章所表達的,Sora絕不僅僅只是個視頻生成工具,它本質(zhì)上是現(xiàn)實世界的模擬器,能夠?qū)ξ锢硎澜?、人類社會以及人與世界的復雜關(guān)系進行逼真模擬與生成。一直以來,計算機領(lǐng)域?qū)τ趶碗s系統(tǒng)的模擬就是個難題,數(shù)字孿生、游戲引擎、虛擬現(xiàn)實、數(shù)字仿真、電影制作等等領(lǐng)域都涉及對現(xiàn)實世界的復雜系統(tǒng)模擬。可以說Sora的誕生宣告了人工智能在對現(xiàn)實世界的模擬方面能力達到了前所未有的水平,也可以說是對傳統(tǒng)相關(guān)工具形成了降維打擊態(tài)勢。
當然,我們也不得不承認,Sora仍然存在一些局限,比如對于物理世界的一些瞬時事件(諸如杯子摔落的瞬間),現(xiàn)實世界的一些物理常識(比如說運行的束絲機斷線不停機),以及一些細節(jié)呈現(xiàn)(比如有專家發(fā)現(xiàn)中國舞龍視頻場景中的中國字多屬于編造的錯字),仍然存在著明顯問題。
這些問題從根本上來講可以歸結(jié)于高質(zhì)量、高精度數(shù)據(jù)的缺失,或者是相應物理場景的數(shù)據(jù)稀缺。比如瞬時狀態(tài)的視頻在總體樣本中的累積時長是相對較短的。但是我相信這些問題只要建立合理的診斷與發(fā)現(xiàn)機制,很快就可以通過增強長尾場景的樣本供給,增強合成數(shù)據(jù),以解決相應的問題。
Sora的重大意義在于宣告了AGI技術(shù)路線在世界模擬這一能力上已然走通,這是具有戰(zhàn)略意義的事件,剩下的細枝末節(jié)的提升與完善總體而言是屬于戰(zhàn)術(shù)層面。觀察OpenAI這幾年的發(fā)展,該公司似乎從不在戰(zhàn)術(shù)層面的問題上浪費寶貴時間與資源,這一點是值得我們學習的。所以我們要以更積極的心態(tài)去看待Sora,承認這個里程碑式的進展的積極意義,深入思考它有可能給我們的人類社會所帶來的全新的機遇以及全新挑戰(zhàn)。
那么對于物理世界的這種模擬究竟難在哪里呢?此前的Runway和Pica,我們多少可以明顯看出其生成的諸多問題(比如威爾史密斯吃面條的視頻,史密斯的形象總體上是明顯扭曲)。事實上,這些問題歸根結(jié)底是在于其視頻所生成的內(nèi)容違背了現(xiàn)實世界的物理規(guī)律或人類社會的文化習俗。而Sora基本解決了這方面的問題,而且是能夠在更大時空范圍內(nèi)解決這一問題,時長長度從AI視頻生成的幾秒鐘時間拉長到了一分鐘。在較長時空范圍內(nèi)能夠生成遵循物理規(guī)律、社會習俗的視頻是十分困難的。要知道即便是幾秒鐘的視頻,其所表達的信息量也是十分巨大的,對于我們這世界的表達是驚人的。一個幾秒鐘的視頻就能泄漏關(guān)于我們所在世界的大部分秘密。比如“一個時尚的女子行走在東京街頭”這個視頻,揭示了人類這個物種的生物特征,展示了人類文化的基本形態(tài),展現(xiàn)了人類行走的形態(tài),暗含了地球的重力狀態(tài),呈現(xiàn)了豐富的人文環(huán)境,暗示了豐富多彩的人與世界的復雜關(guān)系……在一個一分鐘視頻所展示的世界中,其物理環(huán)境和人文環(huán)境之復雜度是驚人的。Sora能夠做到如此逼真的模擬,完全吻合物理規(guī)律、文化習俗、生活常識,各種對象與要素之間的空間關(guān)系、時序關(guān)系也是合情合理。更為難得的是,即便在一些想象的場景,其所生成的“想象”視頻也是合乎人類的想象邏輯,而非是隨機亂象,其視頻生成的質(zhì)量完全達到了電影行業(yè)的最高水平。
傳統(tǒng)的計算機模擬仿真都需要借助復雜的數(shù)學模型。每一類物理現(xiàn)象有著復雜的數(shù)學模型,比如煙花爆炸、火焰噴發(fā)、海浪波動、動物行走。一分鐘視頻里面涉及太多模型,導致傳統(tǒng)計算機合成技術(shù)難以承受影視制作的高昂代價。2019年的“真獅版”的《獅子王》基本上代表了傳統(tǒng)計算機輔助生成技術(shù)在影視制作行業(yè)的最高水平。創(chuàng)作團隊為了再現(xiàn)真實獅子的動作、形態(tài)與毛發(fā),動用了Maya、ZBrush、Houdini等建模軟件,還借助了VR拍攝設(shè)備和工具,比如Oculus Rift、HTC Vive等,累計制作成本接近1.5億美元。而現(xiàn)在Sora只需要一句自然語言提示就能生成與之相媲美的高質(zhì)量視頻段落。以此來看,影視制作行業(yè)的發(fā)展形態(tài)必被重塑。
二、Sora的產(chǎn)業(yè)影響
我相信Sora背后的技術(shù)絕不會停留在影視制作,具有重大商業(yè)價值的無人駕駛或許也將面臨一次重大機遇。無人駕駛非常重要的一個問題是借助無人駕駛汽車的感知設(shè)備(包括雷達和攝像頭),對汽車行駛路況和周邊環(huán)境進行實時感知和建模。借助海量的駕車數(shù)據(jù)、交通攝像頭數(shù)據(jù),Sora從原理上來講是有可能在無人駕駛場景對汽車行駛環(huán)境進行高精度模擬和建模的,其一旦能在無人駕駛形成應用,無疑又給大模型產(chǎn)業(yè)注入全新推動力。
Sora對現(xiàn)實世界的建模與模擬能力,相信很快就會在具有更高價值、更為廣闊的場景中取得應用。工業(yè)制造、游戲引擎、數(shù)字孿生、教學仿真以及前幾年的元宇宙,都將從Sora背后的生成式世界模擬能力中受益。
比如說在我們的工業(yè)制造,也需要大量的專業(yè)性極強的仿真和模擬才能對設(shè)備運行進行診斷與預測。借助傳統(tǒng)工業(yè)機理模型的樣本合成,再借助Transformer架構(gòu)一個面向特定工業(yè)場景的Sora模擬器,從而極大提升工業(yè)場景模擬能力的泛化性,似乎是一個可行的技術(shù)路線。Sora背后的技術(shù)與傳統(tǒng)行業(yè)的深度融合將進一步釋放生成式AI的產(chǎn)業(yè)價值,進一步推動AI與實體經(jīng)濟的深度融合,也有利于AI技術(shù)自身的進一步迭代演進。
我相信未來的科學發(fā)現(xiàn)也將從Sora的這次進展中受益良多。Sora一個基本啟發(fā)在于數(shù)據(jù)的充分訓練后,其可以遵循數(shù)據(jù)背后所蘊含的基本原理進行建模。Sora視頻生成中所呈現(xiàn)的多是物理規(guī)律、社會規(guī)律。事實上,科學認知世界有著不同的側(cè)面,細分為不同的學科。我們是否也可以想象如何借助AI對其他學科,比如化學、生物等,也進行類似的數(shù)據(jù)驅(qū)動的學習。成就Sora的技術(shù)原理遷移到其他學科是可能的,因為本質(zhì)上所有學科基本上就是表達各類實體、概念的時空規(guī)律、因果規(guī)律。Sora至少已經(jīng)向我們展示了從視頻數(shù)據(jù)學習物理和社會相關(guān)的時空規(guī)律、因果規(guī)律的可能性。一旦能建模某個學科的規(guī)律,進而能夠生成某個學科的現(xiàn)象,AI就一定能成為助推該學科發(fā)展的利器。
三、Sora的社會影響
AI能力的每一次進步,給人類社會帶來的既是重大機遇,也是重大挑戰(zhàn)。我們在積極擁抱這些全新機遇的同時,也要嚴肅思考潛在挑戰(zhàn),并積極應對。
AI的建模能力可以視作其對世界的“理解”能力。當我們使用“理解”一詞時便暗含了存在這個行為的主體。在全部人類歷史上,理解的主體是人,但如果不承認機器作為主體地位的話,便談不上所謂的機器“理解”。人類理解世界的結(jié)果也是為了表達世界,創(chuàng)造新的世界。從這個意義來講,當機器能像人類一樣重建某個概念的實例(比如“在東京街頭行走的時尚女性”),便可被視作具備一定的理解能力。對機器而言,精準建模就是“理解”世界的基本方式。Sora借助數(shù)據(jù)驅(qū)動方式取得了對現(xiàn)實世界的驚人建模與模擬能力,這種能力甚至是遠超人類對世界的認知能力的。
機器對于世界的建?;蛘J知可能比人類更接近世界本原之真相。數(shù)千年來,人類一直采取各種方式認知這個復雜的現(xiàn)實世界。神話、宗教、科學都是人類認知世界的方式。但不管是哪一種認知方式都是對世界本原的一種簡化理解。日常生活中,人們傾向于使用語言表達對于世界的體驗;科學研究中,科學家傾向于用公式表達對世界的認知。但符號公式一定程度上都是對非線性的復雜世界的一種簡化還原。絕大部分經(jīng)典理論都是在各種假設(shè)與前提下才能建立,這些假設(shè)與前提都是人類認知復雜世界所作出的妥協(xié)。
兩千多年來,人類從來沒有停止過對自身認知能力的懷疑。先哲們的這種懷疑是完全值得我們重視的。世界的本原也許未必如人類所認知的情形。數(shù)百億、千億參數(shù)的大模型可能比人類學習更加充分,其能夠?qū)W習到蘊含于海量數(shù)據(jù)人類難以覺察、難以表達的暗知識、潛在規(guī)律。
機器對于世界認知能力將顯著超越人類個體。如果將機器的建模能力認定為是一種對世界的認知能力,那么我們可能不得不承認,人類的認知能力相對于機器認知能力而言是存在著明顯缺陷的。人類的認知總體而言是線性的、有限的、簡單的。一直以來數(shù)學領(lǐng)域?qū)碗s非線性系統(tǒng)的建模都是重大挑戰(zhàn)。在復雜決策時,人能同時考慮的決策變量是十分有限的,所謂的抓大放小、抓住主要矛盾的決策方式,本質(zhì)上都是人類認知能力不足情況下的妥協(xié)之計。然而,AI卻可以在數(shù)以百萬計、千萬計的決策變量下進行決策。隨著人工智能的進一步發(fā)展,機器的感知維度也更加多元。機器所感知的范圍遠遠超過人類,比如高清攝像頭可以將遠在幾公里范圍之外的景象看得清清楚楚。機器的這類超級認知能力仍然有待我們深入研究,用好機器的這種超級認知能力將給人類發(fā)展創(chuàng)造全新機遇。
一定程度的自主學習,人類先驗知識的合理褪除,是成就Sora驚人效果的關(guān)鍵。事實上,人工智能最近幾年的發(fā)展一而再、再而三地說明,人類專家越少的干預反而越能產(chǎn)生好的模型效果。自然語言處理領(lǐng)域曾經(jīng)發(fā)生過每開除一個語言學專家,機器翻譯系統(tǒng)的效果就提升幾點的尷尬事實。這樣的故事也延續(xù)到了大模型時代。這不得不讓我們反思,人類對物理世界、人類社會皓首窮經(jīng)所積累的全部知識,在發(fā)展機器智能面前似乎顯得毫無價值,甚至起著負作用。人類對于發(fā)展機器智能的真正價值似乎只在于設(shè)定一個認知世界先驗載體(Transformer等模型架構(gòu)),準備好訓練素材(高質(zhì)量訓練數(shù)據(jù)),使用大規(guī)模算力進行訓練。想想人類的優(yōu)質(zhì)教育,何嘗不是搭建好良好的學習環(huán)境,準備好所有的學習條件,給予學生充分訓練與試錯機會,而不是填鴨式的知識灌輸和空洞的反復說教。人類的過往知識相對于機器而言似乎并不重要。想想人類社會代際間的經(jīng)驗與知識傳承,我們這代人的知識與經(jīng)驗又有多少會被我們的下一代所認可而繼承呢?
激發(fā)人類的想象力。人類的想象力通常是在看到實物之后得到極大的激發(fā)。當我們的創(chuàng)意還僅僅停留在文字或腳本階段時,它對我們的心靈的撞擊仍然是有限的,親眼所見帶來的感官體驗對心靈的震撼是難以言表的。從這個意義上來講,Sora的出現(xiàn)降低了創(chuàng)意和想象的視覺實現(xiàn)代價和門檻,它將極大地激發(fā)人類的想象力。人類的想象力或許會在AI工具的助力下實現(xiàn)一次躍遷或升級。
Sora進展也在刷新我們對于人類創(chuàng)造能力的理解。從AI實現(xiàn)視角來看,人類創(chuàng)造的本質(zhì)或許就是在更大的內(nèi)容或者理論生成空間中進行合理選擇。ChatGPT和Sora這一類大模型在海量數(shù)據(jù)的喂養(yǎng)下,對現(xiàn)實世界進行了壓縮表達,進而可以以較低的信息損失度還原世界本原。在大模型的生成過程可以視作是在更大語義空間上進行高效的內(nèi)容枚舉或檢索,這個語義空間可能比人類所能理解的語義空間大得多,這也將幫助人類拓展想象空間,提升人類的創(chuàng)造力。
人人都能創(chuàng)作的時代即將到來。Sora的大規(guī)模應用將會極大地降低視頻創(chuàng)造、內(nèi)容創(chuàng)作的專業(yè)門檻。內(nèi)容生成的速度、質(zhì)量、效率都會前所未有地提高。文化娛樂行業(yè)的井噴式發(fā)展或許將成為現(xiàn)實。未來我們的小學生,但凡有足夠創(chuàng)意并且能夠用自然語言表達自己的創(chuàng)作腳本,都有可能制作一部屬于自己的影視作品。但是值得注意的是,創(chuàng)造過程的另一個必要環(huán)節(jié)在于評價。什么是符合人類真善美標準的,仍然還需要以人類的尺度與標準進行檢視。人是萬物的尺度,在AI時代仍然適用。對于AI生成內(nèi)容,人類是唯一合格的評價者,人是AI的造物主,也是AI的尺度。
人人皆可創(chuàng)造看上去帶來了一個所謂“AI平權(quán)”的美好未來。但從長遠來看,它也可能帶來一些潛在的社會問題。人人都是導演、人人皆可制作,這意味著什么?藝術(shù)作品的總量可能遠遠超出生命的長度(即便壽命得以翻倍),即便窮盡一生也難以體驗可能萬分之一優(yōu)秀文化遺產(chǎn)。審美對象的廉價與泛濫或造成人類審美情趣的倒退、體驗欲望的消失。
每天吃肉,吃肉的欲望就會大大降低;天天過生日,生日的驚喜就會喪失了。人類的審美體驗所賴以實現(xiàn)的感覺與情感會在高頻刺激下變得麻木而遲鈍。美之為美或許正在于它的稀缺性。我們偶爾看一場《熱辣滾燙》電影一定會為了主人公的執(zhí)著與努力而深深感動,但是如果在AI技術(shù)加持下每天給你生成一部“打雞血”題材的電影,你的靈魂只怕只會麻木到直打哈欠。偶爾一次的藝術(shù)經(jīng)驗是人生體驗的升華,每天都喝雞湯,那大概率就是PUA。提不起興趣,打不起精神,本已經(jīng)是現(xiàn)代人的通病。Sora等直擊人類體驗的AI技術(shù)恐將進一步放大的人類的無意義感。
無孔不入的AI應用,不加節(jié)制的AI濫用給人類帶來的更可能是灰暗的明天。AI的大規(guī)模使用或許會使我們?nèi)松械拿繒r每刻都更加高效、更富意義。我們?nèi)松拿糠置棵牖蛟S在AI的助力下都能成為我們的高光時刻。然而,偉大是相對于平庸而言的。人類唯有經(jīng)歷日常的平庸現(xiàn)實體驗才能感受那如電光石火一般轉(zhuǎn)瞬即逝的審美或崇高體驗。每時每刻都是高光時刻也就從根本上毀滅了高光時刻對于人生的意義。我們生活中的每時每刻如果都被AI賦能,恐將加速人類生存意義的毀滅。日常生活的“無意義”的最大意義或許就是在于成就那片刻的重大“意義”。AI的應用應該給人們?nèi)粘I畹陌l(fā)呆與無聊留有余地,要為人類在未來AI時代的快速發(fā)展留下其在嬰童期田園漫步的美好回憶。與物理世界的直接交互體驗,近乎刀耕火種一般的田園體驗或許將是AI時代更令人珍惜的片刻。
伴隨通用人工智能技術(shù)的進一步發(fā)展,人類文明或許將進入一個“亂糟糟”的盤整期,其基本特征是“剪不斷,理還亂”。剪不斷的是難以割舍的人工智能給我們帶來的先進生產(chǎn)力,以及隨之而來的巨大社會福利。理不亂的是AI作為一種新型智能體,盲目插足人類的倫理道德與情感事物,從而攪亂人類的精神世界。
在AI技術(shù)之前,人類的精神世界完全百分之百體現(xiàn)的是人類自身的意志。伴隨著AI制作工作的大量使用,未來的藝術(shù)作品還有多大程度上是在體現(xiàn)人類的創(chuàng)作意志,這是個值得思考的問題。看看Sora在人類有限提示下完成的視頻生成,其生成內(nèi)容可以說已經(jīng)不是人類意志的完整體現(xiàn)。或許會有人說,Sora畢竟還是依賴人類的提示,提示不就在體現(xiàn)人類的意志么。那么要知道,同一段提示,不同的AI工具,甚至是同一個工具的不同版本或者不同輪次的生成,其結(jié)果都有差異。這個差異所在就是機器“意志”之體現(xiàn)。所以AI已經(jīng)在人類提示基礎(chǔ)上植入了來自模型的“意志”?;蛟S會有人說,Sora也是從人類制作的視頻所學習的,其學習的數(shù)據(jù)源頭是人類社會產(chǎn)生的,體現(xiàn)的是人類意志。但是一方面訓練AI的數(shù)據(jù)是個集合體,其體現(xiàn)的是人類群體的創(chuàng)作意志;另一方面隨著合成數(shù)據(jù)的大量使用,機器泛化能力已經(jīng)進一步增強,創(chuàng)作者通過Sora這類AI工具所體現(xiàn)的個人自由意志的成分可能會逐漸減少。
隨著Sora等視頻生成技術(shù)的大規(guī)模應用,人類的感知與認知功能紊亂是個值得擔憂的問題。當AI生成做到了以假亂真,人類的感覺和知覺系統(tǒng)已經(jīng)無法判斷真?zhèn)巍,F(xiàn)實世界和虛擬世界的邊界日益模糊,將造成人類感知與認知功能紊亂與障礙。越來越多的人看到了Sora生成視頻后發(fā)出了現(xiàn)實世界的懷疑。當我們將來沉浸在由人工智能所生成的虛擬世界的時候,其逼真程度與現(xiàn)實就完全沒有差別。那么影視作品《西部世界》中所描繪的人機共生社會所存在的一系列問題將不可避免的在人類社會出現(xiàn)。在一個以假亂真的虛擬世界中,射殺一個虛擬智能體,這是人類在情感上能接受的事實嗎?人類的認知功能的紊亂,勢必會帶來進一步的我們的情感和倫理事務的混亂等一系列問題。所以一個人類文明盤整期到來似乎是必然,在這個盤整期我們需要重新劃定AI應用的邊界,建立AI應用的準則。
人類幾千年來所建立起來知識體系面臨著崩塌的風險。這一風險隨著人工智能技術(shù)的進步可能會日益增大。以人類理解世界的方式所建立起來的認知世界本原的知識體系,是在人類的直覺經(jīng)驗基礎(chǔ)之上建立起來的。在AI生成對人感知能力的強大沖擊下,人類越加不再確信自己的感知與認知能力,這勢必會引發(fā)人們對已經(jīng)建立的知識體系的懷疑,勢必會質(zhì)疑對世界本原的所建立已有認知。
AI大發(fā)展時代,如何重建人類的認知體系,如何重拾認知世界的信心,都是未來我們需要積極回應的命題。從積極角度來看,機器的認知體系至少是人類現(xiàn)有認知體系的有益補充。人類擅長構(gòu)建抽象的、符號化、離散的、簡潔的知識體系;而機器擅長構(gòu)建具象的、數(shù)值化、連續(xù)的、復雜的知識體系。
四、對于AI發(fā)展所應秉持的基本態(tài)度
那么,對于AI的發(fā)展,我們應該秉持一種什么樣的態(tài)度呢?
AI發(fā)展具有時代必然性,是先進生產(chǎn)力的代表。為此,我們應該以積極心態(tài)擁抱AI技術(shù)浪潮的到來,同時做好AI發(fā)展所引發(fā)的社會變革的應對與準備工作。很多人認為AI是平權(quán)的機會。事實上,如果不加以合理的干預和監(jiān)管,AI更可能成為集權(quán)的利器。很多人認為AI是人類發(fā)展的超能力,但如果不加以合理的干預和監(jiān)管,人類會被這種能力反噬。好萊塢電影漫威電影不止一次的告誡人類超級英雄很容易被其超能力所反噬,這多少是對當下人類社會發(fā)展近況的一種隱喻。沒有對于AI的積極干預、引導與規(guī)范,AI有可能成為人類社會發(fā)展之不可承受之重。所以,人必須也終將成為AI的尺度,AI的發(fā)展只能以人類的福祉為唯一依據(jù)與標準。