長江商報(bào) > Sora沖擊波:AGI實(shí)現(xiàn)只需1年?

Sora沖擊波:AGI實(shí)現(xiàn)只需1年?

2024-02-20 07:55:18 來源:長江商報(bào)

長江商報(bào)消息 2023年春節(jié),AI圈的絕對主角是屬于ChatGPT的,2024年春節(jié),OpenAI再投一顆“深水炸彈”,毫無預(yù)兆發(fā)布的文生視頻模型Sora,讓AI圈又一次“一夜變天”。

一是時(shí)長,二是逼真程度,Sora實(shí)現(xiàn)了兩個(gè)老大難問題的同時(shí)解決,以至于外界毫不吝嗇地將其形容為“顛覆性”的存在。360創(chuàng)始人周鴻祎說,Sora的發(fā)布意味著AGI(通用人工智能)的實(shí)現(xiàn)將從十年縮短到一年。

現(xiàn)實(shí),不存在了?

沒有任何預(yù)兆和消息的提前透露,OpenAI突然發(fā)布了首個(gè)文生視頻模型Sora,逼真程度瞬間“引爆”市場。

“一句話生成視頻”正無限接近于現(xiàn)實(shí)。在OpenAI的展示中,只需要一段簡單的文本指令,Sora就可以直接輸出最長達(dá)60秒的視頻,并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭以及富有情感的多個(gè)角色。

一位行走在東京街道上時(shí)尚女性的視頻幾乎成了Sora的“代表作”。這段一分鐘的視頻里,從主要人物到背景人物,從近景到遠(yuǎn)景,細(xì)致、逼真的畫面和流暢轉(zhuǎn)換的鏡頭幾乎以假亂真。

國泰君安研報(bào)指出,Sora具有三大突出亮點(diǎn),一是60秒長視頻,Sora可以保持視頻主體與背景的高度流暢性與穩(wěn)定性。二是單視頻多角度鏡頭,Sora在一個(gè)視頻內(nèi)實(shí)現(xiàn)多角度鏡頭,分鏡切換符合邏輯且十分流暢。三是理解真實(shí)世界的能力,Sora對于光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理得十分優(yōu)秀,極大地提升了真實(shí)感。

對于文生視頻的技術(shù)問題,北京市社會(huì)科學(xué)院副研究員王鵬對記者提到,這首先涉及到算法的復(fù)雜性。文生視頻技術(shù)不僅涉及文本到圖像的轉(zhuǎn)換,還需要處理時(shí)序信息和音頻同步。這需要復(fù)雜的深度學(xué)習(xí)模型,如生成對抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs)等,以捕捉視頻中的動(dòng)態(tài)變化和細(xì)節(jié)。

不過OpenAI也承認(rèn),目前Sora還存在著一定的短板,比如無法準(zhǔn)確地模擬復(fù)雜場景的物理原理,且無法理解這其中的因果關(guān)系,呈現(xiàn)在視頻上,可能就會(huì)出現(xiàn)一個(gè)人咬了一口餅干后,餅干并沒有咬痕的結(jié)果。

AGI加速

“通過文字描述的方式來生成前后有關(guān)聯(lián)的連續(xù)視覺內(nèi)容的時(shí)代來臨了”。在接受記者采訪時(shí),新壹科技CTO張華偉說,從Sora的效果看,穩(wěn)定性已經(jīng)很高了,這也意味著視頻內(nèi)容的生產(chǎn)效率大大提升了。

中國企業(yè)資本聯(lián)盟副理事長柏文喜對記者提到,Sora有望顛覆影視、游戲、廣告等多個(gè)行業(yè)。隨著Sora等文生視頻技術(shù)的成熟,各行各業(yè)都可以利用其生成高質(zhì)量的視頻內(nèi)容,提高內(nèi)容創(chuàng)作效率,降低制作成本。

“從長期來看,這種顛覆效應(yīng)將更加明顯,可能導(dǎo)致傳統(tǒng)視頻制作人員的需求減少,進(jìn)而推動(dòng)整個(gè)行業(yè)的變革!卑匚南卜Q。

不過中國信息協(xié)會(huì)常務(wù)理事、國研新經(jīng)濟(jì)研究院創(chuàng)始院長朱克力提到,這種顛覆還需要一定的時(shí)間,因?yàn)镾ora盡管在技術(shù)上取得了突破,但在實(shí)際應(yīng)用中還需要解決許多問題,如模型的穩(wěn)定性、可擴(kuò)展性和計(jì)算效率等。此外,各行業(yè)對于新技術(shù)的接受和應(yīng)用也需要一個(gè)過程。

但Sora真正的“星辰大海”,很可能早就超過了視頻的范疇。就像周鴻祎在評價(jià)Sora時(shí)說的,“我認(rèn)為AGI很快會(huì)實(shí)現(xiàn),就這幾年的事兒了”。

在接受記者采訪時(shí),天使投資人、資深人工智能的郭濤提到,與文本和圖像相比,視頻不僅包含了靜態(tài)圖像的空間信息,還加入了時(shí)間維度,要求模型能夠理解和預(yù)測隨時(shí)間變化的動(dòng)態(tài)場景。

這意味著Sora需要處理更加豐富的數(shù)據(jù)類型,包括物體的運(yùn)動(dòng)、光影變化、遮擋關(guān)系等,這些都是AGI所需解決的核心問題。

朱克力也表示,文生文和文生圖主要關(guān)注的是靜態(tài)信息的轉(zhuǎn)換和表達(dá),而文生視頻則需要在連續(xù)的時(shí)間序列中保持場景的一致性、物體的動(dòng)態(tài)關(guān)系和光影的變化,這要求模型具備更強(qiáng)的時(shí)空建模能力和更高的計(jì)算復(fù)雜度。因此,文生視頻技術(shù)的成功對于推動(dòng)AGI的發(fā)展具有更為顯著的作用。

“所以Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,而是大模型對真實(shí)世界有了理解和模擬之后,會(huì)帶來新的成果和突破!敝茗櫟t說。

理想與現(xiàn)實(shí)

據(jù)悉,目前Sora并未對公眾全面開放,僅邀請部分測試者進(jìn)行體驗(yàn)。造成這一情況的原因,是Sora所引發(fā)的關(guān)于濫用視頻生成技術(shù)所帶來的安全性擔(dān)憂,而這也幾乎可以看做是Sora想要“做大做強(qiáng)”必然需要邁過的一道坎。

王鵬總結(jié)出了文生視頻的三大難點(diǎn),分別是真實(shí)性問題、創(chuàng)意和版權(quán)問題以及可解釋性和透明度問題。

但這些并不足以阻擋文生視頻的發(fā)展。2023年是國內(nèi)大模型競爭白熱化的一年!侗本┦腥斯ぶ悄苄袠I(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示,我國10億參數(shù)規(guī)模以上的大模型已超過200個(gè)。而從2023年下半年開始,大模型競爭焦點(diǎn)也開始從底層模型的搭建轉(zhuǎn)移向行業(yè)的落地應(yīng)用。

不過從整體而言,國內(nèi)在AI領(lǐng)域的發(fā)展仍稍顯遜色,未出現(xiàn)代表性應(yīng)用的同時(shí),行業(yè)發(fā)展也出現(xiàn)“降溫”跡象。CB insights報(bào)告顯示,去年,中國AI領(lǐng)域投融資數(shù)量約為232筆,同比下降38%,融資總額約為20億美元,同比下降70%。

有分析師解讀,這意味著,熱錢可能集中地涌向了少數(shù)團(tuán)隊(duì)背景和技術(shù)實(shí)力強(qiáng)大的公司。從資源分配的角度而言,后來者想要再擠進(jìn)模型層創(chuàng)業(yè),空間已經(jīng)不多。

“不少國內(nèi)的大模型企業(yè)仍然面臨缺少自主創(chuàng)新的問題,如果不能知其然,必然不能知其所以然!痹诮邮苡浾卟稍L時(shí),一位業(yè)內(nèi)人士如此說道。

(北京商報(bào))

視覺中國圖

責(zé)編:ZB

長江重磅排行榜
視頻播報(bào)
滾動(dòng)新聞
長江商報(bào)APP
長江商報(bào)戰(zhàn)略合作伙伴