NEWS CENTER

新聞中心

【杏彩體育官網址多少】“人類思考方式有缺陷”！Sora三位大佬最新訪談：Sora仍處在GPT

來源：杏彩體育更新時間：2024-05-16 18:02:10

每經(jing)編(bian)輯黃勝

2月(yue)16日(ri)，人類仍處OpenAI推出新的(de)思考AI大(da)模型(xing)(xing)Sora，該文生(sheng)視頻大(da)模型(xing)(xing)可(ke)通(tong)過(guo)快速文本提(ti)示創(chuang)建“逼真”和“富有想象(xiang)力”的(de)式訪談(tan)60秒視頻。

一個月之(zhi)后，有缺第一波試用者對使(shi)用情況(kuang)進行了反(fan)饋。大佬

4月份，最新杏彩體育官網址多少OpenAI官方賬(zhang)號發布的人類仍處一支由Sora制作的MV（Music Video）——《Worldweight》，引發了不少網友們的思考圍觀。

目前，式(shi)訪談Sora已(yi)經成(cheng)為(wei)視頻大(da)模型(xing)的有缺標桿。有人(ren)說(shuo)，大(da)佬在視頻生成(cheng)領域(yu)，最新只有兩種模型(xing)：OpenAI Sora模型(xing)，人(ren)類仍處以及(ji)其他(ta)不(bu)是(shi)思考Sora的模型(xing)。

然(ran)而，式(shi)訪談Sora何(he)時(shi)才能開放給公眾(zhong)使(shi)用，OpenAI方面(mian)始終沒(mei)有給出具體的時(shi)間(jian)表。

內測中(zhong)的(de)Sora表現優異，但OpenAI卻遲遲沒有正式對外開放Sora，這(zhe)背(bei)后可能(neng)會(hui)有成(cheng)本(ben)原因的(de)考(kao)慮。知名科技作(zuo)家Robert Scoble在(zai)社交平(ping)臺(tai)X上(shang)就(jiu)表示，普通(tong)用戶僅僅每(mei)月支付20美元并不能(neng)涵(han)蓋生成(cheng)人工(gong)智能(neng)視頻的(de)成(cheng)本(ben)。

近日(ri)，NoPriors播客(ke)發(fa)布了對Sora項(xiang)目團隊三位負(fu)責人Tim Brooks、William Peebles(昵稱Bill)和Aditya Ramesh的專(zhuan)訪。

Tim Brooks是DALL-E 3的主要作者之一。他本科就讀于卡內基梅隆大學，主修邏輯與計算，輔修計算機科學。去年1月，他順利從加州大學伯克利分校獲得博士學位后，立即加入OpenAI，參與了DALL-E 3和Sora的杏彩彩票平臺怎么玩開發工作。

Bill本科(ke)就讀于麻省理(li)工學院，主(zhu)修計(ji)(ji)算機科(ke)學。在(zai)校期(qi)間，他參與了GAN和text2video的研究(jiu)，還在(zai)英偉(wei)達實習，專注(zhu)于深度學習、自動駕(jia)駛和計(ji)(ji)算機視覺。去年5月，Bill從(cong)伯克利畢業后也加入了OpenAI。

Aditya Ramesh在OpenAI已經是個(ge)"老人"。作(zuo)為DALL-E的創造者，他主(zhu)導(dao)了三代DALL-E的研究(jiu)工作(zuo)。

在訪談中，這三位Sora負責(ze)人對外界關心(xin)的(de)(de)有關Sora的(de)(de)諸多方面問題給出了回答。

核心內容：

1，我們目前還沒有制定產品的即時計劃，甚至沒有制定產品的時間表。

2，現階段的Sora，就像是新視覺模型的GPT-1。

3，（關于偽造和安全）我認為這里要弄清楚的一個關鍵問題是，部署這項技術的公司承擔多少責任？例如，社交媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信來源？用戶在使用這項技術創造某些東西時要承擔多少責任？

4，這項技術有可能讓許多有才華橫溢、富有創造力的人創造出他們想要的東西。

5，在讓這項技術更廣泛地普及方面，有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術足夠便宜，讓人們可以使用。

6，杏彩彩票平臺怎么玩賺錢我們思考事物的方式是有一個缺陷，就是沒有那么高的保真度。因此，我們對Sora的前景持樂觀態度，認為它將取代人類的某些能力。從長遠來看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。

以下為訪談節選：

主持人：很好(hao)。或許我們可(ke)以從 OpenAI 的使命開(kai)始(shi)談起，那(nei)就(jiu)(jiu)是(shi)實現 AGI，也(ye)就(jiu)(jiu)是(shi)更強大的人工(gong)智能。那(nei)么(me)，文(wen)本轉視(shi)頻的技術是(shi)否符合(he)這個(ge)使命呢？你們是(shi)如何開(kai)始(shi)研究(jiu)這個(ge)領域的呢？

Bill：是(shi)的(de)，我們(men)堅信像(xiang) Sora 這樣的(de)模型確實(shi)是(shi)實(shi)現 AGI 的(de)關鍵步驟。

展(zhan)望未(wei)來，為(wei)了生(sheng)成真(zhen)正逼真(zhen)的(de)視頻，你必須學(xue)習一些關于人們(men)如何(he)工作、如何(he)與(yu)他人互(hu)動(dong)、最(zui)終如何(he)思考(kao)的(de)模型。這(zhe)不僅(jin)包(bao)括人，還有動(dong)物(wu)(wu)，以及(ji)任何(he)你想要模擬(ni)的(de)物(wu)(wu)體。因此，展(zhan)望未(wei)來，隨著(zhu)我們(men)繼續擴大像Sora 這(zhe)樣的(de)模型，我們(men)將能夠構建這(zhe)些類似世界模擬(ni)器的(de)東西。隨著(zhu)我們(men)未(wei)來擴大Sora的(de)規模，AGI就會實現。

主持人：在(zai)更廣(guang)泛地使用 Sora 之(zhi)前，您需要(yao)做什么工作？Tim，你(ni)愿意談談這個(ge)問題嗎？

Tim：是的，我們目前還沒有制定產品的即時計劃，甚至沒有制定產品的時間表。然而，我們(men)將(jiang)Sora的訪問權限提供給(gei)一小部分藝術家以及紅(hong)隊成員，以開始了解Sora將(jiang)產生的影響。我們(men)從(cong)藝術家那(nei)里得(de)到(dao)(dao)了反饋(kui)，關于如(ru)何(he)(he)讓它成為對他們(men)最有用(yong)的工具，并從(cong)“紅(hong)隊成員”那(nei)里得(de)到(dao)(dao)了反饋(kui)，關于如(ru)何(he)(he)讓它安全(quan)，如(ru)何(he)(he)將(jiang)它介紹給(gei)公(gong)眾(zhong)。

主持人：我知道，當(dang)它(ta)推出時，很多人(ren)都(dou)被一(yi)些圖(tu)像所震撼。你會看(kan)到(dao)一(yi)只貓(mao)在水池(chi)中的(de)(de)影(ying)子(zi)或諸(zhu)如此(ci)類(lei)的(de)(de)東西。但我只是(shi)好奇，隨著越(yue)來越(yue)多的(de)(de)人(ren)開始(shi)使用(yong)它(ta)，你看(kan)到(dao)了什么。

Tim：是的(de)，看到藝術家們用這個模型生成(cheng)的(de)成(cheng)果，真的(de)很(hen)棒。

作為一個喜歡創造內容但又沒有足夠技能的人，使用這個模型并激發出一堆想法，并得到一些非常引人注目的東西是非常容易的。比如，在迭代提示(shi)方面(mian)，實際(ji)生成它所花費的時(shi)間真的不到(dao)(dao)一(yi)個小時(shi)。我非常(chang)高興(xing)地看到(dao)(dao)藝術家們也熱衷于使(shi)用(yong)這些模型(xing)，并從中創作出(chu)精(jing)彩的作品。

主持人：這些模(mo)型在短片或其(qi)他(ta)領域的(de)廣泛應用(yong)的(de)時間表是什么(me)？我們(men)何時會開(kai)始(shi)看到來自(zi)Sora或其(qi)他(ta)模(mo)型的(de)實際內(nei)容，并(bing)成為更廣泛媒體類型的(de)一部分？

Tim：我沒有確切的時間表預測，但我對此非常感興趣，那就是除了傳統電影之外，人們可能會將其用于什么。我認為，在接下來的幾年里，我們會看到人們開始制作越來越多的電影，但(dan)我認為人們也會(hui)找到使用(yong)這(zhe)些模型的(de)全新方式(shi)，這(zhe)些方式(shi)與我們習(xi)慣的(de)當前媒(mei)體完全不同。

主持人：Aditya在OpenAI工作(zuo)了大約五年，因此你(ni)(ni)見證了許(xu)多模型和公司的發展(zhan)。當你(ni)(ni)考慮這個世界模擬模型的功能(neng)時(shi)，你(ni)(ni)認為(wei)它會成為(wei)模擬的物理(li)引(yin)擎嗎？我對未來可(ke)能(neng)出現的其他一些(xie)前(qian)瞻性應用(yong)非常好奇。

Aditya：是的(de)，我完全認為(wei)在視頻模型中進(jin)行模擬是我們將來能夠做到的(de)事(shi)情(qing)。

Bill：你可以(yi)從視頻中(zhong)學到很多東西。OpenAI等(deng)公司過(guo)去在這方面投入(ru)了大(da)量資金，比(bi)如(ru)語(yu)言，比(bi)如(ru)手臂和關節如(ru)何(he)在空(kong)間中(zhong)移動的(de)(de)細節，它們(men)是如(ru)何(he)以(yi)物理上準確(que)的(de)(de)方式與地面接(jie)觸的(de)(de)。所以(yi)，你只需通過(guo)對原始視頻的(de)(de)訓練就(jiu)能學到很多關于物理世界的(de)(de)知識，我們(men)真(zhen)的(de)(de)相(xiang)信，這對于未來的(de)(de)物理體現等(deng)事情至關重(zhong)要。

主持人：再談談模型本身。Tim，你能描述(shu)一下什么是(shi)擴(kuo)散Transformer嗎？

Tim：擴散是一種數據生成過程。這個過程從噪音開始，通過反復多次去除噪音，直到最終去除了足夠多的噪音，只生成一個樣本。這就(jiu)是我們生成視頻的過(guo)程。

從架構(gou)角度來(lai)看(kan)，我們(men)的模型必須是可擴展(zhan)的，它(ta)們(men)需(xu)要(yao)能夠(gou)從大(da)量數據中學習，并理(li)解視頻中那些非(fei)常復雜且(qie)具有挑戰性的關系，這一(yi)點至關重要(yao)。因此，我們(men)采用了一(yi)種類似于GPT模型的架構(gou)，稱為Transformer。因此，將這兩個概念與Transformer架構(gou)結合(he)起來(lai)的擴散(san)Transformer使我們(men)能夠(gou)擴展(zhan)這些模型。隨著我們(men)投入更多的計算和更多的數據來(lai)訓練(lian)它(ta)們(men)，它(ta)們(men)的性能會越來(lai)越好。

主持人：Sora最引人注(zhu)目的一點就是它的視覺美(mei)感。我對(dui)此感到(dao)好奇，你是如何調(diao)整或制作(zuo)這種美(mei)感的？

Bill：實際上，我們并沒有為Sora投入大量精力。我認為Sora的語言理解絕對允許用戶以一種比其他模型更難的方式來操縱它。你可以提(ti)供(gong)很多(duo)提(ti)示和視覺(jue)提(ti)示，這些提(ti)示將(jiang)引導模型(xing)朝著你想要的(de)代數類型(xing)發展。

我(wo)認為展望未來(lai)，模型會賦予人(ren)們(men)某(mou)種(zhong)力(li)量，讓他們(men)理解你的(de)個人(ren)審美(mei)感，這將是(shi)很多人(ren)期待的(de)事情(qing)。

我們接觸(chu)的(de)許(xu)多藝術(shu)家和創作者都希望將(jiang)他們的(de)全部資產上(shang)傳到模型中，這樣(yang)在(zai)寫標題時就(jiu)可以(yi)借鑒大量的(de)作品(pin)，并讓(rang)模型理解他們設(she)計公司幾十年來(lai)積(ji)累(lei)的(de)術(shu)語(yu)等(deng)等(deng)。因(yin)此我認為個性化以(yi)及(ji)它如何與美學結合在(zai)一起將(jiang)會成為以(yi)后值得探(tan)索(suo)的(de)一件很酷的(de)事(shi)情。

主持人：我(wo)(wo)認為Tim所說的就像(xiang)超越(yue)傳統(tong)娛樂的新應用。但這在(zai)計算上很昂貴，很難，而且(qie)不太可能。但我(wo)(wo)會講述一個(ge)故事，并讓神奇(qi)的視覺效果(guo)實時發生。我(wo)(wo)們(men)會得到(dao)它嗎？

Tim：我認為我們正朝著那個方向前進。還有不同的娛樂模式、不同的教育模式和交流模式。娛樂是其中很重要的一部分，但我認為一旦真正理解了我們的世界，就會有很多潛在的應用。我們的世界和我們體驗世界的方式很大程度上都是視覺化的。這些模型真正酷的地方在于，它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術來娛樂自己，也可以用它們來教育我們。有時候，當我想(xiang)學習一(yi)(yi)些東西時，最(zui)有效(xiao)的(de)方法就是(shi)找一(yi)(yi)個(ge)定制(zhi)的(de)教育視(shi)頻來解(jie)釋。同樣，如果我想(xiang)和某(mou)人交流一(yi)(yi)些觀(guan)點，可能最(zui)好(hao)的(de)方式就是(shi)制(zhi)作一(yi)(yi)個(ge)視(shi)頻來闡述我的(de)觀(guan)點。因此，我認為娛樂(le)和視(shi)頻模型(xing)可能有更廣泛的(de)潛在應用。

主持人：你們有(you)嘗試過將這些技術應用于數字化身(shen)份(fen)等方面(mian)嗎(ma)？

Tim：到目前為止，我們并沒有真正專注于其背后的核心技術。我認為我們現在在Sora的發展進度就像是新視覺模型的GPT-1。所以，我們現在的重點只是這(zhe)項技術的基礎發(fa)展，可(ke)能比特定的下游(you)應用(yong)更重要。

主持人：你們是如何(he)看(kan)待視頻模型(xing)中(zhong)的安全(quan)性(xing)以及(ji)進行深度偽造或惡(e)搞之類的事(shi)情？

Aditya：這絕(jue)對是一個相當復雜的話題。我認(ren)為很多安(an)全緩解措施可(ke)能都(dou)可(ke)以(yi)從(cong)DALL-E 3中(zhong)移植過來。

我認為這里要弄清楚的一個關鍵問題是，部署這項技術的公司承擔多少責任？例如，社交媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信來源？用戶在使用這項技術創造某些東西時要承擔多少責任？

主持人：我(wo)想向(xiang)(xiang)在座的(de)(de)(de)各位提出一個問題，關(guan)于未來(lai)的(de)(de)(de)產品路線圖、你的(de)(de)(de)發展方向(xiang)(xiang)或你接下來(lai)要開發的(de)(de)(de)一些功能，你最興(xing)奮的(de)(de)(de)是什么？

Tim：確實，這是一個好問題。我對人們將如何利用我們的產品創造出新的東西感到非常興奮。我認為有很多才華橫溢、富有創造力的人都有自己想要創造的東西。但有時要做到這一點真的很困難，因為他們可能缺乏必要的資源、工具或其他東西。這項技術有可能讓許多有才華橫溢、富有創造力的人創造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西，以及這項技術將如何幫助他們。

主持人：Bill，我想問你(ni)一(yi)個問題，這是(shi)否(fou)像你(ni)剛才提到的GPT-1一(yi)樣，我們(men)還有(you)很長的路要走。這不是(shi)普通大眾有(you)機(ji)會(hui)嘗試(shi)的東西。你(ni)能(neng)描述一(yi)下你(ni)想要解決的局限性(xing)或差距嗎？

Bill：是的，我認為，在讓這項技術更廣泛地普及方面，有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術足夠便宜，讓人們可以使用。

為(wei)了讓這(zhe)項技術(shu)真正變得更加廣泛地(di)普及(ji)，我(wo)們需(xu)要(yao)確保安全性，特別是在選舉年(nian)。我(wo)們對可能出現的錯誤信息和(he)任(ren)何相關風險非(fei)常謹慎。我(wo)們今天正在積極努(nu)力解決(jue)這(zhe)些問題。

主持人：你能談(tan)談(tan)你在Sora項目(mu)上的工作(zuo)是(shi)如(ru)何(he)影(ying)響更廣泛的研(yan)究路線圖的嗎？

Tim：我認為，Sora的一個重要方面，是通過查看所有這些視覺數據來了解世界的知識。我們只是用視頻數據對它進行了訓練，它學會了3D，因為這些視頻中存在3D。它還學會了當你咬一口漢堡包時，會留下咬痕。所以它學到了很多關于我們這個世界的東西。當(dang)我(wo)們(men)(men)與世(shi)界互動(dong)(dong)時，很(hen)多(duo)都(dou)是視(shi)覺的(de)(de)(de)(de)。我(wo)們(men)(men)一生(sheng)中看到(dao)和學到(dao)的(de)(de)(de)(de)東西(xi)很(hen)多(duo)都(dou)是視(shi)覺信息。所以(yi)我(wo)們(men)(men)真的(de)(de)(de)(de)認為，對(dui)于(yu)智能(neng)，對(dui)于(yu)引導(dao)更(geng)智能(neng)的(de)(de)(de)(de)人(ren)工智能(neng)模型(xing)，更(geng)好(hao)地理解世(shi)界，這(zhe)對(dui)它們(men)(men)來(lai)(lai)說(shuo)非常重要，因為它們(men)(men)需要有(you)這(zhe)樣的(de)(de)(de)(de)基礎。有(you)很(hen)多(duo)關于(yu)人(ren)們(men)(men)如(ru)何(he)互動(dong)(dong)、事情如(ru)何(he)發(fa)生(sheng)、過(guo)去的(de)(de)(de)(de)事件如(ru)何(he)影響未來(lai)(lai)的(de)(de)(de)(de)事件的(de)(de)(de)(de)內容，會催生(sheng)比生(sheng)成視(shi)頻更(geng)廣泛(fan)、更(geng)智能(neng)的(de)(de)(de)(de)人(ren)工智能(neng)模型(xing)。

主持人：這幾乎就(jiu)像你(ni)同時(shi)發(fa)明了未(wei)來的視(shi)覺皮層和大腦推理部分的某些部分。

Tim：是的，這是一個很酷的比較，因為人類擁有的很多智能實際上都與世界建模有關。當我們思考如何做事時，我們總是在腦海中演繹各種場景。我們會在夢中在腦海中演繹各種場景。所以我們有一個世界模型，將Sora構建為世界模型與人類擁有的大部分智能非常相似。

我認為(wei)我們思考事物(wu)的(de)方式是，幾乎就像(xiang)人類的(de)一個(ge)缺(que)陷，就是它(ta)沒有那么高的(de)保真(zhen)度。

因此，當(dang)你(ni)涉及到(dao)一組非常狹窄的物理學時，我們實際上無法做出非常準(zhun)確的長期預測，這是(shi)我們可以通過(guo)其中一些系統進行改進的。

因此，我們對Sora的前景持樂觀態度，認為它將取代人類的某些能力。從長遠來看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。

隨著規模的擴大，真正有效的方法仍然只是預測數據。

主持人：你認為公眾對視頻模型或Sora有(you)什么誤(wu)解嗎？或者(zhe)你想(xiang)讓他們知道什么？

Aditya：在內部，我們一直在將Sora與GPT模型進行比較。當(dang)GPT-1和GPT-2問世時，人們(men)開(kai)始越來(lai)越清(qing)楚地認(ren)識(shi)到，只(zhi)需擴大(da)這些模型的規模就能(neng)賦予它(ta)們(men)驚(jing)人的能(neng)力(li)(li)。對我們(men)來(lai)說(shuo)，很明顯，將同(tong)樣(yang)的方法應用(yong)于(yu)視頻模型也會帶來(lai)非常驚(jing)人的能(neng)力(li)(li)。

我們確實覺得這是GPT-1的時刻，這些模型很快就會變得更好。我們(men)(men)真的很興奮(fen)，我們(men)(men)認為這(zhe)將(jiang)給(gei)創意世界帶來令人難以置信(xin)的好處(chu)，這(zhe)對AGI的長期影響(xiang)是什么。

與此同時，我們正在努(nu)力非常注意(yi)安全考慮，并構建一個強大的(de)堆棧，以確保社會真正從中(zhong)獲(huo)益，同時減輕負面(mian)影(ying)響。

每日經(jing)濟新聞綜合公開資料

封(feng)面圖片來源：每日經濟新聞資料(liao)圖

上一篇：一天可滿足500多畝大田育秧需求海安首條自動化育秧生產線投產

下一篇：【視頻】智能預警系統輔助，南京交警查獲多起涉牌涉證類違法行為

相關文章

新聞中心分類: 在線官網; 2023最新官網

現貨產品MORE

国产特级毛片AAAAAA_国内大量揄拍人妻精品視頻_japanese@hd熟女_日本人与黑人VIDEOS系列

【杏彩體育官網址多少】“人類思考方式有缺陷”！Sora三位大佬最新訪談：Sora仍處在GPT