創造聊天機器人 ChatGPT 的人工智慧新創公司 OpenAI 週五(16日)發布了文本轉影片模型 Sora,讓用戶能透過文字指令生成長達 1 分鐘的影片。
Sora 能夠生成包含多個角色、特定類型的動作以及精確的主體和背景細節的複雜場景。OpenAI 在其官網中寫道:
「該模型對語言有著深刻的理解,因此能準確解釋提示並生成表達生動情感的引人注目的角色。Sora 也能在單個生成的影片中創建多個鏡頭,準確地體現角色和視覺風格。」
OpenAI 釋出了幾個由 Sora 生成的影片,並附上影片生成所輸入的文字指令。
OpenAI 表示,Sora 也能根據現有的靜態圖片生成影片,準確且細緻地讓圖像內容產生動態效果。該模型還能取用現有影片來延伸內容或填補缺失的幀(frame)。
然而,OpenAI 警告稱「目前的模型存在不足之處」,例如它可能難以準確模擬複雜場景中的物理現象,或無法理解特定情況下的因果關係,此外,該模型還可能混淆提示的空間細節,例如左右不分。
OpenAI 執行長阿特曼(Sam Altman)在 X 平台上表示,該公司開始針對 Sora 進行「紅隊演練」(red-teaming),並向數量有限的創作者提供訪問權限。阿特曼稍早也在 X 平台上分享了多段透過 Sora 生成的影片。