AI 作圖內卷加劇:Meta 剛打敗 Midjourney,又被港科大超越?
自生成式AI登場以來,工業革命的奇景每天都在上演。
僅在圖像領域,眾多企業與高校密集發布的重磅模型接連帶來令人目眩神迷的震撼體驗。如果說AI繪畫在一開始曾給人類藝術家帶來被替代的恐慌,那么,隨著這一繪畫工具的數量與類型愈加豐富,AI繪畫也開始了內卷——紛至沓來的“新神”也不斷將曾經的老大推下王座,可謂“遍地是大王,短暫又輝煌”。
實現五倍文生圖效率提升
最近,Meta宣布開發出一款名為CM3Leon(發音類似于“變色龍”)的人工智能模型,該模型可以根據文本生成超高分辨率的圖像,也可以為圖像生成文本描述,甚至可以根據文本指令編輯圖像。
CM3leon的訓練采用了從僅文本語言模型中調整而來的方法,此方法簡單,并可產生強大的模型,它表明基于tokenizer(分詞器)的transformer模型可以和現有的基于Diffusion(擴散)的生成模型一樣有效地進行訓練。
即使只在一個只有30億文本符號的數據集上進行訓練,CM3leon的零樣本性能與在更廣泛的數據集上訓練的較大模型相比也不遜色。
Meta表示,CM3leon的計算量比Stable Diffusion、Midjourney等基于Diffusion的模型少了五倍,但它卻在文本到圖像生成方面實現了最先進的性能,在視覺問答和長篇說明等各種視覺語言任務中表現出色。例如,CM3leon可以處理更復雜的prompt,在文本引導下編輯圖片中天空的顏色,在圖片中房間的特定位置添加水槽和鏡子等物體。
在對最廣泛使用的圖像生成基準測試(零樣本MS-COCO)的性能進行比較時,CM3leon的FID(Fréchet Inception Distance,用來計算真實圖像與生成圖像的特征向量間距離的一種度量,FID值越小則相似程度越高)值為4.88,在文本到圖像生成方面確立了新的SOTA(state of the art,最先進的技術水準),優于Google的Parti(FID 7.23)、Stable Diffusion(FID 8.32)、OpenAI的DALL-E2(FID 10.39)等一系列知名文生圖模型。這一成就突顯了檢索增強的潛力,并凸顯了擴展策略對自回歸模型性能的影響。
CM3leon具有自回歸模型的多功能性和有效性,同時保持了低訓練成本和推斷效率。它是一個因果掩碼混合模態(CM3)模型,因為它可以生成基于任意其他圖像和文本內容序列的文本和圖像序列。這大大擴展了以前僅支持文本到圖像或僅支持圖像到文本的模型的功能。
業界認為,CM3leon的能力已躍居多模態市場巔峰。Meta表示,CM3Leon是圖像生成和理解領域的一大進步,但也承認該模型可能存在數據偏見的問題,并呼吁行業加強透明度和監管。
計算機視覺迎來GPT-4時刻
圖像分割是圖像理解的重要基石,也是計算機視覺(CV)領域中的一個重要研究方向,在自動駕駛、無人機、工業質檢、病理影像分割等領域都有著舉足輕重的地位。
隨著深度學習技術的興起,早期依靠亮度、顏色和紋理等低級特征的圖像分割方法逐漸被淘汰,基于神經網絡的圖像分割方法取得了巨大的突破——通過訓練深度神經網絡,可以學習到更高層次、更抽象的特征表示,從而能夠更準確地進行圖像分割。
今年4月,Meta發布了首個基礎圖像分割模型SAM(即Segment Anything Model,分割一切模型),以及對應的數據庫SA-1B,瞬間引爆了AI圈。SAM是面向通用場景的圖像分割模型,可用于任何需要對圖像進行識別和分割的場景,基于prompt工程,可以成為內容創作、AR/VR、科學領域或通用AI系統的組件,實現多模態處理。
SAM大大提升了普通CV模型的圖像分割能力,對于未知和模棱兩可的場景也能實現較好的圖像分割效果,有望大幅降低計算機識別門檻。英偉達AI科學家JimFan曾表示“SAM是計算機視覺領域的GPT-3時刻”。
但僅僅3個月后,SAM的地位就受到了挑戰。
最近,香港科技大學團隊開發出一款比SAM更全能的圖像分割模型,名為Semantic-SAM。Semantic-SAM可以完全復現SAM的分割效果并達到更好的粒度和語義功能, 并支持通用分割(全景、語義、實例分割)、細粒度分割、具有多粒度語義的交互式分割、多粒度圖像編輯等廣泛的分割任務及其相關應用。
此外,Semantic-SAM在粒度豐富性、語義感知性、多功能等方面優勢明顯,完勝Meta的SAM:只需單擊一下即可輸出多達6個粒度分割,與SAM相比,更可控地匹配用戶意圖,無需多次移動鼠標尋找想要分割的區塊。
僅對圖像進行分割已無法滿足AI研究人員們的野心。視頻分割是自動駕駛、機器人技術、視頻編輯等應用場景的基礎技術,但SAM無法處理視頻分割任務。
近日,來自蘇黎世聯邦理工學院、香港科技大學、瑞士洛桑聯邦理工學院的研究人員突破了上述局限,其發布的SAM-PT模型將SAM的零樣本能力擴展到動態視頻的跟蹤和分割任務上,在多個視頻物體分割數據集基準中取得了穩定且強大的零樣本性能。
AI繪圖的另一面
繼不斷更新Zoom Out(平移)、Pan(擴展)等新功能后,Midjourney最新的V6版本也將會在本月內發布。日前,AI繪圖獨角獸Stable Diffusion也推出了一項素描轉圖像的服務Stable Doodle。
對于內容創作者等C端用戶來說,AI作圖工具的迭代與進化帶來的高精度、高質量的內容賦予了更優質的體驗和更多元的選擇;借助AI內容生成和圖像分割/識別模型,可穿戴設備的AR/VR人機交互效率和使用體驗將得到顯著提升,工業、自動駕駛、醫療等領域的工作效率、識別的精準度也將大幅提升。
但在此良夜之中,仍匍匐著一些被遮蓋的隱患。
隨著模型的不斷更新和迭代,用戶的繪畫或圖像數據可能會被上傳到云上的服務器,或被用于訓練更為先進的模型,導致一些隱私與版權問題;同時,無限制的AI制圖也正被用于基于真實人物的色情圖片的制作,試探著法律的底線。
AIGC不斷變革內容生產模式的同時也影響著內容的消費方式,更新奇更驚艷的生成內容帶來的刺激轉瞬即逝。在無數次輸入文字描述的選擇中、在回聲效應的不斷固化下,AI的畫筆究竟會創造出無比豐富的內容市場還是千篇一律的審美取向,答案令人擔憂。
猜你喜歡
昆侖萬維25年一季度營收17.6億,大幅增長46%,AI業務商業化實現新突破
4月29日,昆侖萬維(300418.SZ)(以下簡稱“公司”)披露2025年第一季度業績報告