AI 作圖內(nèi)卷加劇:Meta 剛打敗 Midjourney,又被港科大超越?
自生成式AI登場(chǎng)以來,工業(yè)革命的奇景每天都在上演。
僅在圖像領(lǐng)域,眾多企業(yè)與高校密集發(fā)布的重磅模型接連帶來令人目眩神迷的震撼體驗(yàn)。如果說AI繪畫在一開始曾給人類藝術(shù)家?guī)肀惶娲目只牛敲矗S著這一繪畫工具的數(shù)量與類型愈加豐富,AI繪畫也開始了內(nèi)卷——紛至沓來的“新神”也不斷將曾經(jīng)的老大推下王座,可謂“遍地是大王,短暫又輝煌”。
實(shí)現(xiàn)五倍文生圖效率提升
最近,Meta宣布開發(fā)出一款名為CM3Leon(發(fā)音類似于“變色龍”)的人工智能模型,該模型可以根據(jù)文本生成超高分辨率的圖像,也可以為圖像生成文本描述,甚至可以根據(jù)文本指令編輯圖像。
CM3leon的訓(xùn)練采用了從僅文本語言模型中調(diào)整而來的方法,此方法簡(jiǎn)單,并可產(chǎn)生強(qiáng)大的模型,它表明基于tokenizer(分詞器)的transformer模型可以和現(xiàn)有的基于Diffusion(擴(kuò)散)的生成模型一樣有效地進(jìn)行訓(xùn)練。
即使只在一個(gè)只有30億文本符號(hào)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,CM3leon的零樣本性能與在更廣泛的數(shù)據(jù)集上訓(xùn)練的較大模型相比也不遜色。
Meta表示,CM3leon的計(jì)算量比Stable Diffusion、Midjourney等基于Diffusion的模型少了五倍,但它卻在文本到圖像生成方面實(shí)現(xiàn)了最先進(jìn)的性能,在視覺問答和長篇說明等各種視覺語言任務(wù)中表現(xiàn)出色。例如,CM3leon可以處理更復(fù)雜的prompt,在文本引導(dǎo)下編輯圖片中天空的顏色,在圖片中房間的特定位置添加水槽和鏡子等物體。
在對(duì)最廣泛使用的圖像生成基準(zhǔn)測(cè)試(零樣本MS-COCO)的性能進(jìn)行比較時(shí),CM3leon的FID(Fréchet Inception Distance,用來計(jì)算真實(shí)圖像與生成圖像的特征向量間距離的一種度量,F(xiàn)ID值越小則相似程度越高)值為4.88,在文本到圖像生成方面確立了新的SOTA(state of the art,最先進(jìn)的技術(shù)水準(zhǔn)),優(yōu)于Google的Parti(FID 7.23)、Stable Diffusion(FID 8.32)、OpenAI的DALL-E2(FID 10.39)等一系列知名文生圖模型。這一成就突顯了檢索增強(qiáng)的潛力,并凸顯了擴(kuò)展策略對(duì)自回歸模型性能的影響。
CM3leon具有自回歸模型的多功能性和有效性,同時(shí)保持了低訓(xùn)練成本和推斷效率。它是一個(gè)因果掩碼混合模態(tài)(CM3)模型,因?yàn)樗梢陨苫谌我馄渌麍D像和文本內(nèi)容序列的文本和圖像序列。這大大擴(kuò)展了以前僅支持文本到圖像或僅支持圖像到文本的模型的功能。
業(yè)界認(rèn)為,CM3leon的能力已躍居多模態(tài)市場(chǎng)巔峰。Meta表示,CM3Leon是圖像生成和理解領(lǐng)域的一大進(jìn)步,但也承認(rèn)該模型可能存在數(shù)據(jù)偏見的問題,并呼吁行業(yè)加強(qiáng)透明度和監(jiān)管。
計(jì)算機(jī)視覺迎來GPT-4時(shí)刻
圖像分割是圖像理解的重要基石,也是計(jì)算機(jī)視覺(CV)領(lǐng)域中的一個(gè)重要研究方向,在自動(dòng)駕駛、無人機(jī)、工業(yè)質(zhì)檢、病理影像分割等領(lǐng)域都有著舉足輕重的地位。
隨著深度學(xué)習(xí)技術(shù)的興起,早期依靠亮度、顏色和紋理等低級(jí)特征的圖像分割方法逐漸被淘汰,基于神經(jīng)網(wǎng)絡(luò)的圖像分割方法取得了巨大的突破——通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)到更高層次、更抽象的特征表示,從而能夠更準(zhǔn)確地進(jìn)行圖像分割。
今年4月,Meta發(fā)布了首個(gè)基礎(chǔ)圖像分割模型SAM(即Segment Anything Model,分割一切模型),以及對(duì)應(yīng)的數(shù)據(jù)庫SA-1B,瞬間引爆了AI圈。SAM是面向通用場(chǎng)景的圖像分割模型,可用于任何需要對(duì)圖像進(jìn)行識(shí)別和分割的場(chǎng)景,基于prompt工程,可以成為內(nèi)容創(chuàng)作、AR/VR、科學(xué)領(lǐng)域或通用AI系統(tǒng)的組件,實(shí)現(xiàn)多模態(tài)處理。
SAM大大提升了普通CV模型的圖像分割能力,對(duì)于未知和模棱兩可的場(chǎng)景也能實(shí)現(xiàn)較好的圖像分割效果,有望大幅降低計(jì)算機(jī)識(shí)別門檻。英偉達(dá)AI科學(xué)家JimFan曾表示“SAM是計(jì)算機(jī)視覺領(lǐng)域的GPT-3時(shí)刻”。
但僅僅3個(gè)月后,SAM的地位就受到了挑戰(zhàn)。
最近,香港科技大學(xué)團(tuán)隊(duì)開發(fā)出一款比SAM更全能的圖像分割模型,名為Semantic-SAM。Semantic-SAM可以完全復(fù)現(xiàn)SAM的分割效果并達(dá)到更好的粒度和語義功能, 并支持通用分割(全景、語義、實(shí)例分割)、細(xì)粒度分割、具有多粒度語義的交互式分割、多粒度圖像編輯等廣泛的分割任務(wù)及其相關(guān)應(yīng)用。
此外,Semantic-SAM在粒度豐富性、語義感知性、多功能等方面優(yōu)勢(shì)明顯,完勝M(fèi)eta的SAM:只需單擊一下即可輸出多達(dá)6個(gè)粒度分割,與SAM相比,更可控地匹配用戶意圖,無需多次移動(dòng)鼠標(biāo)尋找想要分割的區(qū)塊。
僅對(duì)圖像進(jìn)行分割已無法滿足AI研究人員們的野心。視頻分割是自動(dòng)駕駛、機(jī)器人技術(shù)、視頻編輯等應(yīng)用場(chǎng)景的基礎(chǔ)技術(shù),但SAM無法處理視頻分割任務(wù)。
近日,來自蘇黎世聯(lián)邦理工學(xué)院、香港科技大學(xué)、瑞士洛桑聯(lián)邦理工學(xué)院的研究人員突破了上述局限,其發(fā)布的SAM-PT模型將SAM的零樣本能力擴(kuò)展到動(dòng)態(tài)視頻的跟蹤和分割任務(wù)上,在多個(gè)視頻物體分割數(shù)據(jù)集基準(zhǔn)中取得了穩(wěn)定且強(qiáng)大的零樣本性能。
AI繪圖的另一面
繼不斷更新Zoom Out(平移)、Pan(擴(kuò)展)等新功能后,Midjourney最新的V6版本也將會(huì)在本月內(nèi)發(fā)布。日前,AI繪圖獨(dú)角獸Stable Diffusion也推出了一項(xiàng)素描轉(zhuǎn)圖像的服務(wù)Stable Doodle。
對(duì)于內(nèi)容創(chuàng)作者等C端用戶來說,AI作圖工具的迭代與進(jìn)化帶來的高精度、高質(zhì)量的內(nèi)容賦予了更優(yōu)質(zhì)的體驗(yàn)和更多元的選擇;借助AI內(nèi)容生成和圖像分割/識(shí)別模型,可穿戴設(shè)備的AR/VR人機(jī)交互效率和使用體驗(yàn)將得到顯著提升,工業(yè)、自動(dòng)駕駛、醫(yī)療等領(lǐng)域的工作效率、識(shí)別的精準(zhǔn)度也將大幅提升。
但在此良夜之中,仍匍匐著一些被遮蓋的隱患。
隨著模型的不斷更新和迭代,用戶的繪畫或圖像數(shù)據(jù)可能會(huì)被上傳到云上的服務(wù)器,或被用于訓(xùn)練更為先進(jìn)的模型,導(dǎo)致一些隱私與版權(quán)問題;同時(shí),無限制的AI制圖也正被用于基于真實(shí)人物的色情圖片的制作,試探著法律的底線。
AIGC不斷變革內(nèi)容生產(chǎn)模式的同時(shí)也影響著內(nèi)容的消費(fèi)方式,更新奇更驚艷的生成內(nèi)容帶來的刺激轉(zhuǎn)瞬即逝。在無數(shù)次輸入文字描述的選擇中、在回聲效應(yīng)的不斷固化下,AI的畫筆究竟會(huì)創(chuàng)造出無比豐富的內(nèi)容市場(chǎng)還是千篇一律的審美取向,答案令人擔(dān)憂。
猜你喜歡
昆侖萬維25年一季度營收17.6億,大幅增長46%,AI業(yè)務(wù)商業(yè)化實(shí)現(xiàn)新突破
4月29日,昆侖萬維(300418.SZ)(以下簡(jiǎn)稱“公司”)披露2025年第一季度業(yè)績(jī)報(bào)告石頭科技陷多重危機(jī):內(nèi)卷加劇、業(yè)績(jī)?cè)鍪詹辉隼①Y本撤離
掃地機(jī)器人“領(lǐng)頭羊”石頭科技正站在十字路口。李開復(fù)預(yù)測(cè)未來中國只有三家AI公司存活: DeepSeek、阿里和字節(jié)
其中DeepSeek目前勢(shì)頭最強(qiáng)。騰訊AI戰(zhàn)略提速,單季度AI開支390億
“加大的投資,會(huì)通過提升廣告業(yè)務(wù)的效率及游戲的生命周期而帶來持續(xù)的回報(bào)。”