AI 作圖內(nèi)卷加劇:Meta 剛打敗 Midjourney,又被港科大超越?

        動(dòng)點(diǎn)科技鄭惠敏2023-07-20 09:09 大公司
        豐富的內(nèi)容市場(chǎng),還是千篇一律的審美取向,AI的畫筆將指向何方?

        自生成式AI登場(chǎng)以來,工業(yè)革命的奇景每天都在上演。

        僅在圖像領(lǐng)域,眾多企業(yè)與高校密集發(fā)布的重磅模型接連帶來令人目眩神迷的震撼體驗(yàn)。如果說AI繪畫在一開始曾給人類藝術(shù)家?guī)肀惶娲目只牛敲矗S著這一繪畫工具的數(shù)量與類型愈加豐富,AI繪畫也開始了內(nèi)卷——紛至沓來的“新神”也不斷將曾經(jīng)的老大推下王座,可謂“遍地是大王,短暫又輝煌”。

        實(shí)現(xiàn)五倍文生圖效率提升

        最近,Meta宣布開發(fā)出一款名為CM3Leon(發(fā)音類似于“變色龍”)的人工智能模型,該模型可以根據(jù)文本生成超高分辨率的圖像,也可以為圖像生成文本描述,甚至可以根據(jù)文本指令編輯圖像。

        CM3leon的訓(xùn)練采用了從僅文本語言模型中調(diào)整而來的方法,此方法簡(jiǎn)單,并可產(chǎn)生強(qiáng)大的模型,它表明基于tokenizer(分詞器)的transformer模型可以和現(xiàn)有的基于Diffusion(擴(kuò)散)的生成模型一樣有效地進(jìn)行訓(xùn)練。

        即使只在一個(gè)只有30億文本符號(hào)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,CM3leon的零樣本性能與在更廣泛的數(shù)據(jù)集上訓(xùn)練的較大模型相比也不遜色。

        Meta表示,CM3leon的計(jì)算量比Stable Diffusion、Midjourney等基于Diffusion的模型少了五倍,但它卻在文本到圖像生成方面實(shí)現(xiàn)了最先進(jìn)的性能,在視覺問答和長篇說明等各種視覺語言任務(wù)中表現(xiàn)出色。例如,CM3leon可以處理更復(fù)雜的prompt,在文本引導(dǎo)下編輯圖片中天空的顏色,在圖片中房間的特定位置添加水槽和鏡子等物體。

        在對(duì)最廣泛使用的圖像生成基準(zhǔn)測(cè)試(零樣本MS-COCO)的性能進(jìn)行比較時(shí),CM3leon的FID(Fréchet Inception Distance,用來計(jì)算真實(shí)圖像與生成圖像的特征向量間距離的一種度量,F(xiàn)ID值越小則相似程度越高)值為4.88,在文本到圖像生成方面確立了新的SOTA(state of the art,最先進(jìn)的技術(shù)水準(zhǔn)),優(yōu)于Google的Parti(FID 7.23)、Stable Diffusion(FID 8.32)、OpenAI的DALL-E2(FID 10.39)等一系列知名文生圖模型。這一成就突顯了檢索增強(qiáng)的潛力,并凸顯了擴(kuò)展策略對(duì)自回歸模型性能的影響。

        CM3leon具有自回歸模型的多功能性和有效性,同時(shí)保持了低訓(xùn)練成本和推斷效率。它是一個(gè)因果掩碼混合模態(tài)(CM3)模型,因?yàn)樗梢陨苫谌我馄渌麍D像和文本內(nèi)容序列的文本和圖像序列。這大大擴(kuò)展了以前僅支持文本到圖像或僅支持圖像到文本的模型的功能。

        業(yè)界認(rèn)為,CM3leon的能力已躍居多模態(tài)市場(chǎng)巔峰。Meta表示,CM3Leon是圖像生成和理解領(lǐng)域的一大進(jìn)步,但也承認(rèn)該模型可能存在數(shù)據(jù)偏見的問題,并呼吁行業(yè)加強(qiáng)透明度和監(jiān)管。

        計(jì)算機(jī)視覺迎來GPT-4時(shí)刻

        圖像分割是圖像理解的重要基石,也是計(jì)算機(jī)視覺(CV)領(lǐng)域中的一個(gè)重要研究方向,在自動(dòng)駕駛、無人機(jī)、工業(yè)質(zhì)檢、病理影像分割等領(lǐng)域都有著舉足輕重的地位。

        隨著深度學(xué)習(xí)技術(shù)的興起,早期依靠亮度、顏色和紋理等低級(jí)特征的圖像分割方法逐漸被淘汰,基于神經(jīng)網(wǎng)絡(luò)的圖像分割方法取得了巨大的突破——通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)到更高層次、更抽象的特征表示,從而能夠更準(zhǔn)確地進(jìn)行圖像分割。

        今年4月,Meta發(fā)布了首個(gè)基礎(chǔ)圖像分割模型SAM(即Segment Anything Model,分割一切模型),以及對(duì)應(yīng)的數(shù)據(jù)庫SA-1B,瞬間引爆了AI圈。SAM是面向通用場(chǎng)景的圖像分割模型,可用于任何需要對(duì)圖像進(jìn)行識(shí)別和分割的場(chǎng)景,基于prompt工程,可以成為內(nèi)容創(chuàng)作、AR/VR、科學(xué)領(lǐng)域或通用AI系統(tǒng)的組件,實(shí)現(xiàn)多模態(tài)處理。

        SAM大大提升了普通CV模型的圖像分割能力,對(duì)于未知和模棱兩可的場(chǎng)景也能實(shí)現(xiàn)較好的圖像分割效果,有望大幅降低計(jì)算機(jī)識(shí)別門檻。英偉達(dá)AI科學(xué)家JimFan曾表示“SAM是計(jì)算機(jī)視覺領(lǐng)域的GPT-3時(shí)刻”。

        但僅僅3個(gè)月后,SAM的地位就受到了挑戰(zhàn)。

        最近,香港科技大學(xué)團(tuán)隊(duì)開發(fā)出一款比SAM更全能的圖像分割模型,名為Semantic-SAM。Semantic-SAM可以完全復(fù)現(xiàn)SAM的分割效果并達(dá)到更好的粒度和語義功能, 并支持通用分割(全景、語義、實(shí)例分割)、細(xì)粒度分割、具有多粒度語義的交互式分割、多粒度圖像編輯等廣泛的分割任務(wù)及其相關(guān)應(yīng)用。

        此外,Semantic-SAM在粒度豐富性、語義感知性、多功能等方面優(yōu)勢(shì)明顯,完勝M(fèi)eta的SAM:只需單擊一下即可輸出多達(dá)6個(gè)粒度分割,與SAM相比,更可控地匹配用戶意圖,無需多次移動(dòng)鼠標(biāo)尋找想要分割的區(qū)塊。

        僅對(duì)圖像進(jìn)行分割已無法滿足AI研究人員們的野心。視頻分割是自動(dòng)駕駛、機(jī)器人技術(shù)、視頻編輯等應(yīng)用場(chǎng)景的基礎(chǔ)技術(shù),但SAM無法處理視頻分割任務(wù)。

        近日,來自蘇黎世聯(lián)邦理工學(xué)院、香港科技大學(xué)、瑞士洛桑聯(lián)邦理工學(xué)院的研究人員突破了上述局限,其發(fā)布的SAM-PT模型將SAM的零樣本能力擴(kuò)展到動(dòng)態(tài)視頻的跟蹤和分割任務(wù)上,在多個(gè)視頻物體分割數(shù)據(jù)集基準(zhǔn)中取得了穩(wěn)定且強(qiáng)大的零樣本性能。

        AI繪圖的另一面

        繼不斷更新Zoom Out(平移)、Pan(擴(kuò)展)等新功能后,Midjourney最新的V6版本也將會(huì)在本月內(nèi)發(fā)布。日前,AI繪圖獨(dú)角獸Stable Diffusion也推出了一項(xiàng)素描轉(zhuǎn)圖像的服務(wù)Stable Doodle。

        對(duì)于內(nèi)容創(chuàng)作者等C端用戶來說,AI作圖工具的迭代與進(jìn)化帶來的高精度、高質(zhì)量的內(nèi)容賦予了更優(yōu)質(zhì)的體驗(yàn)和更多元的選擇;借助AI內(nèi)容生成和圖像分割/識(shí)別模型,可穿戴設(shè)備的AR/VR人機(jī)交互效率和使用體驗(yàn)將得到顯著提升,工業(yè)、自動(dòng)駕駛、醫(yī)療等領(lǐng)域的工作效率、識(shí)別的精準(zhǔn)度也將大幅提升。

        但在此良夜之中,仍匍匐著一些被遮蓋的隱患。  

        隨著模型的不斷更新和迭代,用戶的繪畫或圖像數(shù)據(jù)可能會(huì)被上傳到云上的服務(wù)器,或被用于訓(xùn)練更為先進(jìn)的模型,導(dǎo)致一些隱私與版權(quán)問題;同時(shí),無限制的AI制圖也正被用于基于真實(shí)人物的色情圖片的制作,試探著法律的底線。  

        AIGC不斷變革內(nèi)容生產(chǎn)模式的同時(shí)也影響著內(nèi)容的消費(fèi)方式,更新奇更驚艷的生成內(nèi)容帶來的刺激轉(zhuǎn)瞬即逝。在無數(shù)次輸入文字描述的選擇中、在回聲效應(yīng)的不斷固化下,AI的畫筆究竟會(huì)創(chuàng)造出無比豐富的內(nèi)容市場(chǎng)還是千篇一律的審美取向,答案令人擔(dān)憂。

        【本文為合作媒體授權(quán)博望財(cái)經(jīng)轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn),不代表博望財(cái)經(jīng)立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者及原出處獲得授權(quán)。有任何疑問都請(qǐng)聯(lián)系(聯(lián)系(微信公眾號(hào)ID:AppleiTree)。免責(zé)聲明:本網(wǎng)站所有文章僅作為資訊傳播使用,既不代表任何觀點(diǎn)導(dǎo)向,也不構(gòu)成任何投資建議。】

        猜你喜歡

        国产成人亚洲精品91专区高清| 亚洲精品A在线观看| 亚洲色偷偷狠狠综合网| 亚洲AV成人无码网站| 亚洲三级高清免费| 亚洲jjzzjjzz在线观看| 亚洲激情黄色小说| 在线电影你懂的亚洲| 久久综合亚洲色HEZYO社区| 亚洲视频精品在线| 亚洲黄色网站视频| 亚洲AV本道一区二区三区四区| 亚洲国产综合无码一区| 好看的亚洲黄色经典| 亚洲国产精彩中文乱码AV| 亚洲AV综合色区无码一区爱AV | 狠狠色伊人亚洲综合成人| 亚洲日韩精品一区二区三区| 亚洲精品乱码久久久久久中文字幕 | 亚洲午夜免费视频| 日韩亚洲AV无码一区二区不卡| 国产A在亚洲线播放| 亚洲国产精品VA在线观看麻豆| 国产偷v国产偷v亚洲高清| 亚洲va在线va天堂va不卡下载| 亚洲嫩草影院久久精品| 亚洲日韩乱码中文无码蜜桃臀| ass亚洲**毛茸茸pics| 亚洲最大av资源站无码av网址| 国产成人精品日本亚洲专一区| 亚洲日本VA午夜在线电影| 小说区亚洲自拍另类| 国产亚洲精品激情都市| 亚洲国产美女精品久久久久∴| 亚洲午夜视频在线观看| 亚洲中文字幕人成乱码| 亚洲精品天堂无码中文字幕| mm1313亚洲精品无码又大又粗| 国内精品99亚洲免费高清| 亚洲成AV人片在WWW色猫咪| 精品日韩亚洲AV无码|