2022年8月,在美國科羅拉多州博覽會藝術比賽上,一幅名爲《太空歌劇院》的作品奪得了數字藝術類別冠軍。這幅作品由遊戲設計師Jason Allen使用AI繪圖工具Midjourney完成,古典與科幻的巧妙融合讓人很難相信這是由AI自動生成的圖像,此前一直處於不溫不火狀態的Midjourney就這樣迅速走進了大衆視野。
隨後,在以ChatGPT爲代表的聊天機器人攪得科技圈滿城風雨之時,Midjourney作爲AIGC的重要分支,也完全沒闲着,它最新迭代的V5版本,就是一次堪稱“碾壓人類畫師”的更新。
今年3月,由Midjourney生成的一對中國情侶的照片再次火爆全球。照片裏的情侶穿着夾克和牛仔褲,身後是上個世紀的中國建築,整張照片彌漫着屬於90年代的復古氛圍,其以假亂真的程度讓人大喫一驚,生成式AI圖像工具竟然已經進化到這種程度了嗎?
還有更多神圖在網上引起軒然大波:特朗普被捕、國足奪冠、馬斯克進工廠……只要你敢想,AI就敢畫。對比幾年前的AI繪圖效果,Midjourney的生成效果依然達到商業化水平,當Midjourney日趨代替人工制作的時候,它的商業價值就愈發不容小覷。
過去幾年裏,機器學習系統從文本提示生成圖像的能力,在質量、准確性和表達能力方面都得到了顯著提高。這些畫作在互聯網上流傳,給人們帶來了一種新奇感,越來越多具有前衛品味的藝術家和設計師也正在把這些軟件集成到工作流程中。
可以說文生圖賽道是AIGC概念下商業模式較成熟的領域,這些AI生成工具可以在幾分鐘內使用用戶提供的文本描述創建圖像,並且人工智能可以生成不同藝術形式的圖像,從超寫實到立體主義,AI都熟稔於心。
而Midjourney是其中最具競爭力的選手,是將AIGC技術成功產品化的代表。創始人David Holz在描述Midjourney時說:“我們只是希望它易於使用,我們希望圖片足夠好看。”與Dall-E 2或其他競爭對手不同,Midjourney使用簡單的命令,不需要編碼經驗就可以生成更具夢幻藝術風格的圖像。
Midjourney沒有任何巨頭的重金支持,是一個自籌資金的獨立研究實驗室,它的發起人爲曾兩次拒絕蘋果收購的Leap Motion公司的創始人David Holz,目前全職員工僅有11人。就是這么一個超小型團隊,卻是當前AI繪圖領域最炙手可熱的明星,甚至將OpenAI的DALL-E、Stable Diffusion等同類工具都甩在了身後。
Midjourney在AI公司Value Chain上佔據了多個位置,擁有數據層、模型層、應用層整個技術棧。它參考CLIP及Diffusion構建了自己的閉源模型,抓取公开數據進行訓練,並構建了Discord中的Midjourney bot應用,用戶通過與Midjourney bot進行對話式交互,提交文本提示詞來快速獲得想要的圖片。
2022年7月,Midjourney开放Openbeta版本;2022年8月,使用Midjourney創作的畫作Théâtre D’opéra Spatial(太空歌劇院)獲得了美術競賽數字藝術類別的一等獎,人們對於Midjourney的關注達到高峰。
雖然文生圖領域應用層出不窮,但Midjourney保持住了在人們心目中的地位,目前仍是使用最廣泛、最受用戶喜愛的文生圖應用。Midjourney用戶數量飛速增長,並具有很強的盈利能力。截止2023年3月,Midjourney Discord頻道擁有了超1300萬社區成員,是目前用戶最多的服務器,年營收約爲1億美元。
Midjourney創始人堅持AI不是現實世界的復刻,而是人類想象力的延伸,塑造了充滿科幻色彩的產品定位。然而並不是所有人都能輕易認可AI生成藝術,自Midjourney面世以來,這款AI繪畫工具幾度因爲藝術深度僞造問題被推上輿論的風口浪尖,更有甚者認爲其生成的圖片紕漏百出。
Midjourney並沒有否認以上觀點,它一直相信AI工具是想象力的發動機,“人類和計算機之間存在的某些障礙阻止了我們進行最基本的交換。” Midjourney想要加強人類與計算機的連接,將 “探索思想的新載體,擴展人類想象力” 作爲目標,爲未來藝術創作开拓史無前例的康莊大道。
爲了實現這個目標,該公司一直致力於改進算法,每隔幾個月就會發布新版本的模型。Midjourney的迭代速度相較於OpenAI可以說是有過之而無不及。去年3月份第一版本首次上线,4月份便火速更新第二版本,接着7月份上线Open Beta V3版本首次向公衆开放,Midjourney V4版本去年年底幾乎跟ChatGPT同期上线,而就在GPT-4推出的時候,Midjourney也在3月18日飛速推出了V5版本,而這一次的更新堪稱“炸裂”。
V5版本的誕生昭示着由Midjourney創造的平行世界正在慢慢拉开序幕,一些由人類構思、AI主導的作品也逐漸對數字營銷市場描繪着全新的商業輪廓。那最新升級的V5和之前的版本相比,到底強在哪裏呢?以下幾個方面的對比或許可以讓我們窺得Midjourney的升級爲何會如此讓人驚豔。
◉ 更多的風格,更高的質量
Midjourney V5可以選擇不同的風格化參數,用戶可以在Prompt裏添加風格化參數(--Stylize),數值範圍爲0-1000,0更偏向藝術化,1000更真實,從而得到完全不同風格的圖像。
圖源Discord 官網、華泰研究
同時,V5 生成的圖像具有更高的分辨率,且圖像更真實細膩。默認情況下,Midjourney V5 初始圖像的分辨率爲 1024x1024,V4 版本爲 512x512,V5生成的圖片無論時從光影效果還是人物動作表情,都更加自然,擁有更多豐富的細節,更加接近真實的照片。
◉ 密鋪功能實現無縫紋理制作
Midjourney V5 重新引入了曾在 V4 中停止使用的無縫平鋪功能。在Promt中添加參數(--tile),對元素進行重復、旋轉等處理後,可以輕松實現織物、壁紙等無縫紋理圖案的制作。
◉ 長寬比限制取消
V5版本解除了V4版本中的不高於1:2或不寬於2:1的自定義縱橫比,可以實現任意「寬度: 長度」比,這意味着你可以利用其生成電影2.39:1的縱橫比,Midjourney的應用空間進一步打开。
◉ 圖像與文字指令權重可自定義
V5可以實現自定義Prompt中的圖像參照權重(--iw),參數範圍爲0.5-2.0,數值越高,意味着上傳的圖片越多地影響最終生成的圖像,滿足用戶墊圖更加個性化、多元化的需求,而在前一版本中則是默認圖像權重。
除以上四點,V5版本可以讓人們通過更精准、細致的Prompt輸出更符合要求的圖像。在此前版本,Midjourney根據文本提示即可輸出具有創造性的圖片,且多爲卡通或超現實風格,但V5版本可以容納真實、抽象等更廣泛風格的選擇,圖像解像度比上個版本提高2倍。
而讓人意想不到的是它終於解決了此前AI繪畫行業內無法很好完成的“畫手”問題,告別了手部畸形,Midjourney V5終於可以畫出正常的五個手指了。除此之外,V5版本創作的玻璃及其反射的光影也都更加真實。
技術的升級讓Midjourney真正實現了從圖像到照片的跨越,從搶畫師的飯碗進階爲搶攝影師的飯碗。只要能掌握Prompt的精髓,便可手握科技黑武器,驚喜的是V5的升級裏就推出了describe功能。
只需上傳一張圖片,使用describe功能,Midjourney便會自動分析圖片並生成4條對應的Prompt,點擊下方對應的按鈕便可直接生成類似的圖片,當然也可以對這些Prompt進行調整。這樣一來,獲取更符合自己要求的Prompt就更容易。
從圖像反推Prompt,Midjourney通過自行閉環推動人類不斷去擁抱這項偉大的技術,大量用戶的湧入也讓Midjourney官方不得不暫停免費使用功能。
可以看到,Midjourney的發展用飛速來形容也毫不爲過,英偉達AI科學家Jim Fan曾猜測,Midjourney是根據人類反饋RLHF進行大規模的強化學習,並且這可能是有史以來規模最大的文本到圖像強化學習,用戶反饋越多,它的學習效果就越好。
歷史上每一次具有革命意義的技術更新,都將會迎來最終大範圍落地應用的曙光。在AI科技飛飈的高速公路上,我們將會一直觀望這家圖片AI龍頭如何秀出精彩車技,又將駛向何方。
動一動手指頭,打幾個關鍵字,Midjourney的繪圖到了張張“封神”的程度,這無處安放的硬實力和軟魅力,追根究底,無疑歸功於其底層模型技術的更新迭代和發展進步。
2015年,谷歌开源創建了首個通過算法生成藝術圖像的機器學習應用DeepDream,使AI文生圖應用开始走進大衆的視野。而後的2021年至今, 文生圖應用出現了突破性的進展,生成的圖像質量得到了迅速提高。從初級的氛圍感草圖到可以刻畫細節、生成精致五官的精致藝術圖,從以生成性對抗網絡GAN轉變至以Diffusion模型爲核心,這其中經歷了無數次的技術變革。
Midjourney在參考CLIP及Diffusion的基礎上構建了自己的閉源模型,抓取公开數據進行訓練,並構建了Discord中的Midjourney bot應用。不僅如此,它還在收集用戶反饋數據的基礎上,不斷迭代模型,以提供更好的體驗。2023年3月,在經歷多次更新後的Midjourney V5版本閃亮登場,解決了一些技術難題和完成了跨越性的突破。
如今,Midjourney替代了Pinterest、Google Images、Getty Images等傳統圖庫平台,用戶不再需要花費更多的時間,而是直接生成,甚至可以將一個月的工作量降低至一星期就可以完成。這對於用戶而言,無疑是提高工作效率的加速器。
雖然Midjourney目前已經在AIGC領域是佼佼者的存在,但是它從未想過就止步於此。Discord每周都會有它的公开會議,通過對其會議的相關內容的總結,關於它未來的幾個發展方向,可以簡單概括爲以下幾個方面:
更高的圖片質量和更極致的圖片庫功能:圖片修改編輯、圖片擴展功能及在V6算法中的更高分辨率;
V7/V8版本中,支持在圖片中寫文字;
告別Discord,提供移動端的服務,可能有自己的APP,或將功能遷移到網站;
實現實時繪圖功能 ;
發布 API 用於工具的構建。
Midjourney作爲功能單一的應用,未來是否會被集成變成多功能產品的一個環節,或是被技術的快速進步顛覆,目前我們還無法看清行業的終局,但Midjourney作爲當前AI圖片生成的龍頭,觀其用戶口碑和產品技術的迭代速度,都讓人無比期待它的未來發展。
伴隨着數據、算法等核心技術的不斷更新與突破,AIGC正在推動虛實共生趨勢下的內容創作的範式轉變,有望成爲數字內容創新發展的新引擎。
按照AIGC的發展邏輯,其應用場景主要分爲三個階段:一是AIGC內容生產技術不斷完善,能夠實現文本、視頻、圖片等生成以及跨模態轉換;二是具有多模態生成技術的聚合應用——虛擬人;三是AIGC內容生態聚合體——元宇宙。
元宇宙是一個虛擬的世界,它由數字資產、虛擬現實和區塊鏈等技術構成,可以用來實現各種場景和應用,例如虛擬交易、虛擬社交、虛擬旅遊等。一個公認的事實是內容生產上的不足已成爲制約元宇宙相關產業發展的重要瓶頸,而AIGC在生成效率方面的優勢,讓其有望成爲元宇宙建設的最佳生產力工具之一。
在提高內容生產效率的同時,華泰證券也指出:“AIGC也有助於生成开放內容,滿足用戶個性化、开放性的需求,持續提升元宇宙的內容豐富度。”以Midjourney等爲代表的的AI生成工具或可以成爲元宇宙的夢幻編輯器。
長期來看,AIGC與各行業的融合將會創造更多的應用場景,而Midjourney作爲文生圖領域的重要參與者,有很多人已經在嘗試將將其應用於自己的工作中,主要包括創意設計、工業設計、室內家居設計、廣告設計、Web3 & NFT 等。可以預見的是,人工智能增強下的創造力湧現只是AI商業化應用的一個开端。
隨着AI技術的快速發展,各種工具的出現讓AI的應用範圍也會指數級的擴大。目前,在設計、電商、廣告、遊戲、影視等各個領域都湧現出了更多的用例,包括在元宇宙建設中的潛在應用,也將涉及到方方面面。因此,在娛樂性、實用性大大增強的同時,AIGC全新的賽道也在被逐漸打开,接下來就敬請拭目以待。
元宇宙方興未艾,AIGC接踵而至,我們有理由相信,這兩大科技賽道的交匯,將會爲元宇宙注入更多的生機與色彩。
【聲明】:本文爲元宇宙之心運營團隊原創,未經允許嚴禁轉載,如需轉載請聯系我們,文章版權和最終解釋權歸元宇宙之心所有。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:主打一個張張封神 看AIGC特種兵Midjourney如何做到以假亂真
地址:https://www.torrentbusiness.com/article/31951.html
標籤: