集成激光雷達的智能手機
實現(xiàn)基于AI的產(chǎn)品攝影這一進程很大一部分是要生成產(chǎn)品的3D文件。這個問題可以用自下而上的方式解決,從制造商對3D進行更好的標準化,到更有趣的一點,內(nèi)置LiDAR傳感器到便攜設(shè)備上。蘋果***新的iPad Pro已經(jīng)內(nèi)置了,你的下一部手機可能也會這樣。
雖然僅靠來自LiDAR 傳感器的數(shù)據(jù)不夠精確,沒法生成高保真的3D模型,但該領(lǐng)域正在迅速改進,而深度學習模型也在不斷改善。
一開始的時候,AI能夠從照片產(chǎn)生出深度數(shù)據(jù)信息。此后,***先進的機器學習算法可以從照片中提取出二維對象,然后忠實地渲染成3D。這是一種適用于增強現(xiàn)實app,機器人以及導航的技術(shù),所以也成為了Facebook迫切想要研究的領(lǐng)域。
“我們的研究建立在***近取得的進展基礎(chǔ)上,包括利用深度學習預測和定位圖像里面的對象,以及用于理解3D形狀的新工具和體系結(jié)構(gòu)(比如立體像素,點云以及mesh網(wǎng)格)等。在提高AI系統(tǒng)能力,使之進一步理解、解釋現(xiàn)實世界,并在此環(huán)境下操作方面,三維理解將會發(fā)揮核心作用。”
這使得在不久的將來智能手機或平板電腦就可以生成高質(zhì)量的3D對象。一旦生成后,產(chǎn)品可視化的可能性就會大大提高,比方說真實感圖像渲染。
真實感圖像渲染
數(shù)字化設(shè)計正在成為這個行業(yè)的一個重要杠桿。數(shù)字化設(shè)計讓品牌可以快速、遠程地設(shè)計商品;一旦被創(chuàng)建出來,3D資產(chǎn),也就是產(chǎn)品三維逼真的數(shù)字模型,可以應(yīng)用于無數(shù)種情況,從制作營銷材料,虛擬展廳,到面向客戶的電子商務(wù)頁面以及增強現(xiàn)實體驗等都可以。數(shù)字供應(yīng)鏈也被看作是減少浪費、提高生產(chǎn)效率的一種手段,對于致力于降低成本的同時提高可持續(xù)發(fā)展能力的公司來說,這是一種雙贏。
借助iGPT 和3D模型等技術(shù)的進展,給產(chǎn)品拍照這活兒人工智能就可以接管,而且能夠生成令人驚嘆的產(chǎn)品圖像。這種做法相對于實際拍攝,要更快、更便宜、更靈活。
有了3D模型之后,你就可以把它隨意放置到不同的虛擬背景里面,做出看起來很有吸引力的渲染。那這有什么好處呢?
•個性化:你看到的產(chǎn)品渲染可能跟我看到的同一產(chǎn)品的渲染完全不一樣
•云規(guī)模:可以同時渲染成百上千(哪怕不是成千上萬)的產(chǎn)品和圖像,而不用像實際拍攝那樣每次都要對拍攝空間進行整理
•快速:從產(chǎn)品到3D模型到渲染幾乎是一瞬間的事情
•靈活:生產(chǎn)層面對產(chǎn)品進行的任何更改都可以反映在3D信息里面,并且產(chǎn)品可以在幾分鐘內(nèi)完成渲染
•成本:比傳統(tǒng)拍攝便宜很多
•自動化:AI可以啟動整個渲染流程并對其進行自動化
•創(chuàng)意管理:不需要創(chuàng)意的中間人,就可以按照品牌的生活方式形象進行調(diào)整
品牌可以根據(jù)網(wǎng)站訪問者是誰對圖像進行實時調(diào)整。還可以對圖像按目標細分進行表現(xiàn)測試,視覺效果***好的就可以加倍下注,套用到其余產(chǎn)品類別上,又不用增加成本。
做個AI來對產(chǎn)品攝影進行渲染
我們現(xiàn)在正在進行實驗,希望將所有這些元素結(jié)合在一起。通過捕捉3D資產(chǎn)并對其進行建模,我們希望能夠開發(fā)出一個有AI輔助的工作流,以便對產(chǎn)品的生活方式圖像進行風格化。
生成代碼段似乎已經(jīng)在用ThreeJS 和WebGL 創(chuàng)建聲明式3D場景當中展現(xiàn)出來用途。我們可以擴展這個想法,幫助對一組被描述的元素,其參數(shù)進行聲明,然后利用提供的信息馬上進行渲染:
就目前而言,這一過程仍然需要大量的人力,并且僅適用于預設(shè)的場景,而不是完全的生成場景。但是,經(jīng)過幾次嘗試之后,我們看到了一些有希望的結(jié)果:
上述照片都不是實際拍攝,而是全部通過AI渲染出來的。當然,這仍然需要手動操作,并且過程中仍需要人員協(xié)助。不過,經(jīng)過進一步完善之后,從數(shù)字化為3D,生成逼真生活方式照片到支持增強現(xiàn)實的一系列過程就可以直接在智能手機上面實現(xiàn)。
雖然現(xiàn)在還為時尚早,但是產(chǎn)品計算攝影領(lǐng)域正在快速發(fā)展,通過它可以實現(xiàn)一整套的沉浸式體驗。
而且計算攝影并不止步于產(chǎn)品,還可以用到人身上。想想看,如果AI也可以給人來建模的話會怎樣?
AI生成模特
這個行業(yè)的第三個大規(guī)模變革有可能是AI生成模特的興起,這會對時尚攝影造成極大沖擊。
這一行典型的拍照過程中牽涉到模特、攝影師、造型師、發(fā)型師、化妝師、交通、影樓租賃、攝影器材、數(shù)碼技術(shù),還有后期制作等各種成本。在5%的情況下要進行重新拍攝,這意味著所有的成本要再支付一遍。
另一個成本就是浪費掉的時間——拍照很慢。完成整個過程到***后上傳圖像到網(wǎng)站可能需要好幾周(甚至數(shù)月)的時間。這意味著零售商損失了銷售時間。從采購產(chǎn)品到實際投放上網(wǎng)站之間相隔甚久,導致在此期間零售商的潛在銷售成本增加。
降低照片拍攝成本是真切的需求。就像許多高成本活動和可持續(xù)性的困境一樣,可以用技術(shù)來優(yōu)化產(chǎn)品圖片的制作過程。
由AI驅(qū)動的Intelligent Retail Automation(智能零售自動化)擁有多種解決方案,可優(yōu)化整個零售供應(yīng)鏈的流程、工作流以及體驗。Automated On-Model Fashion Imagery(自動化給模特穿時裝)則是產(chǎn)品圖像創(chuàng)作改善效能減少拍攝成本的答案。
數(shù)字模特和網(wǎng)紅正全方位地滲透到時尚界。有些甚至已經(jīng)跟傳統(tǒng)的模特經(jīng)紀公司簽約了。就拿19歲的巴西裔模特,網(wǎng)紅,現(xiàn)為音樂家的Lil Miquela來說吧,它在Instagram上已擁有超過200萬的忠實粉絲了。
現(xiàn)在的Lil Miquela是個計算機生成圖像(CGI),而不是人工智能(AI)。這意味著,Miquela 或類似的角色本身是不能做任何事情的。它們無法自行獨立思考、學習或擺出不同的姿勢。但這種情況不會持續(xù)太久了。
iGPT 方法提出了一個創(chuàng)建deepfake(深度偽造)圖像的新辦法。生成對抗網(wǎng)絡(luò),用來創(chuàng)建深度偽造***常見的算法,必須用經(jīng)過精心挑選的數(shù)據(jù)進行訓練才能有效。比方說,如果你想讓GAN生成人臉,那它的訓練數(shù)據(jù)就應(yīng)該只包含人臉。相比之下,iGPT 只需要從數(shù)以十億計的樣本里面學習到足夠多的視覺世界的結(jié)構(gòu),就能夠輸出其中可能存在的圖像。
AI生成的模特
結(jié)論
這對于原有的產(chǎn)品攝影工作室和人體模特來說意味著什么呢?可以肯定的是,就像其他許多行業(yè)一樣,這個領(lǐng)域也必須為不斷變化的勞動力做好準備。模特也得練習適應(yīng)性和創(chuàng)造性智慧等技能,這樣確保我們能承受住向數(shù)字化的轉(zhuǎn)變。
不過到頭來,GPT-3仍然只是語言預測器。它不會“思考”,也沒有自己的“思想”。它只能根據(jù)收到的輸入生成內(nèi)容。所以,雖說GPT-3沒法回答非常難搞的系列問題,但它可以消除對日常工作的需求,比方說生成相同設(shè)計的變體或基于通用3D渲染原理創(chuàng)建簡單的產(chǎn)品圖片。產(chǎn)品攝影行業(yè)建立在重復、耗時、技術(shù)復雜的步驟上,但這些步驟今后可以大為加快,而從讓藝術(shù)家或創(chuàng)作者騰出更多的時間用于藝術(shù)創(chuàng)作上面。
人類本質(zhì)上是靠視覺驅(qū)動的。而人工智能正在幫助我們生成視覺信號,而且做出來的東西變得更加令人信服。這篇文章也許不是GPT-3和iGPT寫的,也未必就能自行渲染視覺效果,但是距離它們完全具備這些能力的日子并不遠了。
譯者:boxi。