集成激光雷達(dá)的智能手機(jī)
實(shí)現(xiàn)基于AI的產(chǎn)品攝影這一進(jìn)程很大一部分是要生成產(chǎn)品的3D文件。這個(gè)問題可以用自下而上的方式解決,從制造商對(duì)3D進(jìn)行更好的標(biāo)準(zhǔn)化,到更有趣的一點(diǎn),內(nèi)置LiDAR傳感器到便攜設(shè)備上。蘋果***新的iPad Pro已經(jīng)內(nèi)置了,你的下一部手機(jī)可能也會(huì)這樣。
雖然僅靠來自LiDAR 傳感器的數(shù)據(jù)不夠精確,沒法生成高保真的3D模型,但該領(lǐng)域正在迅速改進(jìn),而深度學(xué)習(xí)模型也在不斷改善。
一開始的時(shí)候,AI能夠從照片產(chǎn)生出深度數(shù)據(jù)信息。此后,***先進(jìn)的機(jī)器學(xué)習(xí)算法可以從照片中提取出二維對(duì)象,然后忠實(shí)地渲染成3D。這是一種適用于增強(qiáng)現(xiàn)實(shí)app,機(jī)器人以及導(dǎo)航的技術(shù),所以也成為了Facebook迫切想要研究的領(lǐng)域。
“我們的研究建立在***近取得的進(jìn)展基礎(chǔ)上,包括利用深度學(xué)習(xí)預(yù)測(cè)和定位圖像里面的對(duì)象,以及用于理解3D形狀的新工具和體系結(jié)構(gòu)(比如立體像素,點(diǎn)云以及mesh網(wǎng)格)等。在提高AI系統(tǒng)能力,使之進(jìn)一步理解、解釋現(xiàn)實(shí)世界,并在此環(huán)境下操作方面,三維理解將會(huì)發(fā)揮核心作用。”
這使得在不久的將來智能手機(jī)或平板電腦就可以生成高質(zhì)量的3D對(duì)象。一旦生成后,產(chǎn)品可視化的可能性就會(huì)大大提高,比方說真實(shí)感圖像渲染。
真實(shí)感圖像渲染
數(shù)字化設(shè)計(jì)正在成為這個(gè)行業(yè)的一個(gè)重要杠桿。數(shù)字化設(shè)計(jì)讓品牌可以快速、遠(yuǎn)程地設(shè)計(jì)商品;一旦被創(chuàng)建出來,3D資產(chǎn),也就是產(chǎn)品三維逼真的數(shù)字模型,可以應(yīng)用于無數(shù)種情況,從制作營(yíng)銷材料,虛擬展廳,到面向客戶的電子商務(wù)頁(yè)面以及增強(qiáng)現(xiàn)實(shí)體驗(yàn)等都可以。數(shù)字供應(yīng)鏈也被看作是減少浪費(fèi)、提高生產(chǎn)效率的一種手段,對(duì)于致力于降低成本的同時(shí)提高可持續(xù)發(fā)展能力的公司來說,這是一種雙贏。
借助iGPT 和3D模型等技術(shù)的進(jìn)展,給產(chǎn)品拍照這活兒人工智能就可以接管,而且能夠生成令人驚嘆的產(chǎn)品圖像。這種做法相對(duì)于實(shí)際拍攝,要更快、更便宜、更靈活。
有了3D模型之后,你就可以把它隨意放置到不同的虛擬背景里面,做出看起來很有吸引力的渲染。那這有什么好處呢?
•個(gè)性化:你看到的產(chǎn)品渲染可能跟我看到的同一產(chǎn)品的渲染完全不一樣
•云規(guī)模:可以同時(shí)渲染成百上千(哪怕不是成千上萬)的產(chǎn)品和圖像,而不用像實(shí)際拍攝那樣每次都要對(duì)拍攝空間進(jìn)行整理
•快速:從產(chǎn)品到3D模型到渲染幾乎是一瞬間的事情
•靈活:生產(chǎn)層面對(duì)產(chǎn)品進(jìn)行的任何更改都可以反映在3D信息里面,并且產(chǎn)品可以在幾分鐘內(nèi)完成渲染
•成本:比傳統(tǒng)拍攝便宜很多
•自動(dòng)化:AI可以啟動(dòng)整個(gè)渲染流程并對(duì)其進(jìn)行自動(dòng)化
•創(chuàng)意管理:不需要?jiǎng)?chuàng)意的中間人,就可以按照品牌的生活方式形象進(jìn)行調(diào)整
品牌可以根據(jù)網(wǎng)站訪問者是誰對(duì)圖像進(jìn)行實(shí)時(shí)調(diào)整。還可以對(duì)圖像按目標(biāo)細(xì)分進(jìn)行表現(xiàn)測(cè)試,視覺效果***好的就可以加倍下注,套用到其余產(chǎn)品類別上,又不用增加成本。
做個(gè)AI來對(duì)產(chǎn)品攝影進(jìn)行渲染
我們現(xiàn)在正在進(jìn)行實(shí)驗(yàn),希望將所有這些元素結(jié)合在一起。通過捕捉3D資產(chǎn)并對(duì)其進(jìn)行建模,我們希望能夠開發(fā)出一個(gè)有AI輔助的工作流,以便對(duì)產(chǎn)品的生活方式圖像進(jìn)行風(fēng)格化。
生成代碼段似乎已經(jīng)在用ThreeJS 和WebGL 創(chuàng)建聲明式3D場(chǎng)景當(dāng)中展現(xiàn)出來用途。我們可以擴(kuò)展這個(gè)想法,幫助對(duì)一組被描述的元素,其參數(shù)進(jìn)行聲明,然后利用提供的信息馬上進(jìn)行渲染:
就目前而言,這一過程仍然需要大量的人力,并且僅適用于預(yù)設(shè)的場(chǎng)景,而不是完全的生成場(chǎng)景。但是,經(jīng)過幾次嘗試之后,我們看到了一些有希望的結(jié)果:
上述照片都不是實(shí)際拍攝,而是全部通過AI渲染出來的。當(dāng)然,這仍然需要手動(dòng)操作,并且過程中仍需要人員協(xié)助。不過,經(jīng)過進(jìn)一步完善之后,從數(shù)字化為3D,生成逼真生活方式照片到支持增強(qiáng)現(xiàn)實(shí)的一系列過程就可以直接在智能手機(jī)上面實(shí)現(xiàn)。
雖然現(xiàn)在還為時(shí)尚早,但是產(chǎn)品計(jì)算攝影領(lǐng)域正在快速發(fā)展,通過它可以實(shí)現(xiàn)一整套的沉浸式體驗(yàn)。
而且計(jì)算攝影并不止步于產(chǎn)品,還可以用到人身上。想想看,如果AI也可以給人來建模的話會(huì)怎樣?
AI生成模特
這個(gè)行業(yè)的第三個(gè)大規(guī)模變革有可能是AI生成模特的興起,這會(huì)對(duì)時(shí)尚攝影造成極大沖擊。
這一行典型的拍照過程中牽涉到模特、攝影師、造型師、發(fā)型師、化妝師、交通、影樓租賃、攝影器材、數(shù)碼技術(shù),還有后期制作等各種成本。在5%的情況下要進(jìn)行重新拍攝,這意味著所有的成本要再支付一遍。
另一個(gè)成本就是浪費(fèi)掉的時(shí)間——拍照很慢。完成整個(gè)過程到***后上傳圖像到網(wǎng)站可能需要好幾周(甚至數(shù)月)的時(shí)間。這意味著零售商損失了銷售時(shí)間。從采購(gòu)產(chǎn)品到實(shí)際投放上網(wǎng)站之間相隔甚久,導(dǎo)致在此期間零售商的潛在銷售成本增加。
降低照片拍攝成本是真切的需求。就像許多高成本活動(dòng)和可持續(xù)性的困境一樣,可以用技術(shù)來優(yōu)化產(chǎn)品圖片的制作過程。
由AI驅(qū)動(dòng)的Intelligent Retail Automation(智能零售自動(dòng)化)擁有多種解決方案,可優(yōu)化整個(gè)零售供應(yīng)鏈的流程、工作流以及體驗(yàn)。Automated On-Model Fashion Imagery(自動(dòng)化給模特穿時(shí)裝)則是產(chǎn)品圖像創(chuàng)作改善效能減少拍攝成本的答案。
數(shù)字模特和網(wǎng)紅正全方位地滲透到時(shí)尚界。有些甚至已經(jīng)跟傳統(tǒng)的模特經(jīng)紀(jì)公司簽約了。就拿19歲的巴西裔模特,網(wǎng)紅,現(xiàn)為音樂家的Lil Miquela來說吧,它在Instagram上已擁有超過200萬的忠實(shí)粉絲了。
現(xiàn)在的Lil Miquela是個(gè)計(jì)算機(jī)生成圖像(CGI),而不是人工智能(AI)。這意味著,Miquela 或類似的角色本身是不能做任何事情的。它們無法自行獨(dú)立思考、學(xué)習(xí)或擺出不同的姿勢(shì)。但這種情況不會(huì)持續(xù)太久了。
iGPT 方法提出了一個(gè)創(chuàng)建deepfake(深度偽造)圖像的新辦法。生成對(duì)抗網(wǎng)絡(luò),用來創(chuàng)建深度偽造***常見的算法,必須用經(jīng)過精心挑選的數(shù)據(jù)進(jìn)行訓(xùn)練才能有效。比方說,如果你想讓GAN生成人臉,那它的訓(xùn)練數(shù)據(jù)就應(yīng)該只包含人臉。相比之下,iGPT 只需要從數(shù)以十億計(jì)的樣本里面學(xué)習(xí)到足夠多的視覺世界的結(jié)構(gòu),就能夠輸出其中可能存在的圖像。
AI生成的模特
結(jié)論
這對(duì)于原有的產(chǎn)品攝影工作室和人體模特來說意味著什么呢?可以肯定的是,就像其他許多行業(yè)一樣,這個(gè)領(lǐng)域也必須為不斷變化的勞動(dòng)力做好準(zhǔn)備。模特也得練習(xí)適應(yīng)性和創(chuàng)造性智慧等技能,這樣確保我們能承受住向數(shù)字化的轉(zhuǎn)變。
不過到頭來,GPT-3仍然只是語(yǔ)言預(yù)測(cè)器。它不會(huì)“思考”,也沒有自己的“思想”。它只能根據(jù)收到的輸入生成內(nèi)容。所以,雖說GPT-3沒法回答非常難搞的系列問題,但它可以消除對(duì)日常工作的需求,比方說生成相同設(shè)計(jì)的變體或基于通用3D渲染原理創(chuàng)建簡(jiǎn)單的產(chǎn)品圖片。產(chǎn)品攝影行業(yè)建立在重復(fù)、耗時(shí)、技術(shù)復(fù)雜的步驟上,但這些步驟今后可以大為加快,而從讓藝術(shù)家或創(chuàng)作者騰出更多的時(shí)間用于藝術(shù)創(chuàng)作上面。
人類本質(zhì)上是靠視覺驅(qū)動(dòng)的。而人工智能正在幫助我們生成視覺信號(hào),而且做出來的東西變得更加令人信服。這篇文章也許不是GPT-3和iGPT寫的,也未必就能自行渲染視覺效果,但是距離它們完全具備這些能力的日子并不遠(yuǎn)了。
譯者:boxi。