編者按:曾幾何時,攝影就只是光和影的藝術(shù)加上鏡頭和傳感器的技術(shù)。但現(xiàn)在隨著計算能力和人工智能慢慢滲透到這個領(lǐng)域,一些傳統(tǒng)的職業(yè)可能就要推出歷史舞臺了,比方說照相館,比方說產(chǎn)品攝影,甚至連模特都受到了威脅。Sai Krishna V. K盤點了計算攝影在各個領(lǐng)域的應用,原文標題是:The Death of the Photo Studio
劃重點
***近攝影領(lǐng)域給人留下***深刻印象的進展發(fā)生在軟件和芯片層面,而不是傳感器或鏡頭這些東西
過去10年攝影業(yè)經(jīng)歷了兩次變革:1)智能手機 2)計算攝影
計算攝影會極大降低產(chǎn)品攝影和模特攝影的成本,這個行業(yè)的很多領(lǐng)域會被顛覆
GPT-3的能力正在被運用到計算攝影上面
我們都喜歡有一張好照片。照相館和攝影的歷史可以追溯到第①部照相機誕生的19世紀。***早的攝影工作室利用了畫家的照明技術(shù)來創(chuàng)作肖像。在我的國家,印度人會幾代同堂,一起聚集在工作室的燈光下,好拍出一張***的全家福。從那時起,我們已經(jīng)走過來一段令人難以置信的漫漫長路。
現(xiàn)如今,那些負責給眾多家庭和個人拍攝全家福和個人肖像的照相館已經(jīng)全部消失不見了。心高氣傲的模特、商業(yè)目錄,甚至為了前往西方而進來拍護照證件照的大量家庭,也都幾乎不怎么光顧了。但具有諷刺意味的是,我們現(xiàn)在點擊的照片比以往任何時候都要多,分享這些照片的頻度也比以往任何時候都要高。
鑒于過去十年技術(shù)的變革,這個行業(yè)的顛覆并不令人驚訝。這一轉(zhuǎn)變發(fā)展到今天經(jīng)歷了兩個不同的階段。
第①階段:***好的相機是你兜里的那部
當帶著攝像頭的iPhone推出時,其他的制造商都紛紛效仿;這些小型的傳感器盡管用處很大,但在產(chǎn)生高質(zhì)量圖像的能力方面頗為受限。像Instagram這樣的app在初期用濾鏡彌補了相片質(zhì)量的欠缺,令這款app廣受歡迎。但是,自從Instagram推出以來,智能手機的攝像頭改進的速度非常迅速。令這款app在早期火起來的功能不再有太大用處,因為智能手機拍攝出來的照片的質(zhì)量已經(jīng)得到了指數(shù)式的改善。
為迎合前數(shù)字化時代的印度客戶而開設(shè)的大多數(shù)照相館正在考借來的時間續(xù)命。在全球范圍內(nèi),這些照相館的數(shù)量現(xiàn)在正在持續(xù)減少。自拍時代的照相館注定要變成這樣一家企業(yè),也就是觀看和點擊行為都要朝著一個結(jié)果發(fā)展——如何讓客戶點擊一下就能得到一張照片,以及文件下載到計算機的速度如何。但是,是什么導致了手機照片的質(zhì)量取得了顯著提高的呢?
第二階段:計算攝影
2015年,意識到自己在攝影領(lǐng)域已經(jīng)落后了這么多之后,Google決定用工程的思維方式加大攻關(guān)力度。于是,知名的計算機圖形學研究人員Marc Levoy 接管了Google Research的計算攝影團隊,并評論道:
“軟件定義相機或計算攝影相機的概念是一個很有前途的方向,我認為我們現(xiàn)在才摸到它的一點皮毛。隨著我們從一次只能拍一張的硬件主導的攝影向軟件定義的計算攝影這一新領(lǐng)域轉(zhuǎn)變,我認為這一領(lǐng)域的有趣才剛剛開始。”
***近攝影領(lǐng)域給人留下***深刻印象的進展發(fā)生在軟件和芯片層面,而不是傳感器或鏡頭這些東西——這在很大程度上要歸功于AI讓攝像頭更好地了解了自己所看到的東西。
如今,至少在開始后期處理之前,手機在某些情況下要比許多專業(yè)相機拍出來的照片還要好的情況并不罕見。這是因為在對攝影同樣重要的另一類硬件方面,傳統(tǒng)相機無法與手機競爭:這包括了CPU、圖像信號處理器以及神經(jīng)處理單元(NPU)的片上系統(tǒng)。
這種硬件,利用了所謂的計算攝影,這個廣義的術(shù)語涵蓋了你對智能手機要求的一切,從手機人像模式的“偽”景深效果,到幫助驅(qū)動令人驚嘆的AR效果及濾鏡的算法等。
計算攝影是指利用攝像頭的計算機處理能力,在鏡頭和傳感器拍攝成片基礎(chǔ)上產(chǎn)生一幅增強的圖像。其實攝影中運用計算機并不是什么新鮮事物。數(shù)字時代所有的相機都需要處理能力來生成圖像。甚至在數(shù)字化曙光降臨之前,膠卷相機就已經(jīng)利用了處理器。處理器負責控制類似自動曝光模式、自動對焦以及閃光燈等的功能。大家對計算攝影的潛力已經(jīng)有一段時間的了解了。但是,近年來,深度學習的進展又讓智能手機拍攝打開了新技能。
HDR,散景及防抖
到目前為止,這是計算攝影的三個主要組成部分。***近,高亮黑白及夜間模式又加入了這份清單。后者更是充分展示了處理器的處理能力如何在在攝影當中變得越來越重要。
但是計算攝影的機制是怎么樣的呢?
在過去,攝影師習慣于一種辦法。按下快門,拍一張照片,然后再次按下快門。哪怕是***快的連拍模式也是以類似的方式工作的。那只是連續(xù)地拍攝單張照片,直到攝影師釋放快門按鈕為止。
而在計算攝影里面,當你按下快門時,相機幾乎在同時會拍攝多張圖像。然后,它會實時地將這些圖像處理成一張照片。HDR就是其中***簡單的一種,而且出現(xiàn)已經(jīng)有一段時間了。相機會拍攝5、6張圖像然后馬上合并。
不過,只要看看散景就能看出現(xiàn)代的智能手機功能是多么的強大。基于物理的攝影中實現(xiàn)散景需要大傳感器和大光圈,至少具有中等焦距的強光透鏡。顯然,用物理手段手機是不可能做到的。
為了解決這個問題,智能手機會拍攝多張圖像,然后讓每張圖像只專注于特定的技術(shù)細節(jié)。比方說,可能需要分別拍攝來控制曝光、焦點、色調(diào)、高光、陰影以及人臉識別的圖像。然后再將這些圖像合并,分析每個鏡頭里面的所有數(shù)據(jù),讓將主體從背景中遮蓋掉。然后它會給背景添加模糊效果來模擬散景 。所有這些其實都是實時完成的。
夜間模式和高色調(diào)濾鏡也利用類似的處理器密集型技術(shù)。而且這些實際上還只是個開始。這些同樣適用于視頻領(lǐng)域。只需回顧一下過去幾年的視頻功能就知道這一點。不久以前,靜態(tài)相機的標準視頻格式還是1080p/24fps。而現(xiàn)在,大多數(shù)的新相機/攝像頭都支持60fps的速度拍攝4k圖像,而且很快就會突破120fps乃至240fps的里程碑。這是處理能力在短短幾年之內(nèi)獲得巨大飛躍的結(jié)果。
現(xiàn)在,這種量子躍遷有望在另一個行業(yè)中流行起來,導致該行業(yè)可能會像人像照相館一樣走向滅絕。
電子商務攝影
怎么把椅子(或任何其他產(chǎn)品)拍得好看是一項痛苦的人力勞動
攝影工作室之間差別很大。有的很小,就那么1個人或幾個人。有的就很大,多達數(shù)百名員工。一些工作室會處理完從交付、運輸?shù)綘I銷的一切,而有的工作室會將這些需求外包出去。所有工作室多多少少都需要這些資源,但是獲取資源的方式往往會有所不同。一般而言,攝影工作室會有:
?攝影工作室工作人員:讓產(chǎn)品活靈活現(xiàn)的創(chuàng)意人員
?一間適當?shù)墓ぷ魇遥褐饕乃囆g(shù)空間
?化妝和衣櫥
?暗房
?道具室
?平面設(shè)計空間
?陳列室
?物流部門:負責運輸和接收產(chǎn)品
在網(wǎng)上賣東西要有出色的形象。
為什么?因為圖像有助于建立信心并幫助轉(zhuǎn)化更多的客戶,而且圖像是樹立買家信心的主要來源。鑒于圖像對于網(wǎng)上銷售的重要性,企業(yè)會不遺余力地投入大量精力用于產(chǎn)品攝影的過程。但是,這個過程可能會很折磨人:
從拍攝到上架的復雜流程
產(chǎn)品攝影幾十年來基本沒怎么變。這意味著存在高成本、規(guī)模有限、工作流程脆弱等可觀的瓶頸。比方說,如果你的企業(yè)或制造商決定變更產(chǎn)品詳情或更換新的顏色,就得重復這整個過程。
點擊渲染(Hit Render)
通過利用3D軟件,品牌商現(xiàn)在不需要靠實際的拍攝就可以靠渲染來生成引人注目的視覺效果。雖然這可以突破產(chǎn)品拍攝的眾多傳統(tǒng)瓶頸,但3D渲染需要進行精細的建模,設(shè)置虛擬場景以及圖像生成,這通常被稱為“生活方式攝影”(lifestyle shots)。
GPT-3 (及iGPT)
由馬斯克、Sam Altman、Greg Brockman以及機器學習領(lǐng)域的其他領(lǐng)袖共同創(chuàng)立的AI研究基金會OpenAI,***近推出一個API和網(wǎng)站,讓大家可以訪問一種叫做GPT-3的新型語言模型。在若干領(lǐng)域,GPT-3可謂一項真正的突破性技術(shù)。
GPT-3在本質(zhì)上是基于上下文的生成式AI。這意味著,當賦予AI某種上下文時,它會嘗試著完成其余部分。比方說,如果給它提供腳本的前半部分,它會繼續(xù)執(zhí)行腳本。給它一篇論文的前半部分,它會生成論文的其余部分。——Delian Asparouhov
今天的GPT-3是一種生成文本的機器學習模型。只要提供部分跟你想要生成的東西相關(guān)的文本,它就會補充剩余部分。
機器學習模型讓你可以以史為鑒,基于過去的數(shù)據(jù)進行預測,而生成(創(chuàng)建文本)則是預測東西的一個特殊案例。GPT-3模型只需要通過少量的學習就能完成訓練,這種實驗方法似乎在語言模型中展出出了有希望的結(jié)果。GPT-3的出色表現(xiàn)引起了眾多關(guān)注——它可以生成整篇已發(fā)表的文章、詩歌以及創(chuàng)造性寫作,甚至還可以生成代碼。
大家對GPT-3的興奮主要集中在文本或書面內(nèi)容上。Open AI正在探索將這種少樣本學習系統(tǒng)應用到圖像上,希望弄清楚將部分圖像作為輸入提供給同樣的算法時會發(fā)生什么情況。
OpenAI的研究人員決定把單詞換成像素,并用ImageNet (***受歡迎的用于深度學習的圖像庫)里面的圖像來訓練同樣的算法。因為這一算法在設(shè)計上處理的是一維數(shù)據(jù)(也就是文本字符串),所以他們需要把圖像展開成一個像素序列。他們發(fā)現(xiàn)這個叫做iGPT 的新模型仍然能夠理解視覺世界的二維結(jié)構(gòu)。只要給出圖像上半部分的像素序列,它就可以預測下半部分,而且讓人覺得合情合理。
***左邊的列是輸入,***右邊的列是原始圖像,中間列是iGPT預測補充完成的部分。
這個結(jié)果令人震驚,并展示了一條在計算機視覺系統(tǒng)開發(fā)中利用無監(jiān)督學習的新途徑,可以對未標記的數(shù)據(jù)進行訓練
歷史總是不斷地重演——問題是,大多數(shù)人總是抱殘守缺,直到為時已晚。這符合經(jīng)典的顛覆性理論,GPT-3有望顛覆很多的領(lǐng)域,比方說web開發(fā)、用戶輔助設(shè)計,以及現(xiàn)在的產(chǎn)品攝影(Product Photoshoot) 。