來自 MIT 的研究者利用深度學習推出了 3D 全息圖生成新方法,可以為VR、3D 打印、醫學成像等創建全息圖,并且能夠在智能手機上運行。
提起三維場景可視化,虛擬現實(VR)是最常見的一種技術。但經過多年宣傳,VR 頭戴式耳機仍未成為電視或計算機屏幕上觀看視頻的必備設備。一個重要的原因是 VR 會讓用戶感到不適。雖然用戶實際上是注視著 2D 顯示器,但 VR 會產生 3D 觀看的錯覺,從而使人視覺疲勞和感到頭暈惡心。更好的 3D 可視化解決方案可能在于一種誕生了六十年的技術:全息圖。
全息圖能夠出色地展現 3D 世界,而且它的呈現效果非常漂亮。全息圖可以根據觀看者的位置提供變化的視角,并允許眼睛調整焦深以交替聚焦在前景和背景上。
長期以來,研究者們一直在試圖制造出計算機生成的全息圖,但傳統上,該過程需要一臺超級計算機來進行物理模擬,這非常耗時,并且產生的效果真實感不高。
近日,來自麻省理工學院的研究者已經開發出一種幾乎可以立即生成全息圖的研究方法。研究者表示:「基于深度學習的方法非常高效,使得新方法瞬間就能夠在筆記本電腦上運行。」
研究團隊的主要成員,MIT 電氣工程與計算機科學系(EECS)的博士生 Liang Shi 說:「以前人們認為,使用現有的消費級硬件還不可能進行實時 3D 全息計算的。人們經常說:商用全息顯示器將在未來十年左右出現,但這種說法已經存在了數十年。」
Shi 認為該團隊稱為「張量全息術」的新方法將最終實現這一「十年目標」。這一進展可能會推動 VR 和 3D 打印等領域引入全息技術。該研究的論文現已發表在《Nature》上,索尼對部分研究提供了支持。
論文鏈接:https://www.nature.com/articles/s41586-020-03152-0
代碼地址:https://github.com/liangs111/tensor_holography
追求更好的 3D 全息圖
照片可以忠實地再現場景的顏色,但最終產生的是一個平面圖像。相比之下,全息圖對每一個光波的亮度和相位都進行編碼。這種組合可以更加真實地描述場景的視差和深度。莫奈的《睡蓮》可以突出畫作的色彩感,而全息圖可以讓作品變得栩栩如生,呈現出每一筆獨特的 3D 質感。
但全息圖的制作與共享仍是一個挑戰。
全息圖從 20 世紀中期開始發展,早期全息圖是用光學原理記錄的。這種技術需要將激光分為兩部分,一半用來照亮被攝體,另一半用作光波相位的參考,該參考產生了全息圖特有的深度感。產生的圖像都是靜態的,不能捕獲運動。很難復制和共享。
而計算機生成全息術通過模擬光學裝置避開了這些挑戰,但是該過程可能是一個就算難題。Shi 說:「由于場景中每個點都有不同的深度,因此無法對所有點都使用相同的操作,這大大增加了復雜性。」指揮集群超級計算機運行這些基于物理的模擬可能需要幾秒鐘或幾分鐘來獲得一張全息圖像。此外,現有的算法不能精確地對遮擋物(occlusion)進行建模。
因此,Shi 的團隊采取了不同的方法:「讓計算機自學物理。」
他們使用深度學習來加速計算機生成全息術,從而實現實時全息圖的生成。該團隊設計了一個卷積神經網絡:這是一種處理技術,使用一系列可訓練張量來粗略模擬人類處理視覺信息的方式。通常,訓練神經網絡需要比較大的、高質量的數據集,但此前 3D 全息圖領域并不存在這樣的數據集。
該團隊建立了一個包含 4000 對計算機生成圖像的數據庫。每一對都匹配一張圖片,圖像信息包括每個像素的顏色和深度信息,這些信息與全息圖相對應。研究者使用形狀和顏色復雜多變的場景,像素的深度從背景到前景均勻分布,并使用一組基于物理的新型計算來處理遮擋,產生了逼真的訓練數據。接下來,算法開始發揮作用。
數據集樣例
通過學習每個圖像對,張量網絡調整了其計算參數,從而逐步增強了其創建全息圖的能力。完全優化的網絡的運行速度比基于物理的計算快了多個數量級。這種效率讓研究團隊也感到驚訝。
Matusik 說:「它的表現讓我們很驚訝。在短短幾毫秒內,張量全息術可以從含有深度信息的圖像中生成全息圖,其中深度信息是由典型的計算機生成圖像提供的,可以通過多機位的設置或激光雷達傳感器(這兩者都是一些新型智能手機的標準配置)計算出來。
這一進展為實時 3D 全息攝影鋪平了道路。更重要的是,壓縮型張量網絡僅需要不足 1 MB 的內存。這一點非常適合現代智能手機。
微軟首席光學架構師 Joel Kollin 說:「這項研究表明真正的 3D 全息顯示器是實用的,只需要適當的計算需求。該研究的圖像質量比此前有了顯著的改善,將提升觀看者的真實感和舒適感?!?/p>
Kollin 還暗示:「全息顯示器可以根據觀看者的眼部定制,矯正眼睛的像差?!?/p>
其他應用
實時 3D 全息技術還有助于 VR、3D 打印等系統的發展。研究團隊表示,新系統可以幫助 VR 觀眾沉浸在更真實的場景中,同時消除眼睛疲勞和長期使用 VR 的其他副作用。這項技術可以很容易地應用在調制光波相位的顯示器上。目前,大多數價格合理的消費級顯示器只調節亮度,但如果廣泛采用 3D 全息技術,相位調制顯示器的成本會下降。
此外,3D 全息技術還可以促進立體 3D 打印技術的發展。事實證明,這種技術比傳統的逐層 3D 打印更快、更精確。其他的應用還包括用于顯微鏡、醫療數據可視化以及具有獨特光學特性的平面設計。
Matusik 說:「這是一個巨大的飛躍,可以徹底改變人們對全息技術的態度,我們覺得神經網絡是為這項任務而生的。」
作者介紹
該論文的第一作者是 MIT 的計算機科學與人工智能實驗室(CSAIL)的博士生史亮。他本科畢業于北京航空航天大學,2016 年獲得斯坦福大學電氣工程碩士學位。史亮的研究興趣包括 VR/AR、計算攝影、計算制造、計算機圖形學、機器學習等。
第二作者是 MIT CSAIL 博士生李北辰。他本科畢業于清華大學。他的研究興趣是機器學習在計算機圖形學、計算設計和計算制造中的跨學科應用。
參考鏈接:https://news.mit.edu/2021/3d-holograms-vr-0310
對于企業和開發者,如何加滿機器學習技能點,更輕松地上手機器學習?
3月15日,亞馬遜云科技機器學習高級產品經理孟和將帶來線上分享。本次分享從供應鏈和自動駕駛領域的相關應用案例出發,詳細講解亞馬遜云科技將提供哪些關鍵資源,幫助開發者團隊提高機器學習技能,從而更好地應用AI。