面部動作捕捉
也許這就是微軟亞洲研究院網絡圖形組主任研究員童欣博士將人臉逼真動畫稱作計算機圖形科學“圣殿”的原因。數十年來的計算機圖形學研究已經開發出許多項捕捉三維動態人臉圖像的技術。但是,它們都有所缺陷,或者無法捕捉足夠的細節,或者不能準確地描繪不斷變化的表情。
最近,由童欣博士帶領的微軟亞洲研究院研究團隊與德克薩斯A&M大學的柴金祥教授合作,開發了一種創建高保真三維人臉圖像的新方法:它不僅能描繪大尺度特征和表情,更能夠捕捉細微的皺紋和皮膚運動。他們的工作可能會對計算機影視制作領域帶來深遠影響,甚至能夠在會議和其他應用中創建極具真實感的用戶虛擬化身。
SIGGRAPH 2011
童欣團隊有關面部掃描研究的論文——《利用動作捕捉和三維掃描捕捉高保真面部表現》已經在SIGGRAPH 2011上發表。SIGGRAPH 2011——第38屆國際圖形學大會于8月7日至11日在加拿大溫哥華舉行,吸引了來自科學、藝術、游戲以及其他研究領域的25,000名專家學者。
微軟研究院的研究員們為SIGGRAPH 2011貢獻了11篇論文。此外,會議期間微軟研究人員獲得了兩個重要的行業大獎:微軟研究院的杰出工程師Jim Kajiya因對計算機圖形學的杰出創造性貢獻而獲得“Steven Anson Coons獎”;而微軟研究院交互可視化媒體小組總監Richard Szeliski榮獲了計算機圖形學成就獎。
這篇由微軟研究院童欣、黃浩達和吳湘濤以及德克薩斯A&M大學柴金祥教授共同撰寫的論文探討了捕捉高清逼真面部特征和表情的新途徑。
童欣博士表示,這是一項很艱巨的挑戰。人類的面部不僅表情豐富,而且也是一種溝通的形式——我們只要看看對方的面孔,通常就可以立即了解他人的想法或感受。
“我們很熟悉面部表情,對其中的任何微小的錯誤也會十分敏感。”他說:“這意味著我們需要捕捉更高層次的面部表情細節,而且還要捕捉帶有較高時間分辨率的非常微妙的面部細節。”也就是說,這些細節的微妙運動也需要捕獲得到。
現有的臉部和表情捕捉手段包括基于標記的動作捕獲和高分辨率掃描儀。在基于標記的技術中,需要將小反光點固定在被攝者的臉上,當他的表情變化時,這些反光點之間的相對位置變化就會被記錄在視頻上。這種方法能夠準確地捕捉不斷變化的表情,但空間分辨率較低,無法捕捉表情變化的細節。
另一方面,高分辨率掃描儀能夠捕捉到人臉的所有細微之處,甚至包括細小的皺紋和皮膚毛孔,但通常只能適用于靜態姿勢。經過專門配置的高速攝影機也可用于捕捉面部表情,但它們價格昂貴,而且只能提供較少的面部細節。
基于這兩種捕捉技術的特點,研究團隊試圖將基于標記系統的動作捕捉精準度與高分辨率掃描儀的豐富細節結合起來。研究人員還希望從計算的角度,提升捕捉和識別的效率,這樣就把重建精確面部表情所需的數據量減到最小。
研究人員聘用了三名面部肌肉非常靈活的演員,他們首先使用基于標記的運動捕捉,在每個演員的臉上固定約100個反射點。隨著視頻滾動,演員做出一系列預先確定的面部表情來收集臉部表情變化時的粗略數據,用于三維掃描。
上面一行圖片顯示了標記如何在所有面部掃描圖像之間創建一個對應集;下面一行圖片則顯示了兩步法人臉掃描配準如何在所有面部掃描圖像之間產生密集、一致的表面對應
另外,通過分析所捕獲的基于標記的數據,研究小組確定了重建精確面部表情所需的最低掃描數量。
下一步,研究小組利用激光掃描儀捕捉高保真的面部掃描。然后,將這些掃描與基于標記的面部數據中的對應畫幅相匹配。他們使用新的算法,實現了面部掃描的互相配準。
但這絕非易事。他們在論文中指出,在一次掃描中出現的幾何細節未必出現在另一次掃描中。另外,在細粒度特征(如皺紋或毛孔)即使出現細微的配準失誤,都會造成面部重建顯得不自然。
“我們希望確保這些特征相互匹配,否則你會看到一些奇怪的面孔,”童欣博士說:“臉上的一條皺紋可能一會而出現,一會兒又消失,顯得很不自然。”
為了避免這種情況,研究小組利用了兩步配準算法。首先,這種算法在清晰度面部掃描之間進行顯著面部表情的配準。接著,它將面部分割成八個區域,并使用光流技術在當前掃描與面部相似的其他掃描的相同區域進行配準;光流技術已經考慮到攝像頭和人臉之間的相對運動。
最后,研究小組綜合運用動作捕捉信息和面部掃描信息,重建演員當時所做的實際表情,其所產生的圖像既捕捉到了臉上的“大”運動,又捕捉到了皮膚紋理和皮膚運動的精致細節。
童欣相信,他的團隊所做的工作將對現實世界產生影響。
“它有很多種應用,”童欣博士說:“這就是我們投入這么多努力的原因。”
例如,電影和視頻游戲產業也可受益于更容易、更高效的虛擬面孔創建方法,使虛擬人物比今天常見的人物更加逼真。
Xbox 360游戲
此外,童欣博士認為新的掃描技術可以用來創建計算機的虛擬化身(Avatar),作為逼真版本,用于代替Xbox 360等設備中預設的玩家化身。
“角色可能是虛擬的,但是表情是真實的,”他說:“在電視電話會議中,它可能會非常有用,例如在商業會議上,人們對表情非常敏感,并通過表情來判斷對方的想法。”
但是童欣博士表示,未來的工作還有很多。目前他的小組所用的掃描技術還不能捕獲精確的眼部和唇部的動作。此外,還需要相當強大的計算能力和若干小時的工作時間才能成功地對所有圖像進行配準。童欣希望做到實時配準。
“未來的挑戰還有很多,”他總結道:“但這是一個非常激動人心的研究領域。”