隨著觸摸屏技術的不斷推廣,用戶已經適應并逐漸熟悉了與機器的互動,F在,人機互動技術已邁上了更高的臺階,進入了手勢識別時代,不過這也并不是一帆風順的。手勢識別現已在娛樂及游戲市場出現,然而這種技術將對我們的日常生活產生怎樣的影響呢?不妨假想一下,有人坐在沙發上,只需一揮手就能操控燈光和電視,或者汽車自動檢測附近是否有行人。隨著手勢識別技術支持人機互動的不斷深入發展,這些及其它功能將很快得以實現。手勢識別技術長期以來一直采用2D視覺進行研究,但隨著3D傳感器技術的出現,其應用將日益廣泛并多樣化。
2D視覺的局限
計算機視覺技術一直在努力向堪比人類智慧的智能方向發展,以更好地了解場景。如果不能解釋周圍的世界,計算機就無法與人實現自然交流對接。計算機在了解周圍場景方面面臨的主要問題包括細分、對象表征、機器學習與識別等。由于2D場景表征本身存在局限性,手勢識別系統必須應用其它各種提示信息才能得到包含更有用信息的更好結果。在可能性信息包含整個身體跟蹤時,盡管將多種提示信息整合在一起,單靠2D表征也很難獲得超越手勢識別的任何信息。
“z”(深度)創新
向3D視覺及手勢識別發展過程中的挑戰一直都是第三坐標—z軸坐標的獲取。人眼能看到3D對象,能自然識別(x,y,z)坐標軸,從而能夠看到一切事物,而后大腦能夠以3D影像的形式表達這些坐標軸。機器無法獲得3D視覺的一大挑戰就在于影像分析技術。目前有3種應對3D采集問題的常見解決方案,每種方案都有其獨特的功能與特定的用途。這三種方案分別為:立體視覺、結構光模式以及渡越時間(TOF)。有了這些技術提供的3D影像輸出,就可實現手勢識別技術。
立體視覺
立體視覺系統可能是最為人所熟知的3D采集系統。該系統使用2個攝像機獲得左右立體影像,該影像有些輕微偏移,與人眼同序。計算機通過比較這兩個影像,就可獲得對應于影像中物體位移的不同影像。該不同影像或地圖可以是彩色的,也可以為灰階,具體取決于特定系統的需求。立體視覺系統目前通常用于3D電影,能帶來低成本而又震撼人心的娛樂體驗。
結構光模式
結構光模式可用來測量或掃描3D對象。在該類系統中,可在整個對象上照射結構光模式,光模式可使用激光照明干擾創建,也可使用投影影像創建。使用類似于立體視覺系統的攝像機,有助于結構光模式系統獲得對象的3D坐標。此外,單個2D攝像機系統也可用來測量任何單條的移位,然后通過軟件分析獲得坐標。無論使用什么系統,都可使用坐標來創建對象外形的數字3D圖形。
渡越時間(TOF)
渡越時間(TOF)傳感器是一種相對較新的深度信息系統。TOF系統是一種光雷達(LIDAR)系統,同樣可從發射極向對象發射光脈沖。接收器則可通過計算光脈沖從發射器到對象,再以像素格式返回到接收器的運行時間來確定被測量對象的距離。
TOF系統不是掃描儀,因為其不支持點對點測量。TOF系統可同時獲得整個場景,確定3D范圍影像。利用測量得到的對象坐標可創建3D影像,并可用于機器人、制造、醫療技術以及數碼攝影等領域的設備控制。
實施TOF系統所需的半導體器件現已開始供貨。目前的器件支持實現TOF系統所需的處理性能、速度與帶寬。
3D視覺技術的比較
不同的應用或市場適用于不同的3D視覺技術。圖1顯示了不同3D視覺技術的比較及其相關響應時間、軟件復雜性、成本及準確性的相對優缺點。
立體視覺技術需要極高的軟件復雜性才能獲得高精度3D深度數據,其通?赏ㄟ^數字信號處理器(DSP)或多內核標量處理器進行處理。立體視覺系統支持小巧的外形與低成本,是移動電話等消費類設備的良好選擇。不過,立體視覺系統的精確度與響應時間不及其它技術,因此對于制造質量控制系統等要求高精度的系統來說不太理想。
結構光技術是包括3D計算機輔助設計(CAD)系統在內的3D對象掃描的良好解決方案。這些系統的相關軟件復雜性可通過硬接線邏輯解決(如ASIC與FPGA等),其需要高昂的開發及材料成本。此外,該計算復雜性還可導致較慢的響應時間。在實現微觀層面上的高精度方面,結構光模式技術優于其它3D視覺技術。
TOF系統取得了性能與成本的平衡,非常適用于需要快速響應時間的制造與消費類電子設備等應用領域的設備控制。TOF系統軟件復雜程度通常較低,不過這些系統需要昂貴的照明部件(LED、激光二極管)以及高速接口相關部件(快速ADC、快速串行/并行接口、快速PWM驅動器),這將提升材料成本。圖1顯示了這三種3D傳感器技術的對比情況。
“z”(深度)如何影響人機界面
隨著“z”坐標的加入,顯示與影像更接近自然,更貼近人類。人們在顯示屏上能看到人眼從周邊環境所看到的逼真事物。增加這第三維坐標改變了可使用的顯示與應用類型。
立體顯示屏
立體顯示屏通常需要用戶佩戴3D眼鏡。這種顯示屏為左右眼提供不同的影像,兩眼看到的影像不同,讓大腦誤以為看到了3D影像。這種顯示屏目前廣泛用于眾多3D電視與3D電影院。
多視點顯示屏
多視點顯視屏不同于立體顯示屏,無需佩戴特殊眼鏡。這些顯示屏可同時投射多個影像,每個影像稍微有些位移,形成適當的角度,讓用戶可在每個視點角度看到相同對象的不同投射影像。這些顯示屏支持全息攝影效果,在不久的將來將實現全新的3D體驗。
檢測與應用
處理并顯示“z”坐標的功能將實現全新的應用,其中包括游戲、制造控制、安全、互動數字標牌、遠程醫療、汽車以及機器人視覺等。圖2是身體骨架與深度映射傳感技術所支持的某些應用領域視圖。
人類手勢識別(消費類)
人類手勢識別是一項深受歡迎的新技術,可為游戲、消費類以及移動產品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設備進行互動,從而可促進產品推廣。這些人類手勢識別產品包括從160 x 120像素到640 x 480像素,30到60 fps的各種分辨率的3D數據。原始數據到z深度解析、雙手跟蹤以及全身跟蹤等軟件模塊需要數字信號處理器(DSP)對3D數據進行高效快速處理,才能實現實時游戲與跟蹤。
工業
工業與制造傳感器等大多數3D視覺工業應用都采用至少1像素至數100k像素的影像系統。3D影像可使用DSP技術進行控制分析,確定制造瑕疵或者從部件集中選擇正確的部件。
互動數字標牌(精確定位的市場營銷工具)
每天我們都在遭受廣告的轟炸,無論是看電視、開車還是在機場登機都是如此。有了互動數字標牌,企業就可通過精確定位的市場營銷工具提供適合每位消費者的內容。例如,有人走過一個數字標牌,標牌上可能就會馬上顯示額外的消息確認該客戶。如果客戶停下來閱讀信息,該標牌可能會理解為客戶對產品感興趣,并提供更有針對性的消息。麥克風則將讓廣告牌檢測并識別關鍵短語,進一步精確定位所提供的消息。
這些互動數字標牌系統將需要3D傳感器進行全面的身體跟蹤,2D傳感器進行面部識別,并需要麥克風進行語音識別。這些系統的軟件將運行在更高級的DSP及通用處理器(GPP)上,不但可實現面部識別、全面的身體跟蹤以及Flash媒體播放器等應用,而且還可提供諸如MPEG4視頻解碼等功能。
醫療(無故障虛擬/遠程護理)
3D視覺將為醫療領域帶來前所未有的全新應用。醫生無需跟患者共處一室就可問診。遠程虛擬護理采用高精度3D傳感器支持的醫學機器人視覺系統,可確保為每一位患者提供最優質的醫療護理,無論他們身處何方。
汽車(安全)
近期,汽車應用在交通信號、車道以及障礙檢測方面使用2D傳感器技術取得了長足發展。隨著3D傳感技術的到來,3D傳感器的“z”數據將大幅提升場景分析的可靠性。汽車通過使用3D視覺系統,現已有了預防事故的新途徑,無論白天還是夜間都非常適用。采用3D傳感器,車輛能可靠檢測并解讀周邊環境,確定對象是否對車輛及車內乘客構成安全威脅。這些系統要求軟硬件支持3D視覺系統,并需要密集型DSP及GPP處理性能在極短時間內解讀3D圖形,避免事故。
視頻會議
視覺會議技術經過多年發展,已經從間斷脫節傳輸影像發展成當前的高清系統。未來增強型視頻會議將充分發揮3D傳感器的優勢,提供更真實、更具互動性的視頻會議體驗。該增強型視頻會議系統具有集成型2D傳感器以及3D傳感器及麥克風組合,將能夠與其它增強型系統連接,實現高質量的視頻處理、面部識別、3D影像、噪聲消除以及內容播放器(Flash等)等應用。隨著這種密集型音視頻處理需求的出現,需要具備最佳性能及外設組合的DSP。
技術處理步驟
對許多應用而言,需要同時具備2D和3D攝像機系統才能充分實現應用技術。圖3顯示了這些系統的基本數據路徑。從傳感器獲取數據,然后進行視覺分析,這并不像數據路徑示意圖看上去那么簡單。具體而言,TOF傳感器需要的帶寬相當于2D傳感器的16倍之多,這可導致高輸入/輸出(I/O)問題。另一個瓶頸則存在于原始3D數據向3D點云轉換的處理過程中。通過正確的軟硬件組合解決這些問題,對于手勢識別及3D的成功應用至關重要。當前數據路徑可通過DSP/GPP處理器組合加上分立式模擬組件及軟件庫實現。
3D視覺嵌入式系統的挑戰
輸入挑戰
如前所述,輸入帶寬限制對3D視覺嵌入式系統提出了極大的挑戰。此外,輸入接口也沒有標準化。設計人員可為2D傳感器與通用外部存儲器接口選擇采用不同的輸入選項,其中包括串行與并行接口。在支持最佳帶寬的標準輸入接口出現之前,設計人員只能使用現有的接口。
兩種不同的處理器架構
圖3所示的3D深度映射處理可分為兩類:一是以數據為中心的視覺專用處理,二是應用上層處理。以數據為中心的視覺專用處理需要處理器架構能夠執行單指令多數據(SIMD)快速浮點乘法及加法運算,以及快速搜索算法。DSP是快速可靠執行這種處理功能的完美選擇。對于應用上層處理而言,高級操作系統(OS)及協議棧則可提供任何應用上層所需的必要特性集。
根據兩種處理器架構要求,提供高數據速率I/O GPP+DSP+SIMD處理器的片上系統(SoC)非常適合3D視覺處理,其可支持必要的數據及應用上層處理。
缺乏標準中間件
3D視覺處理領域的中間件是多種來源的眾多不同組件的整合,包括開源(如OpenCV)與專有商業源等。商業庫主要針對身體跟蹤應用,這是一種特定的3D視覺應用。目前尚未開發出針對所有不同3D視覺應用標準化的中間件接口。
“z”(深度)之后會有什么精彩?
沒有人質疑3D視覺的誘人因素。工程師早已在期待未來的應用發展。那么不久的將來會出現哪些最新技術?研究人員已經在開發針對人和對象的各種視覺技術了。全球研究人員正在使用多路徑光分析技術,探索實現轉角視覺或繞開對象的視覺途徑。透明研究將帶來可透視對象和材料的系統,而運動檢測系統則將帶來查看人類大腦內部的應用,從而可檢驗一個人是否在撒謊。
3D視覺與手勢識別技術的發展會帶來無盡的可能性。不過,如果沒有支持這些振奮人心的新技術所必須的硬件及中間件,該研究將沒有任務意義。提供GPP+DSP+SIMD(通用處理器+數字信號處理器+單指令多數據流)架構的SoC(系統芯片)不斷發展,將提供處理性能、外設支持以及必要帶寬的完美組合,從而可實現這種振奮人心的技術與應用。
![]() |
戶外廣告機 |
落地式廣告機 |
高清廣告機 |
分屏廣告機 |
藍牙廣告機 |
網絡廣告機 |
數字標牌播放器 |
廣告機方案 |
多媒體信息發布系統 |
觸控一體機 |
高清機頂盒 鏡面廣告機 | 多媒體廣告機 | 觸摸廣告機 | 液晶廣告機 | 車載廣告機 | 互動式廣告載體 | 樓宇廣告機 | 流媒體實時發布系統 | 廣告機外殼 | 戶外大屏幕 | 廣告機報價 數字標牌軟件 | 電子看板 | 商業顯示 | 嵌入式主板 | 觸控一體機 | 數字標牌顯示器 | 嵌入式流媒體服務器 | 立式廣告機 | 3D廣告機 | |