這次要介紹的文章是SA:MIND五月號中的Designing cameras that work like eyes,這篇文章探討眼睛運做的特性,以及如何將這樣的特性運用在相機成像的機制上。
隨著科技的進步,人們拍下的照片越來越多,以Instagram為例子,每分鐘就有38,000張照片被上傳,沒被上傳的數量不知道是這樣的幾倍。和過去的相機相比較,現在的相機也越來越聰明,拍出來的照片品質也越來越好,但難免會有模糊、曝光出了問題的情形。為什麼相機會出這樣的問題,但是我們的眼睛不會呢?
首先,眼中的感光細胞非常靈敏,而且可以迅速調整可感光的波長範圍。這點就是相機比較沒有辦法做到的,因此當同一個場景有量度差異很大的物體時,就會有辨識上的問題。
再者,眼睛的成像和相機有一個極大的不同:眼球不停的在震動,透過多個影像重新運算出現在所看到的影像,而不像相機一樣是定格一次成像。因為這樣,我們除非眼睛出了狀況,否則不會看到朦朧不清的影像。現在也有一些新的相機成像技術在開發中,例如有技術是計算拍照那段時間內,光能量的改變量,然後推算哪些是在移動、哪些是固定的物體。透過這樣的技術,重新成像,讓影像就不會是模糊不清的了。
眼睛另一個超越像機的功能,就是在物體辨識上面的能力。目前很多設備都支援人臉的辨識,但你知道這是怎麼做的嗎?目前的技術其實還沒有那麼聰明,可以知道知道這是人臉,而是透過是否有一個亮的區域(鼻子)在兩個暗的區域(雙眼)中間;如果有的話,就會認為這是一張臉。同理可證,現在很多的視覺辨識系統,都需要針對那些要辨視的物體做一些定義,然後透過持續的驗證,來歸納出最精準的辨識規則。但人在辨視物體時,其實仰賴相當複雜的運算規則,除了受到刺激誘發的部份之外,也會受到情境、目的的影響。以下圖為例,不同的詮釋方式,就會讓人有時候看到年輕女孩、有時候看到老太太。所以,人的物體辨視能力是非常複雜的,若能模擬人的物體辨識能力,那將會是相當大的進步。
最後,讓我們來思考一下所謂的視網膜呈現這件事情,為什麼一些新的設備都在強調這點呢?其實因為視網膜約有六百萬個感光細胞,若我們將這個和相機的畫素做類比,也就是只要超過六百萬畫素的呈現,都可以說自己是視網膜呈現或甚至是超越視網膜呈現。然而,這樣的比對其實是有問題的,因為感光細胞的運作,並不是像畫素一樣一個畫素對應到外在一塊區域。我們的感光細胞彼此間是會對話的,在訊息處理的不同階段,也會接受來自不同區域訊息的影響。另外,提一個大家可能都有的經驗,就是當我們把數位相片持續放大,就會看到模糊不清的影像,這其實是因為影像過度放大時,那些所看到的東西,都是相鄰的影像平均之後所得到的結果,自然就會是模糊不清的。
最後,隨著Google Glass的問世,越來越多公司在針對視覺辨視做努力,這些其實都是嘗試解析人眼的運作機制,也可說是某種的造人計劃。未來,這些辨視系統的能力肯定會越來越好,完全仰賴機器人來做物體區辨的日子,真的很近。
去訂閱Scientific American: Mind iPAD版