感謝機器人網的投遞
為了讓機器人能夠勝任更複雜的工作,機器人不但要有更好的控製係統,還需要能更多地感知環境的變化。如今的機器人可以深入核電站進行調查、清理海洋石油泄漏、組建無人軍隊、探索火星表麵……但神通廣大的它們甚至無法像人類一樣簡單地喝一口茶。
左側為提供的3D模型,右側為實際3D模型,中間為機器人預測模型
今年5月,AlphaGo與柯潔對弈時曾在己方一側起手落子,這違反了對弈的禮儀,引發了激烈爭論。事後據DeepMind工作人員解釋,計算機無法分清上下左右,那隻是無心之失。即使聰明如AlphaGo,它也分不清2D圖像的方位,對於其他機器人來說,擁有能感知到水壺、方糖、牛奶的能力,更是遙不可及。
當人類從一個特定角度看物體時,他們往往能直觀地知道它是什麼,甚至可以立即繪出物體的俯視圖、正視圖、側視圖,這裏有一種"想象"(聯係經驗)的能力。不同於人眼,機器人利用傳感器和相機,能輕易捕捉到物體的圖像,甚至是3D圖像,但在隻有一個角度圖像的情況下,機器人是無法一眼判斷出物體的原型的,這還是目前機器視覺研究的一個難點。
在7月12日召開的"2017機器人:科技和係統大會"上,杜克大學的研究生本·比奇費爾(Ben Burchfiel)和布朗大學教授George Konidaris展示了他們的科研新成果——一種針對機器3D視覺的算法。根據這個算法,機器人能在隻看到物體的一麵,甚至是一部分的情況下,準確地推測出它的3D模型。
研究人員選取一些常見的家居物品進行了4000次完整的3D掃描。掃描獲得的3D圖像被切割成一個個體素,像樂高積木一樣堆疊在一起。該算法通過梳理每個對象的示例,並使用一種名為"概率主成分分析"的技術了解它們的變化以及它們如何保持不變。舉個例子,就是當機器人觀察一張床時,它隻需根據特征體素比對就能知道麵前的物品是床,而不必從各個方向搜集圖像構建完整模型。
為了測試這種算法,研究人員又對10種相同的物品進行了掃描,共獲得908幅俯視圖。實驗證明,機器人在大多數情況下能準確猜出對象是什麼,並繪製完整3D模型(包括隱藏部分)。它的用時為一般機器人的75%,正確率在50%以上。
當然這個算法也存在缺陷。機器人"猜物"依據的是係統提供的掃描圖,但許多明顯不同的物品在某些角度會呈現相同的形狀特征,如普通箱子的俯視圖和桌子一樣是方形的,在這樣的情況下,機器人會被"迷惑"。因此這個算法還在實驗階段,並不能馬上被產品化。
Burchfiel表示,接下來研究團隊的研究方向是算法效率的提升,他希望機器人能在短時間內識別成千上萬種物品。同時,重建3D圖像("想象")也是一個主攻方向,未來機器人將突破"視覺"盲點限製,更準確地呈現物品原貌。
相關文章
没有评论:
发表评论