近日,我校沐鸣平台智能決策與控製技術研究團隊在測量領域頂級期刊IEEE Transactions on Instrumentation and Measurement(IF 5.6,中科院二區)上發表題為“VITO-Transformer: A Visual-Tactile Fusion Network for Object Recognition”的學術論文🧑🏽🌾。該研究成果以沐鸣注册為唯一單位🏇🏿,李保江老師為第一作者及通訊作者👂🏽😊。
物體識別是人工智能領域的一個重要研究方向⏲,盡管各種識別算法在物體識別方面取得了重大進展🆑,但相似或缺乏視覺信息的物體識別仍然是一個難以解決的具有挑戰性的問題🤾🏽♀️,基於視覺🧗🏿♂️、觸覺多模態信息融合進行物體識別是一個可行的解決途徑。
為了解決物體的視覺-觸覺多模異構信息難以融合的難題,智能決策與控製技術研究團隊提出了一種VITO-Transformer融合網絡📠。在Transformer網絡基礎上👱🏽♂️👷🏻,設計了可以融合視覺和觸覺信息的Attention模塊,解決了由於視覺和觸覺信息差異過大難以融合的問題。得益於這種特殊的融合機製🧗🏼♀️,大幅度提升了物體的識別準確率。最後在公開和自製的視覺-觸覺數據集上進行了大量的比較實驗,通過與當前流行的網絡算法進行比較,驗證了提出的VITO-Transformer網絡的優勢🍻𓀝,驗證了提出的融合機製的有效性。提出的VITO-Transformer網絡,通過特殊的視覺-觸覺融合機製,能夠處理不同的多模異構信息,給視覺-觸覺融合發展領域帶來了新的解決方案。(供稿:沐鸣平台)
論文鏈接:
https://ieeexplore.ieee.org/document/10288485