产品

ICLR 2025 Spotlight

该文章的第一作者安照崇,现在在哥本哈根年夜学攻读博士学位,导师为 Serge Belongie。他硕士结业于苏黎世联邦理工学院(ETH Zurich),在硕士时期,他追随导师 Luc Van Gool 停止了多个研讨名目。他的重要研讨偏向包含场景懂得、小样本进修以及多模态进修。当人形呆板人可能辨识身边的所有,VR/AR 装备浮现出定制化的虚构天下,主动驾驶汽车及时捕获路面状态,这所有都依附于对 3D 场景的准确懂得。但是,这种精准的 3D 懂得每每须要大批具体标注的 3D 数据,极年夜推高了时光本钱跟资本耗费,而每当呈现新场景或特定目的时,又不得不反复这一沉重进程。Few-shot 进修是一种无效的处理思绪——经由过程少少量标注样本,让模子敏捷控制新种别,从而年夜幅改良了这一范围性。但以后研讨都范围于单模态点云数据,疏忽了多模态信息的潜伏代价。对此,University of Copenhagen、ETH Zurich 等团队弥补了这一空缺,提出了一个全新的多模态 Few-shot 3D 宰割设定跟翻新方式:在无需额定标注本钱的条件下,融会了文本,2D,3D 信息,助力模子更好地顺应到新种别。论文:Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation论文链接:https://arxiv.org/abs/2410.22489GitHub链接:https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot3D Few-shot 分割结果示例弁言3D 场景懂得在具身智能、VR/AR 等范畴至关主要,辅助装备正确感知跟解读三维天下。但是,传统全监视模子虽在特定种别上表示杰出,但其才能范围于预约义种别。每当须要辨认新种别时,必需从新网络并标注大批 3D 数据以及从新练习模子,这一进程既耗时又昂贵,极年夜地制约了模子的利用广度。3D Few-shot 进修旨在应用少少量的示例样本以顺应模子来无效的辨认恣意的全新种别,年夜年夜下降了新类顺应的开支,使得传统的 3D 场景懂得模子不再范围于练习会合无限的种别标签,对普遍的利用场景有主要的代价。详细而言,对 Few-shot 3D 点云语义宰割(FS-PCS)义务,模子的输入包含大批支撑样本(包括点云及对应新类标签)跟查问点云。模子须要经由过程应用支撑样本取得对于新种别的常识并利用于宰割查问点云,猜测出查问点云中对于新种别的标签。在模子练习跟测试时应用的目的种别无重合,以保障测试时应用的类均为新类,未被模子在练习时见过。现在,麻将胡了pg下载该范畴出现出的任务 [1,2] 都只应用点云单模态的输入,疏忽了应用多模态信息的潜伏的好处。对此,这篇文章提出一个全新的多模态 Few-shot 3D 宰割设定,应用了文本跟 2D 模态且不引入额定的标注开支。在这一设定下,他们推出了翻新模子——MultiModal Few-Shot SegNet (MM-FSS)。该模子经由过程充足整合多模态信息,无效晋升小样本上新种别的进修与泛化才能,证实了应用广泛被疏忽的多模态信息对实现更好的小样本新类泛化的主要性,为将来研讨开拓了全新偏向。Multimodal FS-PCS Setup