Research Focus
探究视觉及图文多任务统一的任务表征、网络结构、训练方式,构建多模态任务的通用模型,以大模型为基础设计全新的通用感知范式,实现面向开放世界、开放任务的通用能力。
代表工作:
图文多模态大模型统一预训练算法
VL-BERT: Pre-training of Generic Visual-Linguistic Representations
【ICLR 2021最具影响力论文第7名】
通用视觉任务表征,统一模型架构和参数解决多模态任务
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs
【NeurIPS 2022 Spotlight paper】
Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks
【CVPR 2023 Highlight paper】
面向开放世界任务的视觉大语言模型
【项目网站】