清华大学 Jifeng DAI--Home-- 多模态通用感知模型

中文

Research Focus

探究视觉及图文多任务统一的任务表征、网络结构、训练方式，构建多模态任务的通用模型，以大模型为基础设计全新的通用感知范式，实现面向开放世界、开放任务的通用能力。

代表工作：

图文多模态大模型统一预训练算法

VL-BERT: Pre-training of Generic Visual-Linguistic Representations
【ICLR 2021最具影响力论文第7名】

通用视觉任务表征，统一模型架构和参数解决多模态任务

Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks

Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs
【NeurIPS 2022 Spotlight paper】

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks
【CVPR 2023 Highlight paper】

面向开放世界任务的视觉大语言模型

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

【项目网站】

+

Doctoral Degree in Engineering

Jifeng DAI

Click:

The Last Update Time:--

All rights reserved. Department of electronic engineering, Tsinghua University Address: Tsinghua University, Haidian District, Beijing, 100084