张卫强

个人信息Personal Information

副研究员

教师英文名称:Wei-Qiang ZHANG

教师拼音名称:zhangweiqiang

电子邮箱:

办公地点:电子工程馆5-111

联系方式:010-62781847

学位:博士学位

毕业院校:清华大学

学科:信号与信息处理

教师博客

当前位置: 中文主页 >> 教师博客

长短视频多语种多模态识别挑战赛开赛啦

点击次数:

近年来,随着短视频、直播等应用的迅速崛起,带来了长短视频直播音视频等新兴互联网媒介的百花齐放。 各类创作模式层出不穷、创作门槛日趋平民化,导致各类长短音视频、直播流中声学场景更加复杂多变多语种多方言问题日益突出。 围绕各类长短音视频的语音识别和内容理解任务一直以来都备受工业界关注,如何对各类视频内容进行准确转写和内容理解,成为了字幕内容创作、兴趣内容推荐、数字媒介归档等下游应用中不可或缺的利器。

因此,腾讯科技、数据堂、清华大学语音与音频技术实验室、西北工业大学音频语音与语言处理研究组、中国计算机学会语音对话与听觉专业组联合主办长短视频多语种多模态识别挑战赛,围绕时下在工业界最为关注的三类媒体形式——长视频短视频直播场景进行。

本次比赛由易到难设置3个任务,Task1将关注模型场景失配下长短视频及直播中汉语关键词的检测问题;Task2则扩展到Task1的多语种和多方言关键词场景;Task3则关注音视频多模态文字内容识别。从而共同打造SOTA的长、短视频、直播场景的字幕语音内容识别多模态工业级解决方案。Task1比赛结果和排名将在NCMMSC2021会议上公布。

VMR.png

竞赛官网:https://datatang.com/VMR