首页 科技 正文

腾讯微视AI新技术曝光:VCR榜单第一。

杨净 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI

近日,视觉常识推理义务VCR(Visual Commonsense Reasoning)榜单又被刷新了。

VCR是华盛顿大年夜学研究人员2018年提出的推理义务,是多模态理解范畴最权势巨头的排行榜之一。它不但要求模子辨认出图中人物的属性和关系,还需要在此根本上,去进一步推理人物的意图等。

腾讯微视视频理解团队在多模态范畴持久耕耘,此次以BLENDer单模子,夺得高分「81.6,86.4,70.8」,占据榜首。据团队介绍,BLENDer研发时候不到3个月

百度微软曾称霸的VCR榜单被微视刷新

传统的视觉问答(VQA)义务主要面向辨认(recognition)层面的问题,例如,「一张图里有几个橘子?」

而VCR的方针是将辨认晋升到认知(cognition),例如「为何人物4指向人物1?」,更进一步,较量争论机在第一步做出谜底选择今后,还要在第二步诠释选择这个谜底的理由(rationale)。以下图划分显现了这两步的问题和谜底选项。

这就要求机械同时理解图象中的视觉内容和问题对应的文本内容。

今朝,VCR榜单上的义务给出的场景图片有11万张,问题一共有29万个。而给出的问题,都需要对图片中的人物和场景进行一定程度的理解和推理,才能获得正确的谜底。

正因如此,VCR义务对机械的多模态理解和推导能力提出了相昔时夜的挑战,是当前图象理解和多模态范畴层次最深、门坎最高的义务之一。

在此之前,包孕谷歌、Facebook、微软、百度在内的良多企业和团队曾参与VCR比赛,但以往最好后果都是基于多模子畅通领悟,包孕百度(15个模子)、微软(10个模子)。腾讯微视的BLENDer单模子超越了此前榜单上的多模子提交后果,让这项手艺有了更强的利用价值。

腾讯微视若何笔据模子霸榜?

团队参赛成员介绍到,BLENDer是在流行的视觉-措辞Bert模子的根本上进行了改良。

△BLENDer第一阶段算法模子

演习主要分为三个阶段:

以NLP BERT为动身点,接纳150万张图象+文本,接纳词语/物体掩膜等手艺,进行预演习,使模子可以或许进修到图象和文本两个模态的语义信息和联系关系。在VCR数据集上进行近似第一阶段的预演习,使模子熟习VCR的图象和语料,为第三阶段的特定义务演习做筹办。针对究竟的视觉常识推理义务,进行微调演习。为了同时在VCR榜单要求的三个义务上做到性能最优,腾讯微视在模子中额外到场了人物-物体的关系推理部分。该模子的速度和大小都很优异:BLENDer模子在运算速度方面,每秒钟可以推理50-60张图片。而且,这一个模子的大小约为1.3G,只相当于其他团队多畅通领悟模子中的单个模子。

在模子演习的历程当中,该团队也解决了良多灾题。

例如,在第一和第二阶段的预演习,团队为每一个子义务设计了权重和演习参数可以或许主动调理的算法机制。让模子可以或许有用地从各个义务中学到有价值信息。

为了让模子可以或许加倍有的放矢地演习,团队设计了更有针对性的文本和图象的掩膜手艺,晋升了主要辞汇和物体的猜测精度。

而只是预演习后果好,还不够。在究竟的义务演习时,模子又呈现了过拟合现象。为体会决过拟合的问题,团队用反向翻译手艺对文本进行了扩增,还到场了匹敌噪声进行演习。

腾讯微视团队还吐露,今朝团队还在对模子进行优化,也是为了往后更好地将模子利用到营业中。而BLENDer模子,还不是该团队的最优模子。

本次比赛夺得榜首,得益于手艺方案的创新、和团队持久基于短视频营业场景所堆集的海量跨模态数据。

微视语义理解团队输出的多项手艺,已利用在包孕审核、举荐、多媒体信息挖掘等多个微视营业场景中,此次的BLENDer方案赋予了机械更强大年夜的理解和认知能力,将进一步鼓动AI手艺在短视频营业中智能交互场景的落地。

在更好地处事产物的同时,团队也企图向业界开源相干手艺方案,助力多模态语义理解范畴的手艺研究和落地,进一步提高AI能力的通用性。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.lcvip.net/kj/1845.html