Loading...

多模态模型目标能力

Comments

视觉感知

识别图片中的场景与物体的能力,这也是人类视觉系统中的主要能力。



Analytics

视觉推理

需要模型综合理解图片与相关文字。



Group

视觉知识获取

需要基于图片进行理解来获得知识。



Notifications

视觉常识

需要模型理解普遍共享的通用视觉知识,而不仅仅是单个图像中的视觉信息。



Tasks

对象幻觉

生成的结果与描述中的目标图像不一致。


Security

具身智能

旨在基于多模态模型建立类似于机器人的智能体,需要模型学习如何解决需要环境交互的挑战性任务。

视觉感知

视觉感知能力主要指识别图片中的场景与物体的能力,这也是人类视觉系统的主要能力。我们使用三项任务来评估模型的这一能力,分别是:图像分类, 多类识别, 和目标计数。这些任务可以有效衡量模型对高级语义信息的掌握程度,而对象计数则能够更细细粒度地评估模型的对象识别能力。

Image
图片分类

ImageNet1K

ImageNet1K数据集中包含了被分为一千类的1,287,167张图片。每类中还另外包含50张图片用于验证,100张图片用于测试。

Evaluation data: 50K (val)

CIFAR10

CIFAR10数据集中共包含10类图片,每类中有5000张图片用于训练、1000张图片用于测试。

Evaluation data: 10K (test)

Pets37

Oxford-IIIT Pet数据集中有37类数据,其中有25种狗和12种猫,每类包含大约200张图片。总共有7349张图片,训练验证集中包含3680张,测试集中包含3669张。

Evaluation data: 3669 (test)

Flowers102

Oxford 102 Flower数据集中有8189张,120种花的图片,其中每类花有40到258张图片。每类图片中有10张用于训练和验证,其余用于测试。

Evaluation data: 6149 (test)

多类识别

COCO-MCI

我们询问模型图像中是否存在某个对象,并关注单个对象,这与高级语义解耦,从而为细粒度视觉理解评估提供了更合适的测试平台。我们用MSCOCO验证集的图像构建了这个问题的数据集。

Evaluation data: 10000 (val)

VCR-MCI

与COCO-MCI相同,但使用来自VCR数据集验证集的图像。

Evaluation data: 10000 (val)

目标计数

COCO-OC

我们要求模型计算图像中出现的特定对象的数量,并关注单个对象,这与高级语义解耦,从而为细粒度的视觉理解评估提供了更合适的测试平台。我们用MSCOCO验证集的图像构建了这个问题的数据集。

Evaluation data: 10000 (val)

VCR-OC

与COCO-OC相同,但使用来自VCR数据集验证集的图像。

Evaluation data: 10000 (val)

视觉知识获取

视觉知识的获取需要理解超越感知的图像来获取知识。该评估是通过使用12个基准的光学字符识别(OCR)、使用两个基准的关键信息提取(KIE)和使用两个标准的图像字幕(ImgCap)来进行的。OCR任务测量模型是否能够准确识别图像或扫描文档中的文本并从中提取文本。KIE任务在从非结构化或半结构化文本中提取结构化信息方面进一步提出了挑战。最后,ImgCap评估一个模型是否能够生成对图像内容的良好自然语言描述。

Image
光学字符识别

IIIT5K

IIIT5K是一个OCR数据集,包含来自街景的单词和原始数字图像。它分为2k/3k,用于训练/测试。

Evaluation data: 3000 (test)

IC13

ICDAR 2013数据集由229幅训练图像和233幅测试图像组成,并提供了单词级注释。具体而言,它分别包含848个和1095个用于训练集和测试集的裁剪文本实例图像。

Evaluation data: 848 (train)

IC15

ICDAR 2015数据集包含1500幅图像:1000幅用于训练,500幅用于测试。其训练/测试集包含4468/2077个裁剪的文本实例图像。

Evaluation data: 2077 (test)

Total-Text

整个测试数据集包含1555张图像:1255张用于训练,300张用于测试。它在测试集中包含2551个裁剪的文本实例图像。

Evaluation data: 2551 (test)

CUTE80

CUTE80数据集包含从80幅高分辨率图像中获得的288幅裁剪文本实例图像。

Evaluation data: 288 (all)

SVT

街景文本(SVT)数据集是从谷歌街景中获取的。它总共包含350个图像和647个用于测试的裁剪文本实例图像。

Evaluation data: 647 (test)

SVTP

SVTP数据集包含645个裁剪的文本实例图像。它是专门为评估视角扭曲的文本识别而设计的。未提供列车/测试拆分。

Evaluation data: 645 (all)

COCO-Text

我们使用的COCO文本数据集基于v1.4注释,其中包含val/train集中的9896/42618个注释单词。

Evaluation data: 9896 (val)

WordArt

艺术字数据集由6316幅艺术文本图像、4805幅训练图像和1511幅测试图像组成。

Evaluation data: 1511 (test)

CTW

SUCT-CTW1500(CTW)数据集包括用于弯曲文本检测的1500幅图像中的10000多个文本注释(1000幅用于训练,500幅用于测试)。在我们的评估中,我们使用了从测试集中获得的1572幅矩形裁剪图像。

Evaluation data: 1572 (test)

HOST

遮挡场景文本(OST)数据集中严重遮挡的场景文本(HOST)。

Evaluation data: 2416

WOST

OST数据集中的弱遮挡场景文本(WOST)。

Evaluation data: 2416

关键信息提取

SROIE

SROIE数据集包含1000张完整的扫描收据图像,用于OCR和KIE任务。数据集被划分为600/400,用于训练/测试集。在KIE任务中,需要从收据中提取公司、数据、地址和总支出信息,测试集中有347个带注释的收据。

Evaluation data: 347 (test)

FUNSD

FUNSD数据集包含用于KIE任务的199个真实的、完全注释的扫描表单。它被拆分为测试/列车组的50/149。

Evaluation data: 50 (test)

图像字幕

NoCaps

NoCaps数据集包含15100幅图像,其中166100幅为新颖对象图像字幕的人工文字字幕。

Evaluation data: 4500 (val)

Flickr-30k

Flickr30k数据集由从Flickr收集的31K张图像组成,每张图像都有五个基本事实说明。我们使用包含1K图像的测试分割。

Evaluation data: 1000 (test)

WHOOPS

WHOOPS数据集包括500幅合成和合成图像以及每张图像5个字幕。

Evaluation data: 2500

视觉推理

视觉推理需要模型综合理解图片与相关文字。为了评估模型的视觉推理能力,我们主要使用了三个任务,包括有视觉问答, 基于知识的图像描述, 和视觉暗示。一个有能力的多模态模型应该能够理解图像中的对象和场景,并能够推理生成对所问问题具有语义意义的答案。

Image
视觉问答

DocVQA

DocVQA包含12K个图像和50K个手动注释的问题和答案。

Evaluation data: 5349 (val)

TextVQA

我们使用TextVQA数据集的最新v0.5.1版本。它包含34602个问题,这些问题基于OpenImages训练集中的21953个图像。它的验证集包含基于3166张图片的5000个问题。

Evaluation data: 5000 (val)

STVQA

场景文本视觉问答(STVQA)由从各种公共数据集收集的23000多张图像中的31000多个问题组成。它在训练集中包含26074个问题,我们以默认顺序从训练集中采样4000个样本,种子为0。

Evaluation data: 4000 (train)

OCR-VQA

OCRVQA包含100037个问答对,涵盖207572张书籍封面图片。

Evaluation data: 100037 (all)

OKVQA

OKVQA是一个关于外部知识可视化问答的数据集。共包含14055个开放式问答对。

Evaluation data: 5046 (val)

OKVQA

GQA是一个视觉问答数据集,包含来自视觉基因组数据集的真实图像。

Evaluation data: 12578 (testdev)

Visdial

Visdial包含从COCO2014中采样的图像,每个对话框有10轮。在我们的评估中,我们将其视为VQA数据集,将每个对话框样本按轮次划分为问答对。由于验证集中有2064个对话框样本,我们从验证集中收集了20640个问答对。

Evaluation data: 20640 (val)

IconQA

IconQA数据集提供了不同的视觉问答样本,我们在其多文本选择任务中使用了测试集。

Evaluation data: 6316 (test)

VSR

视觉空间推理(VSR)数据集包含具有真/假标签的字幕图像对的集合。我们将其视为VQA数据集,要求模型回答True或False。

Evaluation data: 10972 (all)

WHOOPS

WHOOPS数据集包括500幅合成和合成图像以及总共3662个问答对。具体来说,每个问题只有一个答案。

Evaluation data: 3662

基于知识的图像描述

ScienceQA IMG

ScienceQA是一个多模式基准测试,包含一组不同科学主题的多项选择问题。在我们的评估中,我们只使用测试集中带有图像的样本。

Evaluation data: 2017 (test)

VizWiz

VizWiz是一个VQA数据集,其答案是通过询问盲人来获得的。

Evaluation data: 1131 (val)

视觉暗示

SNLI-VE

SNLI-VE将文本隐含(TE)任务扩展到视觉领域,并询问模型图像在语义上是否隐含、中性或与下一个假设相矛盾。这是一个基于Flicker30k的三类分类任务。

Evaluation data: 500 (dev)

视觉常识

视觉常识指的是世界各地普遍共享的一般视觉知识,而不是单个图像特有的视觉信息。该评估使用ImageNetVC和视觉常识推理(VCR)测试了模型对人类普遍共享的通用视觉概念知识的理解。具体来说,ImageNetVC用于零样本视觉常识评估,如颜色和形状,而VCR涵盖各种场景,如空间、休闲和心理常识。

Image
视觉常识

ImageNetVC

ImageNetVC是一个细粒度的人为注释数据集,用于零样本视觉常识评估,包含跨多个域的高质量QA对,具有足够的图像源。

Evaluation data: 10000 (rank)

VCR

VCR是一个具有挑战性的多项选择VQA数据集,需要常识知识来理解视觉场景,并需要多步骤推理来回答问题。

Evaluation data: 500 (val)

对象幻觉

多模态模型存在对象幻觉问题,即生成的结果与描述中的目标图像不一致。评估不同模型的对象幻觉有助于了解它们各自的弱点。为此,我们基于论文POPE中的方式在MSCOCO数据集上评估了模型的对象幻觉问题。

Image
对象幻觉

MSCOCO-Random

我们从MSCOCO的验证集中随机选择500张图像,其中注释中有三个以上的真实对象,并为每张图像构造6个问题。对图像中不存在的问题中的探测对象进行随机采样。

Evaluation data: 3000(val)

MSCOCO-Popular

与MSCOCO Random类似,我们随机选择500张图像,并为每张图像构造6个问题。但图像中不存在的问题中的探测对象是从MSCOCO中前50%的最频繁对象中选择的。

Evaluation data: 3000(val)

MSCOCO-Adversarial

与MSCOCO Random类似,我们随机选择500张图像,并为每张图像构造6个问题。但是,在图像中不存在的问题中的探测对象是从具有其共同出现频率的排序对象中选择的,并且对前50%的最频繁对象进行采样。

Evaluation data: 3000(val)

具身智能

具身智能旨在创建代理,如机器人,学习解决需要环境交互的具有挑战性的任务。最近,大语言模型与多模态模型在指导代理完成一系列任务方面表现出了非凡的有效性。在本次评估中,我们利用EmbodiedGPT中的高级任务,并使用Minecraft、VirtualHome、Meta World和Franks Kitchen作为基准。

Image
具身智能任务

Minecraft

Evaluation data: Selected sample

VirtualHome

Evaluation data: Selected sample

Meta-World

Evaluation data: Selected sample

Franka Kitchen

Evaluation data: Selected sample

Top