【ACL 2024】Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
一、前言Abstract1 Introduction2 Related Works3 Video-ChatGPT3.1 Architecture3.2 Video Instruction Tuning 4 Video Instruction Data Generation4.1 Human-assisted Annotation4.2 Semi-automatic Annotation Framework4.3 GPT-Assisted Postprocessing 5 Experiments5.1 Implementation Details5.2 Quantitative evaluation5.3 Ablations 6 Conclusion7 Limitations8 Potential Risks9 Use of Data and AI Assistant10 Human Annotations11 Qualitative Evaluation
一、前言
Authors: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
Mohamed bin Zayed University of Artificial Intelligence
【Paper】 > 【Github_Code】 > 【Project】
Abstract
背景介绍:
由大型语言模型 (LLM) 推动的对话代理正在提供一种与视觉数据交互的新方式。
方法:
虽然已经对基于图像的对话模型进行了初步尝试,但这项工作通过引入 Video-ChatGPT 解决了 \emph{基于视频的对话} 尚未开发的领域。它是一种多模态模型,将视频自适应视觉编码器与大语言模型相结合。生成的模型能够理解并生成有关视频的详细对话。
数据集,定量评估框架
我们引入了一个通过手动和半自动管道获取的包含 100,000 个视频指令对的新数据集,用于训练 Video-ChatGPT,该数据集易于扩展且对标签噪声具有鲁棒性。我们还开发了基于视频的对话模型的定量评估框架,以客观地分析基于视频的对话模型的优缺点。
1 Introduction
用于视频理解的深度学习应用的激增导致了视频相关任务的重大进步。然而,当前的视频理解模型仍然无法以连贯的方式就视频内容进行开放式对话。基于视频的对话模型可以彻底改变视频搜索、监控操作,并帮助总结关键事件和异常事件检测。最重要的是,它可以为视频相关任务(例如动作识别、定位、检测、分割、检索和跟踪)提供统一的人类可理解的界面。此外,这种功能非常令人感兴趣,因为它将展示模型编码时间和空间线索、上下文关系和长期依赖性的能力。
多模态理解的最新进展很大程度上基于预训练的 \emph{image} 模型与大型语言模型(LLM)的结合,但通常不考虑视频输入 \cite{liu2023llava, zhu2023minigpt, blip, blip-2, instructblip}。因此,利用大语言模型的巨大能力来完成视频理解任务是很有趣的,这种方式不仅可以保持时间和空间特征,而且还擅长生成关于视频的类似人类的对话。在本文中,我们介绍了 Video-ChatGPT,这是一种新颖的多模态模型,它融合了预训练视觉编码器的表示能力和大语言模型的生成能力,能够理解和对话视频。
Video-ChatGPT 利用改编后的 LLM \cite{liu2023llava},将 CLIP \cite{radford2021learning} 的视觉编码器与 Vicuna \cite{vicuna2023} 作为语言解码器集成,并在生成的教学图像文本对上进行微调。我们的方法进一步适应时空视频建模spatiotemporal video modeling的设计,并微调视频指令数据的模型,以捕获视频数据中可用的时间动态和帧到帧的一致性关系。与基于视频的对话的其他并发作品 \cite{2023videochat, damonlpsg2023videollama, su2023pandagpt} 相比,Video-ChatGPT 擅长时间理解、空间一致性和上下文理解,正如我们广泛的评估所证明的那样。
这项工作的一个基本贡献是使用人工辅助和半自动注释方法的组合创建了 100,000 个视频指令对的数据集。每对都包含一个视频及其以问答形式呈现的相关说明。这为 Video-ChatGPT 提供了可供学习的大型且多样化的数据集,增强了其对视频特定的理解、对时间关系和对话功能的关注。
此外,我们引入了第一个用于基准测试的定量视频对话评估框架,可以更准确地评估视频对话模型的性能。该框架评估模型的各种功能,例如信息的正确性、细节导向、上下文理解、时间理解和一致性。
这项工作的贡献如下:
我们提出了 Video-ChatGPT,这是一种视频对话模型,能够生成有关视频的有意义的对话。它将大语言模型的功能与适用于时空视频表示的预训练视觉编码器相结合。我们引入了 100,000 个高质量视频指令对以及一个新颖的注释框架,该框架可扩展并生成各种视频特定指令集。我们开发了第一个定量视频对话评估框架,用于对视频对话模型进行基准测试。我们证明了 Video-ChatGPT 与Video Chat \cite{2023videochat} 等视频的并发对话引擎相比表现良好。2 Related Works
Vision Language Models: \textbf{Vision Language Models:} Vision Language Models: 由于许多基础视觉语言模型的发展,计算机视觉领域最近取得了重大进展。这些模型代表了创建能够同时处理各种任务的通用视觉模型的重大飞跃\cite{radford2021learning、Alayrac2022Flamingo、gupta2022towards、Maaz2022Multimodal}。一个典型的例子是 CLIP \cite{radford2021learning},它接受了 4 亿图像文本对的训练,并在众多基准测试中展示了令人印象深刻的零样本性能。它已被用于各种下游应用程序,从基于图像的对象检测和分割 \cite{Hanoona2022Bridging, liang2023open} 到 3D 应用程序 \cite{rozenberszki2022language, ni2022expanding}。为了使 CLIP 适应视频应用程序,人们也进行了许多尝试\cite{wang2021actionclip, ni2022expanding}。与我们的设计类似,ViFi-CLIP \cite{hanoonavificlip} 建议采用跨视频帧的时间池来使基于图像的 CLIP 模型适应基于视频的任务。
Large Language Models: \textbf{Large Language Models:} Large Language Models: 随着预训练大型语言模型 (LLM) 的出现,自然语言处理领域发生了范式转变,例如 GPT \cite{brown2020languagegpt}、LLaMA \cite{touvron2023llama}、OPT \cite{zhang2022opt} 和 MOSS \cite{ OpenLMLab_2023}。这些模型展现了语言生成和上下文学习等非凡的能力,并且它们以零样本方式理解用户提示的复杂任务的能力反映了它们令人印象深刻的适应性和泛化能力。大语言模型经过验证的能力鼓励研究人员对其进行微调,以最大限度地提高其熟练程度。
这一追求的一个关键策略是指令调整。这种方法的重点是提高模型与用户意图的一致性并优化其输出质量。例如,InstructGPT \cite{ouyang2022traininginstructgpt} 和 ChatGPT \cite{chatgpt} 显着受益于该技术,展示了各种对话交互能力的改进及其回答各种复杂问题的能力。这种有效的方法最近已在 Alpaca \cite{alpaca} 和 Vicuna \cite{vicuna2023} 等开源模型中采用,这两个模型都是使用 LLaMA \cite{touvron2023llama} 框架开发的,从而提高了性能。
Pre-trained LLMs in Vision-Language Tasks: \textbf{Pre-trained LLMs in Vision-Language Tasks:} Pre-trained LLMs in Vision-Language Tasks: 多模态理解的最新进展主要是由基于图像的视觉模型与大语言模型的集成推动的。 Flamingo \cite{Alayrac2022Flamingo} 和 BLIP-2 \cite{blip-2} 等开创性贡献证明了利用网络规模的图像文本数据以及跨模式对齐的开创性技术来展示动态能力的力量在对话式和少样本学习环境中。在此基础上,MiniGPT-4 \cite{zhu2023minigpt} 通过集成 BLIP-2 和 Vicuna 来实现基于图像的对话,以实现零样本图像理解。
同样重要的是 LLaVA \cite{liu2023llava} 的出现,这是一个源自 LLaMa 架构的模型,利用 GPT-4 的语言能力来生成多模式指令跟踪数据。通过对派生数据应用指令调整,LLaVA 显示了有趣的多模式聊天功能,暗示了这种方法的可扩展性潜力。此外,InstructBLIP \cite{instructblip} 通过指令感知视觉特征提取的创新,通过视觉语言指令调整展示了强大的基于图像的对话功能。
与我们的工作更密切相关的是,VideoChat \cite{2023videochat} 采用了视频基础模型 \cite{wang2022internvideo} 和图像基础模型 \cite{blip-2} 的选择性组件,并将它们与 LLM \cite{vicuna2023} 结合几个可学习的层,使用两阶段轻量级训练进行调整。此外,他们使用现成的视觉语言模型\cite{wu2022grit,blip-2,huang2023tag2text,wang2022internvideo}构建了一个视频特定数据集,用于生成嘈杂的详细文本描述,以增强以视频为中心的对话模型的训练。
与VideoChat不同,我们提出了一种新颖的人工辅助和半自动注释框架,用于生成高质量的视频指令数据。我们简单且可扩展的架构设计利用预训练的 CLIP \cite{radford2021learning} 生成时空特征,帮助 Video-ChatGPT 生成有意义的视频对话。此外,我们是第一个提出用于评估视频对话任务的定量框架(有关更多详细信息,请参阅“视频指令数据生成”部分)。
3 Video-ChatGPT
Video-ChatGPT 是一种大型视觉语言模型,它将视频表示与大型语言模型 (LLM) 结合起来,从而增强其生成有意义的视频对话的能力。我们的方法借鉴了为视频领域设计视觉语言(VL)模型所采用的方法。鉴于视频字幕对的可用性有限以及从头开始训练此类数据所需的大量资源,这些模型通常采用基于预训练的基于图像的 VL 模型来执行视频任务 \cite{ni2022expanding, wang2021actionclip, hanoonavificlip}。我们采用类似的方法,以语言对齐的大视觉助手(LLaVA)\cite{liu2023llava} 作为我们的基础。
LLaVA 是一个 LMM,它将 CLIP \cite{radford2021learning} 的视觉编码器与 Vicuna 语言解码器 \cite{vicuna2023} 集成在一起,并在生成的教学视觉语言数据上进行端到端微调。我们使用视频指令数据微调该模型,使其适应视频对话任务。在我们提出的指令生成设置中,视频指令数据是作为手动和自动管道的组合而获得的。这种对视频特定指令的适应允许适应视频数据中存在的附加时间动态、帧到帧一致性和远程关系。因此,我们的 Video-ChatGPT 在视频推理、创造力以及对视频中空间、时间和面向动作的组件的理解方面表现出色。
3.1 Architecture
我们使用 CLIP ViT-L/14 作为视觉编码器,它是在 LLaVa 中使用大规模视觉指令调整进行预训练的。然而,LLaVa 视觉编码器适用于图像,我们对其进行修改以捕获视频中的时空表示。给定视频样本 V i ∈ R T × H × W × C V_i \in \mathbb{R}^{T \times H \times W \times C} Vi∈RT×H×W×C 共 T T T 帧,视觉编码器生成时间和空间特征。
视觉编码器将 T T T 帧独立编码为一批图像,并生成帧级嵌入 x i ∈ R T × h × w × D x_i \in \mathbb{R}^{T \times h \times w \times D} xi∈RT×h×w×D,其中 h = H / p , w = W / p h=H /p,w=W/p h=H/p,w=W/p。这里 p 是补丁大小(即 ViT-L/14 的 14),我们将标记的数量表示为 N N N,其中 N = h × w N = h \times w N=h×w。帧级嵌入沿空间维度进行平均池化,以获得 \textit{视频级时间表示} t i ∈ R T × D t_{i} \in \mathbb{R}^{T \times D} ti∈RT×D。该操作通过多个帧的聚合隐式地结合了时间学习。类似地,帧级嵌入沿着时间维度进行平均池化,以产生 \textit{视频级空间表示} z i ∈ R N × D z_{i} \in \mathbb{R}^{N \times D} zi∈RN×D。将时间和空间特征连接起来得到视频级特征 v i v_{i} vi,
v i = [ t i z i ] ∈ R ( T + N ) × D . \begin{equation} v_{i} = [t_{i} \quad z_{i}] \in \mathbb{R}^{(T+N) \times D}. \end{equation} vi=[tizi]∈R(T+N)×D.一个简单的可训练线性层 g g g,将这些视频级特征投影到语言解码器的嵌入空间中,将它们转换为相应的语言嵌入标记 Q v Q_{v} Qv,
Q v = g ( v i ) ∈ R ( T + N ) × K . \begin{equation} Q_{v} = g(v_{i}) \in \mathbb{R}^{(T+N) \times K} . \end{equation} Qv=g(vi)∈R(T+N)×K.请注意,函数 g g g 充当适配器,也可以使用更复杂的体系结构来实现。然而,我们选择了一种简单的设计,与我们实验中更复杂的选择相比,它能提供具有竞争力的性能。
文本查询被标记为相同的维度, Q t ∈ R L × K Q_{t} \in \mathbb{R}^{L\times K} Qt∈RL×K。这里 L L L表示文本查询的长度。
最后, Q v Q_{v} Qv 与 Q t Q_{t} Qt 连接并输入到语言解码器。
3.2 Video Instruction Tuning
我们利用 LLM 的原始自回归训练目标,对预测标记进行指令调整。预训练模型通过精心策划的高质量视频文本对进行微调。在微调阶段,我们使用基于以下模板的预定义提示:
USER: <Instruction> <Vid-tokens> Assistant: \texttt{USER: <Instruction> <Vid-tokens> Assistant:} USER: <Instruction> <Vid-tokens> Assistant:
使用符号,我们可以将其表示为,
\texttt{USER: < Q t Q_{t} Qt> < Q v Q_{v} Qv> Assistant:}
在此提示中, \texttt{< Instruction >} 表示与视频相关的问题,从视频-问题-答案对的训练集中随机采样。问题可以是一般性的,要求描述视频,也可以涉及视频内容的特定时间、空间或创意方面。预测答案 \texttt{< Answer >} 对应于所提出的具体问题。在整个训练过程中,视频编码器和 LLM 的权重保持冻结,并且模型通过调整线性层来最大化预测代表答案的标记的可能性。因此,视频特征 Q v Q_{v} Qv 与预先训练的 LLM 词嵌入保持一致,使 Video-ChatGPT 能够产生更自然、更可靠的响应。
4 Video Instruction Data Generation
在本节中,我们讨论以数据为中心的方法,该方法使用人工辅助和半自动注释方法来生成高质量的视频教学数据。这些数据对于训练 Video-ChatGPT、确保做出准确且有意义的响应至关重要。我们的数据收集涉及两种关键方法。 \textit{人工辅助注释}涉及专家注释者分析视频内容并提供详细描述。这个过程会生成丰富的上下文和细节的数据,这有助于我们的模型理解视频内容的复杂方面。
另一方面,\textit{半自动注释框架}更具成本效益和可扩展性。该方法利用最先进的视觉语言模型,生成广泛、大量的注释,从而在不显着影响质量的情况下增加数据量。
通过这些组合方法,我们成功积累了 100,000 个视频指令对的强大集合。这个广泛的数据集对于微调我们的模型以有效理解视频内容、将空间和时间线索整合到其理解中至关重要。
我们的instructional 数据既多样化又全面,包含多种数据类型。其中包括详细描述、总结、问答对、激发创造力或产生新想法的任务以及对话任务。这些数据涵盖了广泛的概念,从视觉外观和时间关系到复杂的推理任务等等,为我们的模型提供了多样化的训练基础。
4.1 Human-assisted Annotation
在此过程中,我们利用包含视频字幕对的数据集,并利用人类注释者的专业知识来丰富原始的地面实况注释。具体来说,我们使用 ActivityNet-200\cite{caba2015activitynet} 的一个子集,它提供了不同视频片段中各种活动的简明基本事实描述。
注释者通过添加有关物理外观、时空定位以及其他关键上下文细节的综合信息,进一步丰富了字幕。图 2 显示了如何使用人工辅助注释来丰富地面实况标题的示例。
4.2 Semi-automatic Annotation Framework
除了丰富的人工辅助注释之外,我们还利用先进的密集图像视觉语言模型的功能,开发了半自动注释框架。这种方法具有成本效益且可扩展,从而在不显着影响质量的情况下增加数据数量。
与人工辅助过程类似,该框架也利用包含视频字幕对的数据集。我们使用从现成的密集预测和基于图像的字幕视觉语言模型中提取的上下文信息来丰富这些数据集。这些模型提供的预测可以提供额外的上下文信息,从而丰富视频字幕。我们开发了一种综合方法,将这些预测结合起来,并利用特定模型来消除数据中的噪声或不相关的上下文。这确保了数据保持其准确性和相关性。
在使用现成模型的基础上,我们应用 BLIP-2 \cite{blip-2} 和 GRiT \cite{wu2022grit} 等预训练模型来进行视频中的关键帧分析。 BLIP-2 图像字幕模型生成帧级字幕,而 GRiT 密集字幕模型则为场景对象提供详细字幕。此外,预训练的 Tag2Text \cite{huang2023tag2text} 模型用于为视频的每个关键帧生成标签。尽管它们很实用,但这些模型可能会给数据带来噪音。
为了确保高质量的数据并减少噪音,我们实施了三个关键步骤。 \emph{首先,}我们对所有现成模型保持较高的预测阈值,以保持准确性。 \emph{其次,}我们采用专门的过滤机制,从 BLIP-2 或 GRiT 中删除与 Tag2Text 帧级标签不匹配的任何帧级标题。此过程涉及从预定义 Tag2Text 标签词汇表内的帧级标题中提取单词,并消除包含不在给定帧的标签中的单词的任何标题。该策略充当附加过滤层,并通过集成多个模型的预测来丰富标题。
在\emph{third}步骤中,我们合并帧级字幕并使用GPT-3.5模型生成单一的、连贯的视频级字幕。此步骤使用这些模型的上下文来增强原始的地面实况标题。我们还指示 GPT-3.5 丢弃跨帧的不一致信息,确保精确、上下文丰富的视频指令数据集。图3, 4说明了如何在所有三个细化阶段之后使用此过程来丰富地面真实标题,以生成指导数据和详细的描述性标题。我们设计的所有情境学习提示以及精选数据集都将公开。
4.3 GPT-Assisted Postprocessing
最后,我们实现了 GPT 辅助后处理机制,可以细化和优化丰富的注释,以生成高质量的视频教学数据。我们提示 GPT-3.5 模型使用上下文学习从涵盖各个方面的丰富且详细的标题创建问答对。这些方面包括详细描述、总结、问答对、激发创造力或产生新想法的任务以及会话任务。
这些元素中的每一个都在我们以数据为中心的方法中发挥着至关重要的作用。我们的最终目标是创建一个基于视频的对话模型,该模型准确,能够从空间和时间线索理解视频内容,并善于参与对话。
5 Experiments
5.1 Implementation Details
我们使用 LLaVA (Liu et al., 2023) 作为我们的基线模型,并在我们的 100K 视频指令对上对其进行微调。我们只更新将视频特征投影到 LLM 输入空间的线性层,而架构的其余部分保持冻结。我们使用 2e−5 的学习率和 32 的总体批量大小对模型进行了 3 个 epoch 的微调。我们在所有实验中使用 7B 参数模型,其训练在 8 个 A100 40GB GPU 上花费了大约 3 个小时。在推理过程中,为了提高内存效率,我们以 FP16 模式加载模型。
在我们的半自动注释框架中,我们使用 Katna(KeplerLab,2019)来提取视频关键帧。对于现成的 Tag2Text (Huang et al., 2023) 模型,我们使用 Swin-B 变体,输入大小为 384×384,置信度阈值为 0.7。对于 GRIT (Wu et al., 2022),我们使用 ViT-B 版本和 CenterNet2 (Zhou et al., 2021)。
5.2 Quantitative evaluation
在本节中,我们强调我们工作的一个关键贡献:使用高级指标对 VideoChatGPT 进行定量评估以及与现有最先进模型的比较评估。我们进行两种类型的定量评估:i)基于视频的生成性能基准测试和ii)零样本问答评估。
Video-based Text Generation Performance Benchmarking: \textbf{Video-based Text Generation Performance Benchmarking: } Video-based Text Generation Performance Benchmarking: 我们引入了一个基准来评估基于视频的对话模型的文本生成性能。为此,我们根据 ActivityNet-200 数据集 \cite{caba2015activitynet} 策划了一个测试集,其中包含具有丰富、密集的描述性字幕的视频以及来自人工注释的相关问答对。我们还使用 GPT-3.5 模型开发了一个评估管道。该管道评估模型的各种功能,并在以下五个方面为生成的预测分配 1-5 级的相对分数:
\textit{Correctness of Information:} 我们验证生成文本的准确性,确保其与视频内容一致并且不会误解或误导。\textit{Detail Orientation:} 我们评估模型响应的深度,寻找完整性(这意味着模型的响应涵盖视频中的所有主要点)和特异性(表示模型响应中包含特定细节而不仅仅是通用点)。\textit{Contextual Understanding:} 我们评估模型对视频上下文的理解,检查其响应是否与视频内容的整体上下文一致。\textit{Temporal Understanding:} 我们在回答问题时检查模型对视频中事件时间顺序的掌握。\textit{Consistency:} 我们评估模型在不同但相似的问题或视频不同部分的一致性。我们使用表 1 中的定量基准框架展示了我们提出的模型 Video-ChatGPT 的评估结果。结果表明,与最近推出的当代视频对话模型、Video Chat \cite{2023videochat}、LLaMA Adapter \cite{gao2023llamaadapterv2} 和 Video-LLaMA \cite{damonlpsg2023videollama} 相比,其在所有关键方面的性能都表现出色。 Video-ChatGPT 显示出良好的性能,这主要归功于我们执行的指令调整及其简单的架构,该架构利用了 LLM 和针对视频数据进行微调的预训练视觉编码器。这为其提供了从视频输入生成上下文相关、详细且时间准确的文本的强大能力。
Zero-Shot Question-Answer Evaluation: \textbf{Zero-Shot Question-Answer Evaluation: } Zero-Shot Question-Answer Evaluation:
我们使用几个常用的开放式问答数据集进行了全面的定量评估:MSRVTT-QA \cite{xu2017video}、MSVD-QA \cite{xu2017video}、TGIF-QA FrameQA \cite{jang2017tgif} 和 ActivityNet-QA \引用{yu2019activitynet}。这些评估以零样本的方式进行,采用 GPT 辅助评估来评估模型的能力。此评估过程衡量模型生成的预测的准确性,并分配 1-5 级的相对分数。
为了对 Video-ChatGPT 进行基准测试,我们将其性能与其他重要模型进行了比较,例如 FrozenBiLM \cite{yang2022zero} 和生成视频模型、Video Chat、LLaMA Adapter 和 Video-LLaMA。 FrozenBiLM 是一种模型,它将在 Web 规模纯文本数据上预训练的冻结双向语言模型调整为多模态输入,在零样本 VideoQA 设置中显示出有希望的结果。尽管这些模型建立了坚实的基础,但 Video-ChatGPT 的表现始终优于它们,在所有数据集上实现了最先进的 (SOTA) 性能。这些结果表明 Video-ChatGPT 能够理解视频内容并生成准确、上下文丰富的问题答案。
5.3 Ablations
Impact of Semi-Automatic Annotations: \textbf{Impact of Semi-Automatic Annotations: } Impact of Semi-Automatic Annotations: 我们在两个子集上训练 Video-ChatGPT:一类带有人工注释(占我们数据的 30%),另一类带有半自动注释(70%)。表.3中的结果表明,仅使用人工注释数据或半自动生成的数据进行训练会产生良好的性能。 由于这种情况下可用的标签数量有限(所有数据的 30%),仅使用人工生成的数据时的整体性能最低。然而,当使用组合数据集进行训练时,可以获得最佳结果。
Quantitative Evaluation with GPT-3.5 : \textbf{Quantitative Evaluation with GPT-3.5}: Quantitative Evaluation with GPT-3.5:
考虑到使用 GPT-3.5 带来的限制(通过 API 访问且不是开源的),我们使用开源 LLM Vicuna-1.5 (13B) \cite{vicuna2023} 进行评估。
表.4 中的结果与最初的 GPT-3.5 评估相比,在正确性、细节、上下文和时间理解以及一致性方面显示出相似的趋势。
这确保了我们的评估方法保持可访问性和可复制性。
Ensuring Automatic Annotation Pipeline Consistency: \textbf{Ensuring Automatic Annotation Pipeline Consistency:} Ensuring Automatic Annotation Pipeline Consistency:
为了确保我们的自动评估流程和人工评估之间的一致性,我们使用 50 个随机采样的视频进行了盲测,比较来自人工和半自动注释源的 QA 对。区分两者的准确率达到 52%,证明了我们半自动数据的可靠性,证实了我们的质量控制有效地将自动评估与人类判断标准保持一致。
6 Conclusion
在这项工作中,我们提出了 Video-ChatGPT,这是一种多模式模型,它将预训练的视觉编码器与大语言模型 (LLM) 相结合,以实现基于视频的视频理解和对话。 Video-ChatGPT 利用预先训练的 LLM 和视觉主干之上的适配器,并根据视频指令数据进行微调,以捕获时空序列中的时间动态和空间一致性关系。创建包含 100,000 个视频指令对的数据集,以增强 Video-ChatGPT 的视频特定理解和对话能力。这项工作还引入了一个定量视频对话评估框架,用于基准测试、评估各种功能的模型,包括传统的视频问答和开放式描述。
7 Limitations
虽然该模型在多种场景中表现具有竞争力,但我们发现理解长视频( > > > 2 分钟)中微妙的时间关系具有挑战性,这可能会影响其预测性能。此外,它很难识别小物体的细节,常常会丢失这些细节中嵌入的附加信息。
8 Potential Risks
与任何其他 AI 模型一样,必须谨慎处理 Video-ChatGPT,以防止滥用并确保其坚持公平、透明和尊重用户隐私的原则。
我们共同努力在 Video-ChatGPT 的数据集创建阶段最大限度地减少偏差。尽管做出了这些努力,重要的是要认识到残余偏见持续存在的可能性。使用我们的模型时应注意这些潜在的偏差,它们可能会微妙地影响模型对视觉内容的理解和响应。我们鼓励所有用户在应用 Video-ChatGPT 时考虑这些限制,并努力在所有情况下以符合道德和负责任的方式使用。
9 Use of Data and AI Assistant
我们根据 ActivityNet-200 数据集 \cite{caba2015activitynet} 的子集来整理数据集,该数据集根据 MIT 许可证分发,可用于研究。
此外,GPT 模型的使用遵守 \cite{openai}。
尊重源许可证信息,我们将在 MIT 许可证下发布本工作中创建的所有数据集。
10 Human Annotations
半自动数据集管理涉及人工注释。为注释者提供了简明的视频字幕基本事实。给出了具体说明,通过对视频内容的全面描述来丰富字幕,特别关注时间和空间细节。他们收到具体指示,以在纠正过程中消除语气和偏见。
11 Qualitative Evaluation
我们利用来自 ActivityNet 和 YouTube 的各种视频,对各种开放式视频问答任务的模型进行了广泛的评估。评估任务包括视频推理(图5)、创造性和生成任务(见图6)、空间理解(图7)、动作识别(图8)、视频对话(图9)、问题回答(图7)。 10)和时间理解(图11)。我们的模型展示了理解视频内容并在多个基于视频的任务中生成准确响应的能力。我们的模型可以有效地理解视频中存在的视觉信息并提供精确的答案(见图 5 至 11)。