当前位置:首页 » 《关于电脑》 » 正文

AIGC实战——多模态模型Flamingo

2 人参与  2024年09月20日 13:22  分类 : 《关于电脑》  评论

点击全文阅读


AIGC实战——多模态模型Flamingo

0. 前言 1. Flamingo 架构 2. 视觉编码器 3. Perceiver 重采样器 4. 语言模型 5. FIamingo 应用 小结 系列链接

0. 前言

我们已经学习了文本生成图像模型 DALL.E 2,在本节中,我们将探索另一种多模态模型 Flamingo,它可以根据给定文本和视觉数据流生成文本。FlamingoDeepMind2022 年提出的一类视觉语言模型 (Visual Language Model, VLM),它是预训练的纯视觉模型和纯语言模型之间的桥梁。在本节中,我们将介绍 Flamingo 模型的架构,并将其与所学习的文本生成图像模型进行比较。

1. Flamingo 架构

Flamingo 的整体架构如下图所示。接下来,我们将对该模型的核心组件,视觉编码器、Perceiver 重采样器和语言模式进行介绍,以了解 Flamingo 的核心思想。


点击全文阅读


本文链接:http://zhangshiyu.com/post/162187.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1