当前位置:首页 » 《休闲阅读》 » 正文

GenAI---生成式AI的简介

23 人参与  2024年04月19日 17:10  分类 : 《休闲阅读》  评论

点击全文阅读


什么是Foundation Models?

Foundation Models和我们以往传统的机器学习模型,也就是Traditional ML Models之间的区别。我们可以看到以往的机器学习模型,通常针对每一个不同的任务,我们需要一个单独的模型。这个过程之中我们还需要收集数据进行对应的训练。而Foundation Models通常一个模型就可以完成以前不同模型需要完成的多个任务,很多时候通过调整提示词就可以达到优化模型效果的作用。

文字方向

        公开可获得的模型:Llama、Falcom、Mystro

        闭源的:Anthropic旗下的Claude模型、Cohere旗下的Command模型

        模型兼顾多语种的能力: Misto AI兼顾西语和英语,同时有独特的Moe结构,也就是我们常说的Mixture OF Experts的结构,使得它在模型参数级相当的情况下推理速度更快

        百川模型,智谱旗下的Chad GLM模型

视觉方向

跟SD相关的插件,比如熟知的Web UI以及现在被大家广泛认可的Comfy UI

Comfy UI目前设计师门都在用,它可以以json的形式非常轻便的导出,便于各个部门之间去进行协作,它在进行部署时,也有非常轻便非常敏捷的优势

文字生成视频

        stable Video diffusion以及Animative这两者都可以做到,在不需要大型训练的情况下,将文字转成视频

        Heygen

文字生成3D

        通过Luma AI旗下的文字生成3D模型,结合自己的头显设备。

        Meshy

文字转声音,声音转文字。

声音的克隆

        比如我念一段文章,AI就可以学习我的声音去念更多的文章,这个我们叫声音克隆

speach to speach同声传译

        在说话的同时可以转成另外的语言。这个过程有两个难点:

第一个难点是:我的两种不同语言的对话翻译是一步到位的。

第二点是:我翻译之后的语音和我翻译之前的语音长度要保持一致。

达到这两点之后,我们将会对声音匹配视频产生更多的应用场景的联想。

Bark

github上找到GPT Sovitus Web UI

Meta旗下发布的Seamless M4T 模型

IIElevenLabs

Heygen

比如COG VLM

AI 智能体

常见AGI的流程:

        当一个任务传递给大模型之后,首先他会哦通过chain of salt的形式去拆解任务,并识别出第一步应该做什么。它会思考是否要进行网络上的搜索,或者调用配备好的知识库,还是通过之前已有的先验知识进行回答。

应用场景

        智能体与我们进行多模态的交流。通过json格式去训练微调模型,让模型学会不同的语言风格,比如温柔的,幽默的、讽刺的。

   

每次说一句话,好感度的提升或下降。适用于游戏剧情类

要拥有模型级服务,就是我们常说的MAS服务

还有就是增加长短期记忆的模块,多以向量数据库为实现的底座。

最后就是增加行动的能力,为大模型增加规划、反思和工具调用的接口。

优点是快速的进行自然语言查询,而不需要Seq编码


点击全文阅读


本文链接:http://zhangshiyu.com/post/97721.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1