张士玉小黑屋

一个关注IT技术分享，关注互联网的网站，爱分享网络资源，分享学到的知识，分享生活的乐趣。

当前位置：首页 » 《休闲阅读》 » 正文

GenAI---生成式AI的简介

15 人参与 2024年04月19日 17:10 分类 : 《休闲阅读》评论

点击全文阅读

什么是Foundation Models？

Foundation Models和我们以往传统的机器学习模型，也就是Traditional ML Models之间的区别。我们可以看到以往的机器学习模型，通常针对每一个不同的任务，我们需要一个单独的模型。这个过程之中我们还需要收集数据进行对应的训练。而Foundation Models通常一个模型就可以完成以前不同模型需要完成的多个任务，很多时候通过调整提示词就可以达到优化模型效果的作用。

文字方向

公开可获得的模型：Llama、Falcom、Mystro

闭源的：Anthropic旗下的Claude模型、Cohere旗下的Command模型

模型兼顾多语种的能力： Misto AI兼顾西语和英语，同时有独特的Moe结构，也就是我们常说的Mixture OF Experts的结构，使得它在模型参数级相当的情况下推理速度更快

百川模型，智谱旗下的Chad GLM模型

视觉方向

跟SD相关的插件，比如熟知的Web UI以及现在被大家广泛认可的Comfy UI

Comfy UI目前设计师门都在用，它可以以json的形式非常轻便的导出，便于各个部门之间去进行协作，它在进行部署时，也有非常轻便非常敏捷的优势

文字生成视频

stable Video diffusion以及Animative这两者都可以做到，在不需要大型训练的情况下，将文字转成视频

Heygen

文字生成3D

通过Luma AI旗下的文字生成3D模型，结合自己的头显设备。

Meshy

文字转声音，声音转文字。

声音的克隆

比如我念一段文章，AI就可以学习我的声音去念更多的文章，这个我们叫声音克隆

speach to speach同声传译

在说话的同时可以转成另外的语言。这个过程有两个难点：

第一个难点是：我的两种不同语言的对话翻译是一步到位的。

第二点是：我翻译之后的语音和我翻译之前的语音长度要保持一致。

达到这两点之后，我们将会对声音匹配视频产生更多的应用场景的联想。

Bark

github上找到GPT Sovitus Web UI

Meta旗下发布的Seamless M4T 模型

IIElevenLabs

Heygen

比如COG VLM

AI 智能体

常见AGI的流程：

当一个任务传递给大模型之后，首先他会哦通过chain of salt的形式去拆解任务，并识别出第一步应该做什么。它会思考是否要进行网络上的搜索，或者调用配备好的知识库，还是通过之前已有的先验知识进行回答。

应用场景

智能体与我们进行多模态的交流。通过json格式去训练微调模型，让模型学会不同的语言风格，比如温柔的，幽默的、讽刺的。

每次说一句话，好感度的提升或下降。适用于游戏剧情类

要拥有模型级服务，就是我们常说的MAS服务

还有就是增加长短期记忆的模块，多以向量数据库为实现的底座。

最后就是增加行动的能力，为大模型增加规划、反思和工具调用的接口。

优点是快速的进行自然语言查询，而不需要Seq编码

点击全文阅读

本文链接：http://zhangshiyu.com/post/97721.html

唯负吾心浅未眠小说全文_顾朝颜冷梵天顾汐月无弹窗在线阅读2025-12-04 00:00
月光不再照山川（苏瑾月谢沐川苏锦时）_月光不再照山川苏瑾月谢沐川苏锦时2025-12-04 21:10
玄学大佬她又去摆地摊了2025-12-04 15:56
只因儿子是秃头，我铁了心要离婚2025-12-04 16:38

<< 上一篇下一篇 >>

评论（0）

赞助本站

search zhannei

最新文章
月光不再照山川（苏瑾月谢沐川苏锦时）_月光不再照山川苏瑾月谢沐川苏锦时 一鱼娓娓的假千金暴露后，被疯批太子强夺了林绾绾谢景穆全书在线 我给冰山女总裁发黑丝，她竟是我网恋姐姐？ 月亮无爱也无恨 末日降临，我爹给我配的保镖比妖精还野 撩金与深林 协议新婚夜，我摆摊去了 摄政王，我们来世不相见 爱沉深海，岁月不再 予你一世安宁 太子爷食髓知味，夜夜诱她沉沦列表_太子爷食髓知味，夜夜诱她沉沦(程锦书贺戎年) 女友和助理偷偷领证，隔天公司年会我上台发言

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1