当前位置:首页 » 《资源分享》 » 正文

玩音乐的人写的Suno.ai教程就是不一样!全球大模型汇总清单(持续更新);深度盘点文生图&文生视频;AI Native工作流即将崛起 | ShowMeAI日报

8 人参与  2024年04月11日 18:52  分类 : 《资源分享》  评论

点击全文阅读


? YC官网公布 4000+ 创业公司详细信息,20年追风逐浪

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

www.ycombinator.com/companies

补充一份背景:Y Combinator (简称YC) 是全球知名的创业孵化器,不仅为创业者提供资金支持,还提供一系列的资源和服务来帮助解决创业过程中的各种问题。

YC 独特的投资策略和敏锐的洞察力一直备受好评,其投资成绩也很显著,大量独角兽公司已经脱颖而出。现在炙手可热的 Sam Altman 曾经是 YC 总裁 ?

YC 官网可以查看所有创业公司详细信息了!!

2005年以来,YC 已经投资 4000+ 创业公司了,合起来的总估值也已经超过了 6000 亿美元。

YC官网上线了「Startup Directory」页面,可以按照 Batch、Industry、Region、Tags、Company Size 维度对其投资的所有公司进行检索,还支持关键词搜索。检索结果列表包含公司的简要信息,点击可以看到每家公司的详情页,非常具体全面!!

如果你对 YC 的投资历史和动向感兴趣,那么可以研究起来了 ?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

www.ycombinator.com/companies/i…

YC 还设置了一个生成式AI专题页面「Generative AI Startups funded by Y Combinator (YC) 2024」,包含100家 YC 投资的 GenAI 相关初创企业

YC 的投资动向一直是硅谷创业的风向标之一。如果你也想投身 GenAI 创业的浪潮,记得跟上 YC 的节奏~

? 中美之外,还有哪些大模型?这里有份「比较完整」的全球大模型名单

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

补充一份背景:中美大模型太多了,日报只列举最常被提及的一些;其他国家和地区的大模型信息很少,努力查找但难免疏漏~

? 美国 (部分)

GPT-4:OpenAI 发布,拥有超过1万亿参数,支持32768个令牌的最大上下文长度PaLM 2 (Bison-001):谷歌发布,专注于常识推理、形式逻辑、数学和多语言处理Gemini:谷歌发布,是原生多模态AI模型,包含文本、图像、音频、视频和代码Claude:Anthropic 发布,接近 GPT-4 的性能,专注于构建有用、诚实和无害的AI助手LLaMA:Meta AI发布,从 70 亿到 650 亿参数不等的系列开源大语言模型**Vicuna 33B:LMSYS 发布,基于 330 亿参数训练的开源大模型

? 中国 (部分)

悟道:智源人工智能研究院发布,参数达到 1.75 万亿文心一言:百度发布,基于文心大模型盘古:华为发布,包含 CV 和 NLP 两类大模型通义:阿里巴巴发布,包含 NLP、视觉和多模态大模型星火:科大讯飞发布,具有跨领域知识和语言理解能力ChatGLM:清华大学发布,支持中英双语的对话语言模型书生·浦语 (InternLM):上海人工智能实验室发布,多语千亿参数基座模型baichuan:百川智能发布,开源可商用的大规模预训练语言模型kimi:月之暗面 (MoonShot) 发布,支持超长文本处理云雀:字节跳动发布,可以在「豆包」「扣子」等产品种使用混元:腾讯发布,万亿中文 NLP 预训练模型Yi:零一万物发布,拥有超长上下文窗口的开源模型

? 欧洲

Mistral / Mixtral:法国 Mistral AI 公司发布,7.3 亿参数,击败其他开源模型Luminous:德国 Aleph Alpha 公司发布,700 亿参数,注重安全和隐私BLOOM:Hugging Face 发起,1760 亿参数,注重伦理考量和可访问性

? 韩国

HyperCLOVA:Naver 发布,2040 亿参数,针对韩语的大模型KoGPT:Kakao Brain 发布,基于 GPT-3 的韩语模型Exaone:LG AI Research 发布,3000 亿参数的多模态模型A.:SKT 发布,全球首个韩语大语言模型

? 日本

HyperCLOVA:NAVER 和 LINE 发布,针对日语的大语言模型Rinna:微软日本发布,基于 GPT-2 的日语聊天机器人ELYZA Pencil:ELYZA Co., Ltd. 发布,生成式AI产品open-calm:CyberAgent 训练的 70 亿参数基础模型Stormy-7b-10ep:Izumi-Lab 在 open-calm 上微调的版本

? 其他

YaLM:俄罗斯模型,1000 亿参数,免费供全球开发者使用Falcon:阿联酋技术创新研究所发布,多语言开源大模型NOOR:阿联酋发布,100 亿参数的阿拉伯语 NLP 模型AI21 Labs:以色列公司发布,拥有 Jurassic-2 基础大模型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

? 玩音乐的人写的 Suno 教程就是不一样:真正的从0到1,顺带补乐理知识

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

www.suno.ai

补充一份背景:Suno.ai 是一个基于AI的音乐创作平台,可以根据用户输入的简单提示词生成带有伴奏和人声的音乐,自发布之后就疯狂刷榜 ? 因为生成的音乐真的很!好!听!

我们曾经在 ⋙ 这篇日报 里介绍过 Suno.ai 和 匹配的提示词教程

但是!社群的小伙伴在一起玩时,遇到了一个很棘手的问题:怎么把生成的片段拼成一首完整的歌呢

这就要熟练地结合乐理知识来设计提示词了?!嘶……感觉需要很深的行业 Know-How 哇 ?‍♀️

然后这篇教程就出现了!作者用 7500 字非常详细地介绍了 Suno 的使用方法,从最基础的操作界面讲起,细致列出了音乐领域提示词技巧,介绍了最常用的辅助工具和拓展资源,还整理了常见问题与解决方案!!最难得的是,在涉及到乐理知识的部分有简明扼要的补充,帮助我们快速 get 操作的背后原理 ???

也就是说,跟着这份教程操作,我们真的可以搞定「提示词 → 音乐片段 → 一首完整歌」的全部流程啦!

这样具有行业知识的高水平的教程,请多来一点,我们真的很需要! ⋙ 阅读原文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Chirp 是 Suno 公司发布的「文本生成音乐」模型,目前已经进化到 Chirp V2 版本

? Part 1-2: 简介 & Chirp 操作流程

网页版最大生成时长1分20秒,延续最大时长60秒Explore、Create、Library、Credits、Subscribe 的页面布局和详细介绍

? Part 3: Chirp 基础知识

Chirp 支持的语言:支持多种语言,并且能够自动检测并使用正确的语言进行演唱元标签 (Metatags):元标签是一种特殊的提示,用于在创作内容时提供方向性指引两类特色功能 风格提示 (Style Prompting):在提示框中输入完整的句子,或者由逗号隔开的一系列乐器、音乐元素、流派、风格词汇⭐ 写好风格提示词的建议和注意事项歌词提示 (Lyric Prompting):通过元标签来引导后面的歌词、歌曲结构、音乐风格,一定程度上为歌词提示功能减负⭐ 歌词提示的书写格式知识科普:歌词结构包含 Intro (引子或前奏)、Verse (诗歌部分 / 主歌)、Chorus (合唱部分 / 副歌)、Bridge (桥接部分)、Outro (尾奏)、Pre-Chorus (前副歌)(可选) 、间奏 (Interlude)(可选)

? Part 4: 辅助工具

Sonoteller sonoteller.ai智能的音乐分析网站,输入 YouTube 链接可生成包含歌曲的分析报告 Every noise at once everynoise.com音乐流派分类网站,点击流派名称就可以播放对应的音乐示例 Chosic www.chosic.com提供音乐信息和强大的搜索功能 音乐术语查询器 nicechord.com/terms通过搜索栏查找音乐术语的定义 维基百科音乐术语大全 en.wikipedia.org/wiki/Glossa…提供详细的音乐术语解释和相关信息

? Part 5: Chirp 进阶知识

Chirp的采样特性:在第一个生成片段的最后10秒进行采样并应用于后续片段,保持歌曲的连贯性和一致性元标签的书写技巧:支持不同格式的括号,内容可以是名词、形容词+名词、句子(尽可能短) 等 ⭐ 常用格式清单

? Part 6: 实战

歌曲生成 使用常见的歌曲结构 [intro]—[verse 1]—[chorus]—[verse 2]—[chorus]—[bridge]—[chorus]—[outro]⭐ 前奏:生成「独立前奏」的四种操作方法,解决前奏过长或不唱歌词的方法,指定乐器演奏的方法⭐ 主歌与副歌:主歌与副歌之间自然过渡的方法⭐ 结尾部分:控制生成需要的尾奏 纯音乐生成 ⭐ 生成纯音乐的两种操作方法⭐ 生成没有人声的伴奏的两种操作方法

? Part 7: 更多

SunoBeats GPTs:质量很高,尤其对流派和风格的把控很准,能满足日常需求非官方Suno wiki:www.notion.so/suno-ai-wik…

? Part 8: 常见问题与解决方案

歌词延续:如果歌词被切断,应在下一个片段中接上,但避免重复使用被中断的元标签器乐过渡:在器乐部分结束后,可以通过添加语气词或使用特定的元标签来提示Chirp进入歌词部分生成错误:如果遇到“无法生成”或“尝试另一个提示”的错误,可能是由于版权、使用真实乐队或艺术家名称、违规词汇或积分用尽等原因

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

? a16z 最新洞察 | prosumer (producer-consumer) 的未来:AI Native工作流的崛起

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

a16z.com/the-future-…

补充一份背景:a16z (全称 Andreessen Horowitz) 是全球知名的风险投资机构,从去年开始 a16z 发布在网站的多篇 GenAI 主题分析文章都曾引起广泛关注

名词解释:prosumer 是一个合成词,由 producer 和 consumer 两个词组成,可以翻译为产消者 (生产消费者),用来描述既消费产品或服务,又参与生产过程的个人或群体。在AI领域,prosumer 可指用AI工具和技术来创造内容、解决问题或提高工作效率的个人。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

a16z 这篇文章提出的观点很棒:目前大多数AI产品仍然专注于单一功能,但是随着LLM 能力的提升,这些产品将发展出更全面的 AI Native 工作流

而且!即将出现的 GenAI Native Workflow 可以满足「用户操作简单 BUT 输出也能达到专业级别」这样曾经属于「异想天开」的要求!比如用户可以快速生成一张精美的图片,而不再需要吭哧吭哧花很长时间学 Adobe Photoshop 花样繁多的操作技巧。

GenAI使我们每个人都可以成为程序员、制作人、设计师、音乐家,把创造力和操作技巧之间的鸿沟抹平,轻松跨越 producer 与 consumer 之间的壁垒,成为身份切换自如的新一代 prosumers

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GenAI Native Workflow 产品首先要把大模型能力转化为易用高效的用户界面,然后具备以下功能点:

生成工具:真正解决「空白页面」的需求,或者把增量资产 (例如草图或大纲) 转化为更完整的产品多模态组合:可以在一个地方生成并组合多种模态的内容 (比如图片、文字、音频、视频等),不过目前还没有一个模型可以生成所有这些资源类型智能编辑器:因为生成模型的随机性使得用户有大量的修改需求,智能编辑使得内容生成的迭代更加容易,比如基于已有输出进行微调 (而不是从头开始),平台内细化:最后10%的润色工作通常是创造出好作品和伟大作品之间的区别,平台可以帮助识别哪些需要改进并自动完成可重复/可转换的输出:AI生成的内容灵活性很高,可以作为后续迭代的起点,新的工作流要允许用户在不同媒介间之间自由转换

a16z 判断未来几个月 Prosumer产品有望出现以下工具:

编辑工具的进化:期待出现能够在单一平台上完成从内容生成到编辑、混音等所有步骤的工具,例如视频编辑可能不再需要在多个平台之间切换交互模式的多样化:期待出现更多支持语音、草图等非文本交互方式的工具,以便用户以更自然的方式与AI工具合作,例如Oasis、TalkNotes 和 AudioPen 等工具可以将语音笔记转化为电子邮件、博客文章或推文平等对待人类和AI生成内容:期待工具能够平等对待人类和AI生成的内容,使它们可以无缝结合,例如 Runway 编辑工具允许用户在同一个时间线上使用AI生成的剪辑和真实资产,并使用魔法工具对两者进行编辑

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

? 一文纵览「文生图」「文生视频」技术的发展路径与应用场景

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一、主流文生图技术发展路径

横向来看,文生图的主流技术路径可分为4类纵向来看,主流文生图技术的演进路径

二、主流文生视频技术发展路径

早期发展 (2016 年以前)奠基任务:GAN/VAE/flow-based (2016-2019 年)自回归模型及扩散模型生成阶段 (2019-2023)未来发展趋势 (2024-?)视频生成模型 mapping

三、应用场景

基于闭源模型基于开源模型 ⋙ 阅读原文

? 如何将大语言模型集成到系统和产品中?一共有7种模式!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

eugeneyan.com/writing/llm…

这是一篇长文,详细讲解了将大语言模型集成到系统和产品中地7种模式,并将其按照「Data - User」「Defensive - Offensive」划分成了四个象限。

以下是这7种模式地简单介绍,原文详细且专业地讨论了模式的具体使用方式,包括评估的构建、RAG的实现、微调的方法、缓存策略、防护措施的实施以及如何通过用户体验设计来收集反馈等。感兴趣可以访问上方 ? 链接:

评估 (Evals):用于衡量模型在特定任务上的性能,包括基准数据和指标检索增强生成 (RAG):通过从外部检索相关数据并增强输入,为模型提供更丰富的上下文,以提高输出的质量微调 (Fine-tuning):通过在特定任务上进一步训练预训练模型,使其更好地完成任务缓存 (Caching):通过存储先前检索或计算的数据,减少响应的延迟和成本防护措施 (Guardrails):确保LLM输出的质量,包括验证输出的语法正确性、事实准确性和无害内容防御性用户体验 (Defensive UX):设计策略,以预见并优雅地处理用户与基于LLM的产品交互中可能出现的错误收集用户反馈:通过收集用户反馈来构建数据飞轮,这些反馈有助于改进模型、微调和防护措施

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

◉ 点击 ?日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 ?生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!


点击全文阅读


本文链接:http://zhangshiyu.com/post/94013.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1