20240925 每日AI必读资讯

重磅！字节跳动发布豆包音乐模型和同声传译模型

- 包括音乐模型，同声传译模型、文生图2.0模型、新的基于DIT的视频生成模型S2.0、豆包通用模型pro、语音合成模型。

- 还发布了图像转视频口型同步模型和文本、音频驱动的数字人模型。

- 这些功能将全部集成到最新版的豆包、即梦AI和剪映中...

- 截至到9月，豆包大模型的日均 tokens 使用量已经超过1.3万亿，4个月的时间里 tokens 整体增长超过了10倍。在多模态方面，豆包·文生图模型日均生成图片5,000万张，此外，豆包目前日均处理语音85万小时。

- 其中豆包视频生成模型，基于DIT架构可以实现一个Prompt的多个镜头切换时，保持主体，风格，氛围和逻辑的一致性，实现导演自由。

1、音乐生成模型展示

歌词更精准：仅需几个字，就能生成情感表达精准的歌词

旋律更多样：提供10余种不同的音乐风格和情绪表达

演唱更真实：基于豆包语音能力，媲美真人演唱效果

创作门槛低：支持图片成曲、灵感成曲、写词成曲多种创作方式

2、豆包·同声传译模型：支持多语言的实时同声传译

- 实时翻译：超低延时，边说边译，实时翻译沟通无障碍

- 精准自然：翻译流畅自然、准确率高，在办公、法律、教育等场景接近甚至超越人类同传水平

- 支持音色克隆：支持跨语言同音色翻译

?详细内容点这里：https://xiaohu.ai/p/13950

OpenAI 官方账号被黑，竟推广虚假加密货币！

- 虚假广告事件:OpenAI 官方账号遭黑客攻击，发布虚假加密货币广告。

- 网络安全警示:用户需提高警惕，不轻信陌生链接和信息，避免上当受骗。

- 删除推文回应:推广加密货币推文已删除，账号回应评论关闭，提醒大家注意恶意链接。

?突发！OpenAI被黑客入侵，发布虚假加密Token激励

奥特曼罕见长文预言：人类可能在“几千天”内实现超级智能 AI

- 超级智能AI可能在未来几千天内实现，OpenAI全力以赴

- 降低计算成本和基础设施建设是推动AI普及的关键

- 当前时代被称为“智能时代”，将带来深远的社会变革

? 倒计时！奥特曼罕见长文预言：ASI几年内降临，人类奇点将至-CSDN博客

OpenAI 推理模型 o1 评估研究报告

- 准确率高达 97.8% 远超其他 LLM 模型但成本非常高

- 亚利桑那州立大学的研究人员基于 PlanBench 基准测试，评估了当前 LLMs 和新型 LRM（ OpenAI 的 o1 模型）在规划任务中的表现。

模型推理表现：

o1 模型o1 -preview模型在600个Blocksworld问题中的准确率为97.8%，这是现有模型中的最高表现，明显优于其他 LLMs。

-Claude 3.5和Claude 3的准确率分别为54.8%和59.3%。

-LLaMA 3.1 405B模型的准确率为62.6%，是LLMs中表现最好的。

-GPT-4的表现中规中矩，准确率为34.6%，而GPT-4 Turbo为40.1%。

-其他模型，如Gemini 1.5 Pro和Gemini 1 Pro的表现则明显较差。

在 Mystery Blocksworld 这种混淆版本的测试中，o1 模型也取得了 52.8% 的准确率，大幅超越其他模型。

推理时间与成本

- o1 -preview模型在每个实例上花费了大约40秒，而在Mystery Blocksworld问题上，推理时间增加到83秒。相比之下，经典的规划算法（如Fast Downward）能够以接近零成本和每个实例0.265秒的时间解决问题。

- 经济成本方面：尽管 o1 模型在某些任务上具有较高的准确性，但其推理过程非常耗时且昂贵。例如，每 100 个实例的推理成本高达 42.12 美元，远高于传统 LLM 模型的推理成本。

- 研究者在短期内对o1 模型的评估一共花费了$1897.55美元

?原报告：https://arxiv.org/pdf/2409.13373

张士玉小黑屋

当前位置：首页 » 《休闲阅读》 » 正文

29 人参与 2024年09月26日 15:20 分类 : 《休闲阅读》评论

评论（0）

赞助本站

search zhannei

最新文章