?CTRL-F-VIDEO:允许用户在视频中搜索特定的单词或短语
- 主要针对YouTube视频,通过扩展输入想要搜索的词汇,可以直接在视频时间条上标记出匹配的词汇或相似词汇的出现的具体位置。
- 核心技术包括文本搜索和时间轴标记、音素完全匹配的识别,利用OpenAI的Whisper模型实现音频到文本的转换。
- 原理是在本地运行一个Whisper模型,将音频转换为文本再搜索。
? GitHub:http://https:/lgithub.com/Evan-Wildenhain/CTRL-F-VIDEO
? https://blink.csdn.net/details/1682822
?苹果公司在 iOS 18 中推出的首批人工智能相关功能 "将完全在设备上运行"!
- 不会连接到云服务。
- 内部在开发一种大语言模型,称为 "Ajax"。
- 基本的文本分析和回复生成功能应该可以离线使用。
- 苹果将在 6 月 10 日开始的 WWDC 大会上公布其人工智能计划。
? iOS 18 to include limited on-device AI features
⚙️ 性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元
- JetMoE-8B采用稀疏激活架构,性能卓越,训练成本不到10万美元。
- 每个MoA和MoE层有8个专家,每个输入令牌激活2个专家。
- JetMoE-8B的总参数量达80亿,但每个输入令牌仅激活约22亿参数
? https://huggingface.co/jetmoe/jetmoe-8b
?Spline 推出3D设计工具:AI 3D Generation
- 支持文本生成3D模型
- 根据提示一次课生成 4 种变体
- 2D图像转换3D图像
- 混合素材生成3D变体
-生成的3D内容可轻松集成到网站和应用中
?在线体验:Spline - 3D Design tool in the browser with real-time collaboration
?ZeST:一种从单一图像进行材质迁移的方法
- 能够在没有任何先前训练的情况下,直接将一种材质从一个图像迁移到另一个图像中的对象上。
- ZeST 不仅支持单一材质的迁移,还能处理单一图像中的多重材质编辑。
- 支持在设备上快速处理图像,无需依赖云计算或服务器端处理。
-该项目是由牛津大学、Stability AI 和 MIT CSAIL 的研究团队共同完成。
?项目及演示:https://ttchengab.github.io/zest/
? https://blink.csdn.net/details/1682798
?Reka Core:和GPT 4性能不相上下的多模态语言模型
- 能够处理文本、图像、音频,还能解析1分钟的视频。
- 各种性能测试显示,在 MMMU 方面,Core 可与 GPT-4V 相媲美。
- Reka提供三种不同规模的模型——Reka Core, Flash和Edge,以满足不同的业务需求。
? Reka AI
? https:/www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model
? 在线体验:Reka Playground
? https://blink.csdn.net/details/1682808
?B站UP主用AI“复活”巨人族,视频播放量破百万
- B站UP主利用AI技术“复活”巨人族,引发广泛关注。
- 观众讨论AI生成内容真实性,虚实界限成焦点。
- 网友组织“鉴定AI大赛”,探索视频细节。
? 真实和虚构之间的边界已经越来越模糊了_哔哩哔哩_bilibili
?DeepMind首席执行官:Google在AI上的支出将超过1000亿美元
- 目标是实现通用人工智能(AGI),需要巨额计算资源。
- 在温哥华举行的TED大会上,DeepMind CEO Demis Hassabis在谈到微软和OpenAI预计成本为1000亿美元的“星际之门”AI超级计算机时表示:Google在AI上的投资将超过这一数字。
- Hassabis强调,与Google的合作始于2014年,原因之一就是为了实现通用人工智能(AGI),需要大量的计算资源。