整理 | 王启隆
出品 | AI 科技大本营(ID:rgznai100)
一分钟速览新闻点!
Stack Overflow 挺进 OpenAI 合作,用户抗议遭封号:知识版权战火升级!
Stability AI 携 Stable Artisan 进军 Discord
Mistral AI 计划 60 亿估值融资
Adobe AT-EDM 框架实现无训练注意力驱动
前谷歌员工创立 ElevenLabs,AI 一键生成生成歌曲
Gemma 2B-10M Context:千万级上下文窗口的 AI 模型新突破
“初心” 1.6B 开源模型:百万 token 处理能力开辟 AI 透明研究
E-LatentLPIPS:使 AI 绘画更快更高效
全球 AI 要闻
Stack Overflow 挺进 OpenAI 合作,用户抗议遭封号:知识版权战火升级!
知名开发者问答平台 Stack Overflow 近日宣布与 OpenAI 达成协议,将用户生成的内容用于训练 ChatGPT,此举瞬间引爆社区,引发用户强烈反弹。一名 Epic Games 开发人员因不满合作条款,尝试修改个人帖子以示抗议,随即遭到平台一周封号处理。该用户表示,此合作无异于剥削所有贡献者劳动成果,且 OpenAI 过往记录显示其可能传播不准确信息,同时拒绝向创作者支付报酬。
Stack Overflow 方面则强调,用户发布内容即成为集体贡献的一部分,除非特殊情况不应删除。平台虽允许删除未获回应的帖子,但鼓励保留可能对他人有益的信息。此外,有用户质疑为何合作缺乏“退出选项”,并就法律上是否应享有合作收益提出疑问,凸显出公共论坛数据所有权及个人数据权益的复杂争议。
值得注意的是,Stack Overflow 此前曾禁止使用 ChatGPT 等 AI 工具撰写或修改内容,而今立场转变,似乎在追求 AI 带来的经济效益同时,与用户立场形成鲜明对立。
Stability AI 携 Stable Artisan 进军 Discord
Stability AI 在 Discord 上推出 Stable Artisan 机器人,标志着其文本和视频生成技术的新应用里程碑。用户现可直接在平台上利用 SD3 和 SVD 创造图像与视频,体验一系列编辑定制功能,如智能对象替换、背景消除、画质提升至 4K 等。服务采用积分制计费,含免费试用期,月费自 9 美元起,满足不同需求层次。
尽管 Stable Artisan 目前未集成音频生成或代码、文本模型,Stability AI 正研发多功能聊天机器人 Stable Assistant,结合文本转图像与语言模型技术,旨在通过自然对话辅助用户完成多样化任务。
Mistral AI 计划 60 亿估值融资
巴黎新兴人工智能企业 Mistral AI 近期宣布,正寻求以高达 60 亿美元的估值,筹集约 6 亿美元资金,这家仅成立一年有余的公司,凭借开源策略及在大型语言模型(LLMs)领域的突破性进展,迅速崛起为 AI 行业的瞩目新星。Mistral AI 的技术创新,特别是其推出的 Mixtral 8x22B 模型,采用“专家混合”架构,有效提升了效率并降低了硬件需求,在基准测试中紧追 Meta Platforms Inc. 的 Llama 3 等成熟模型。这成为其估值短期内从 20 亿美元跃升至 60 亿美元的关键因素之一。
Adobe AT-EDM 框架实现无训练注意力驱动
Adobe Research 携手普林斯顿大学的研究团队近日发布了 AT-EDM 框架。该框架革命性地运用注意力映射,在推理过程中实时剔除冗余令牌,无需再次训练,实现了模型效率的显著提升。该框架结合“广义加权 PageRank”策略与动态剪枝调整,实现在维持与原模型相媲美图像质量和多样性基础上,平均减少 38.8% 计算量,并使处理速度提升最高至 1.53 倍。
论文名称:Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models
项目链接:https://atedm.github.io/
论文链接:https://arxiv.org/abs/2405.05252
前谷歌员工创立 ElevenLabs,AI 一键生成生成歌曲
语音 AI 初创公司 ElevenLabs 正向公众展示其最新力作——一款能够将文字提示转化为歌曲歌词的创新型 AI 模型。该公司借鉴 OpenAI 发布视频生成 AI “Sora” 时的成功策略,通过社交媒体征集创意,将其转化为独特歌词,引发广泛关注。ElevenLabs 目前未透露模型最长生成歌曲时长,但从设计主管 Ammaar Reshi 展示的示例推测,三分钟歌曲创作应在其能力范围内。
演示链接:https://elevenlabs.io/
Gemma 2B-10M Context:千万级上下文窗口的 AI 模型新突破
Gemma 2B 最新迭代引入 10M Context 版本,凭借独创的循环局部注意力技术和 CUDA 优化,实现在 32GB 内存环境下处理千万字符序列,极大推进了语言模型的边界。该技术结合 InfiniAttention 与 Transformer-XL 理论,通过局部注意力区块的循环应用,有效解决了大规模序列处理中的内存限制问题。目前模型尚处初步阶段,未来将深化训练,提升表现。用户可轻松通过 Huggingface 部署并定制化文本生成任务,探索 AI 文本理解与创作的新高度。
开源项目链接:https://huggingface.co/mustafaaljadery/gemma-2B-10M
“初心” 1.6B 开源模型:百万 token 处理能力开辟 AI 透明研究
近日,一篇论文介绍了一种「完全开源」的语言模型“ChuXin”,该模型具有 16 亿参数的规模。与大多数仅开放模型权重和架构的工作不同,论文提供了训练模型所需的一切,包括训练数据、训练过程和评估代码。论文的目标是增强和加强开放研究社区,促进透明度并在语言建模领域引领创新浪潮。
该论文通过轻量级持续预训练将上下文长度扩展到 100 万个 token,采用优化的 LLaMA-2 架构,融合先进训练技术,如 FlashAttention-2 与混合精度训练,初心在多项基准测试中展现强劲性能,尤其在中文任务上表现突出。通过调整基频技术和分布式注意力框架,模型在保证短序列任务性能的同时,实现了长序列数据高效处理。
论文名称:ChuXin: 1.6B Technical Report
论文链接:https://arxiv.org/pdf/2405.04828
开源项目链接:https://huggingface.co/chuxin-llm/Chuxin-1.6B-Base ; https://huggingface.co/chuxin-llm/Chuxin-1.6B-1M
E-LatentLPIPS:使 AI 绘画更快更高效
由 POSTECH、Adobe Research、首尔国立大学及卡内基梅隆大学的跨机构研究团队提出了一项创新方法,成功将复杂的多步扩散模型精简为单步条件生成对抗网络(GAN)模型,不仅显著加速了推理速度,同时保持了图像质量。研究人员成功将多步扩散模型精炼为快速的单步条件 GAN,通过将蒸馏任务构想为噪声到图像的转换问题,并创新性地提出了 E-LatentLPIPS——一种融合增强集的潜在空间感知损失函数,有效加速了模型训练并维持图像质量。此研究还包括了一个与文本对齐的多尺度判别器,使条件 GAN 构建更为高效。实验表明,该方法在 COCO 基准上超越了 SDXL-Turbo 和 SDXL-Lightning 等先进模型,为图像生成技术树立了新标杆。
论文名称:Distilling Diffusion Models into Conditional GANs
项目链接:https://mingukkang.github.io/Diffusion2GAN/
论文链接:https://arxiv.org/abs/2405.05967