OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解,通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
OpenAI发布首个视频大模型Sora,一句话生成一分钟视频。Sora可以直接输出有多个角色、多种场景和运镜的画面。比如一段提示词为:镜头穿过熙熙攘攘的东京街道,跟随几个人享受雪天并逛街。在Sora生成的视频中,镜头从天空的雪花中俯冲,跟着一对牵手的情侣,走过日本风格的街道。
2024年视觉大模型的十大趋势:
AI电影将无处不在,无时不有人类正式进入视觉生产力时代,视觉时代视觉大模型将无处不在,无时不有人人皆成网红和导演视频提示工程元年RAG视觉知识库增强检索AI Agent人工智能体元年视频大模型微调AIGC(生成式人工智能)正式开启AIGC时代人人开启元宇宙时代
Sora视觉大模型的技术原理:
Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频,该模型可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。