今天分享的是AIGC系列深度研究报告:《AIGC专题:2023生成式人工智能发展与监管白皮书-中国AI治理的独立思考》。
(报告出品方:南方财经全媒体集团)
报告共计:42页
来源:人工智能学派
发展:生成式 AI 治理的第一视角
2022年 11月,OpenAl推出的聊天生成预训练转换器(ChatGPT)的爆火,带来了人工智能的“iPhone 时刻”。该产品以强大的文字处理和人机交互功能迅速风靡全球。数据显示,发布五天内其用户量就达到了 100 万,并在短短2个月内用户量破亿,取得现象级战绩。
以 ChatGPT 等大语言模型为标志的生成式 A1 的成功,带来了新的范式革命和广阔的商业前景,资本市场持续高涨的热情也足以彰显它的价值。不过,一个硬币总有正反两面,生成式 A1技术在为经济社会发展带来新机遇的同时,也引发了诸多舆论争议,带来了虚假信息传播、个人信息权益侵害、数据安全、偏见和歧视等问题。
事实上,全球正在进入“生成式 A|革命风暴”,随之掀起的是新一轮的 Al 监管潮。欧盟领先一步,《人工智能法案》进入最终谈判阶段。系列迹象表明,美国政府最近也在紧锣密鼓地推进监管工作:6月20日,美国总统拜登就会见了 A| 专家和研究人员,讨论如何管理 A| 在就业、儿童权益、偏见和成见以及信息方面带来的机会和风险。美国政府正在考虑为这项快速发展的技术制定具有法律约束力的规定。
生成式 AI 相关概念
2022 年被认为是“生成式 AI 元年”,Dall-E2、Midjoumey、Stable Diffusion 等文生图应用的出现引起广泛关注;12月底,ChatGPT的横空出世更是使得生成式 A1的风头一时无两。自 1956 年概念的首次提出至今,人工智能技术已发展超 60年。然而,时至今日,其仍未实现大规模应用。生成式 A1的出现标志着人工智能进入了新纪元,机器开始能够模拟人类的创造性思维,并有望促进社会生产力的大幅跃进。生成式 AI 技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。
基于监督学习的方法差异,机器学习领域可以分为判别式(discriminative)和生成式(generative)两种典型模型:判别式模型是对条件概率建模,学习不同类别之间的最优边界,从而完成分类任务;生成式模型则面向类建立模型,计算基于类的联合概率,然后根据贝叶斯公式分别计算条件概率,进而根据输入数据预测类别。生成式 AI 更强调学习归纳后的演绎创造,通过模仿式、缝合式的生成创作,不断判别和进化,从而产生全新的内容,其本质是“创造未知世界”。掀起本轮 AI 技术浪潮的正是后者。生成式 AI 技术以革新产业的面貌席卷了科技界,驱动了生产流程升级转型。
根据技术实现及应用路径,生成式 AI又可以进一步细分为数据层、算力层、模型层和商业化应用层。数据层包括数据提供、数据分析以及标注等环节。生成式 A1 产品的诞生需要依托海量的数据资源。公开资料显示,GPT-3模型的基础来自 8000 亿个单词的语料库(或 45TB 的文本数据)包含了 1750 亿个参数。“8000 亿”是 ChatGPT的训练数据,“1750 亿”是它从这些训练数据中所学习、沉淀下来的内容。
算力层是 AI训练的基础设施,包括数据中心、服务器,以及高性能的A芯片。据华泰证券测算,训练一次 ChatGPT 模型(13 亿参数)需要的算力约 27.5PFlop/s-day,即以1万亿次每秒的速度进行计算,需要耗时 27.5天;而 ChatGPT 单月运营需要算力约 4874.4PFlop/s-day?。
模型层位于生成式 A 的中游,是生成式 A|得以实现的关键环节。生成式 A 的成型得益于2014年以来 GAN(生成对抗网络模型)、Transfommer(转换器模型)、Diffusion(扩散模型)等模型的发展与融合。例如,基于多种底层的A1技术,OpenA1公司经过多次迭代的 GPT-4 模型谷歌对标 GPT-4 的大模型 PaLM 2等,通过开放 AP| 调用,可以赋能各类垂直应用厂商。商业化应用层则涵盖文本、音频、图片、影片的生成等,是产业链的最下游,但也是 A1能否大规模应用、能否真正创造价值的关键。
根据 PitchBook 的统计数据,2022年投资圈向生成式 AI 公司共投入 13.7 亿美元(折合人民币约 93.69 亿元),融资事件发生 78起,接近此前5年的总和。据风投公司 NFX统计,目前已有 550 家生成式 AI 公司相继入局,共筹集近 140 亿美元的资金“。互联网及传统 A1大厂将从云服务、预训练模型提供等的基础层、中间层入手,创业公司则聚焦在下游的垂直应用。多数公司刚刚完成标准化产品输出,开始进入商业化探索的初级阶段。
报告共计:42页
来源:人工智能学派