Chatgpt开启AIGC产业生态新时代 2023 -前瞻.pdf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Chatgpt开启AIGC产业生态新时代 2023 -前瞻 Chatgpt 开启 AIGC 产业 生态 时代 前瞻
- 资源描述:
-
1、新风口新生态新变革新机遇行业报告资源群行业报告资源群微信扫码 长期有效微信扫码 长期有效微信扫码 行研无忧微信扫码 行研无忧免责申明:本内容非原报告内容;报告来源互联网公开数据;如侵权请联系客服微信,第一时间清理;报告仅限社群个人学习,如需它用请联系版权方;如有其他疑问请联系微信。1.进群福利:进群即领万份行业研究、管理方案及其他学习资源,直接打包下载2.每日分享:6+份行研精选、3个行业主题3.报告查找:群里直接咨询,免费协助查找4.严禁广告:仅限行业报告交流,禁止一切无关信息知识星球 行业与管理资源知识星球 行业与管理资源专业知识社群:每月分享8000+份行业研究报告、商业计划、市场研究、
2、企业运营及咨询管理方案等,涵盖科技、金融、教育、互联网、房地产、生物制药、医疗健康等;已成为投资、产业研究、企业运营、价值传播等工作助手。目录新风口:ChatGPT引爆AIGC产业01新生态:AIGC产业生态逐渐完善02新变革:AIGC助力行业转型升级03新机遇:AIGC时代的机遇与挑战0401新风口:ChatGPT引爆AIGC产业1.1OpenAI发展历程1.2ChatGPT技术演进1.3ChatGPT是AIGC浪潮的一部分1.4ChatGPT市场影响力巨大1.5国内外科技企业加码布局AIGC产业OpenAI是由美国一群科技领袖,包括山姆阿尔特曼(SamAltman)、彼得泰尔(PeterT
3、hiel)、里德霍夫曼(ReidHoffman)及埃隆马斯克(ElonMusk)等人在2015年12月联合创立的人工智能研究机构。成立次年OpenAI即发布第一个开源AI平台,2020年6月推出OpenAlAPI,正式开启商业化运营。公司在AI领域进程迅猛,于2022年11月发布了ChatGPT产品,作为一款生成式AI,能够协助高效处理文本工作、写代码、编剧等,引发全球对AIGC的积极关注。1.1OpenAI发展历程资料来源:OpenAI官网OpenAI发展里程碑2019年7月2020年6月微软向OpenAI投资了10亿美金,并获得了OpenAl技术的商业化授权。从此,OpenAI的一些技术开
4、始出现在微软的产品和业务上OpenAI发布了第一个开源的AI平台2015年12月OpenAI团队成立OpenAI发布了OpenAlAPI,这是OpenAI推出的一种云端人工智能服务,作为OpenAI第一个商业化产品开启了商业化运作的时代。2022年11月在GPT-3.5的基础上发布ChatGPT,这是一款人工智能聊天机器人OpenAI公司发展里程碑事件梳理2016年3月2018年6月OpenAI发布了GPT模型ChatGPT(ChatGenerativePre-trainedTransformer)是一款人工智能聊天机器人,其背后的GPT模型是一种自然语言处理(NLP)模型,使用多层变换器(T
5、ransformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。1.2.1GPT模型技术演进进程资料来源:CSDNGPT-1有一定的泛化能力,能够用于和监督任务无关的NLP任务中GPT-1(1.17亿参数)GPT-3作为一个自监督模型,可以完成自然语言处理的绝大部分任务:将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的哲学家预测生命的真谛GPT-3(1750亿参数)ChatGPT是InstructGPT的衍生产品,它将人类的反馈纳入训练过程,更好地使模型输出与用户意图保持致ChatGPT除了理解能力外,GPT-2
6、在生成方面表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至可以生成假新闻、钓鱼邮件或在线进行角色扮演GPT-2(15亿参数)InstructGPT是一个经过微调的新版GPT-3,可以将有害的、不真实的和有偏差的输出最小化InstructGPT201820192020-062022-012022-11ChatGPT核心技术主要是基于人工反馈的强化学习(RLHF),具体实现上,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调。1.2.2ChatGPT核心技术RLHF资料
7、来源:OpenAI官网哈尔滨工业大学自然语言处理研究所向一个6岁智力的模型解释强化学习对行为给出奖励与惩罚向一个6岁智力的模型解释强化学习回答A、B、C、DDCAB示例:写一则关于的故事DCAB示例:很久以前rk第一步:收集描述性数据,并训练一个监督学习模型第二步:收集比较性数据,并训练一个奖励模型第三步:用PPO强化学习算法对奖励模型最优化从prompt数据库中取样由人类训练师撰写期望的输出值收集的数据用来以监督学习的方式微调GPT-3.5模型从prompt数据库中取样,并得到数个模型的回答由人类训练师对回答进行排序收集的数据用来训练我们的奖励模型从prompt数据库中另外取样由监督学习初始
8、化PPO模型模型给出回答奖励模型对回答进行打分获得的分数通过PPO算法优化模型ChatGPT采用监督学习+奖励模型进行语言模型训练一、训练监督策略模型首先,ChatGPT会从问题数据集中随机抽取若干问题并向模型解释强化学习机制,其次标记者通过给予特定奖励或惩罚引导Al行为,最后通过监督学习将这一条数据用于微调GPT3.5模型。二、训练奖励模型训练奖励模型的过程同样可以分为三步:1、抽样出一个问题及其对应的几个模型输出结果;2、标记员将这几个结果按质量排序;3、将排序后的这套数据结果用于训练奖励模型。三、近端策略优化(PPO)核心在于将在线学习转化为离线学习。具体来说,也就是先通过监督学习策略生
展开阅读全文
