欢迎来到中国物联网智库-中国通信工业协会物联网应用分会!

关于举办《Sora关键技术与实现及项目实战》 高级研修班的通知

来源:中国通信工业协会物联网分会   | 发表时间:2024 年 4 月 3 日

 

各有关单位:

Sora:文本生成视频,可扩展的视频生成模型,是构建物理世界的通用模拟器。Sora是文本生成视频(text-to-video)的人工智能模型,能够根据文本指令创造出逼真且富有想象力的场景。Sora通过学习视频内容,来理解现实物理世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。

Sora的技术路线是Diffusion model(扩散模型)+ Transformer(变换器模型)两种技术架构的结合。Diffusion model是一种生成模型,用于图像的生成,Transformer是一种深度学习模型,能够处理图片和视频的任务,如图像分类、视频理解。

Sora视频生成模型的基本原理是:在视频数据上进行大规模训练生成模型,利用在视频和图像潜码的时空补丁上操作的transformer架构,在不同持续时间、分辨率和宽高比的视频和图像上,联合训练文本条件扩散模型,最大的Sora模型能够生成一分钟的高保真视频。

Sora文本生成视频技术具有广泛的应用场景和巨大的市场前景,如电影/电视剧制作,短视频制作、广告制作、企业宣传/产品服务、新闻媒体、广播电视、各种新媒体/传媒、视频直播、游戏制作、三维模型快速设计和3D打印等。

我国政府在今年的《政府工作报告》中提出人工智能+”发展战略,其宗旨是将人工智能技术与各行业深度融合,运用人工智能+”赋能千行百业数字化转型和高质量发展。在国家这一政策指导下,我们可以运用“Sora+行业应用技术思想助力行业数字化转型与高质量发展。如Sora根据指令文本生成视频,可以将5G工厂的生产数据和管理数据转换为指令后再生成视频,这一应用可以更加精准提升5G工厂的智能化和可视化管理水平。所以,Sora技术与行业应用深度融合,必将产生巨大价值。

Sora能够理解和模拟运动中的物理世界,通过训练模型来帮助人们解决现实世界中的交互问题。Sora不仅仅是一个文生视频的工具,更是一个通用的物理世界模拟器Sora的出现,短期来看,能够提高创作者、影视从业者的生产效率,长期来看,以Sora为代表的生成式人工智能技术能够更佳全面的理解人类生活中的现实世界,AGI通用人工智能的时代正在加速到来。

基于上述Sora的技术路线和工作原理及潜在的广泛应用分析,我们需要深刻探讨Sora这种可扩展的文本生成视频人工智能大模型技术发展的内在逻辑和规律性,以及将对人类社会和整个世界产生的深远影响,在这一基础上,更好地掌控这一技术,造福全人类!在今天人工智能+”时代,我们如何灵活运用这一技术服务于国家、企业和个人,提升国家综合实力,提升企业国际竞争力,提升个人在社会洪流中的生存能力?这是Sora技术的发展和视频呈现带来的惊艳世界的震撼效果这一现象给我们的深刻启示和思考。

基于上述分析,为进一步推动以Sora为代表的生成式人工智能技术的广泛应用及产业发展与布局,赋能我国数字经济、数字政府、数字社会高质量发展,为培养人工智能+”时代急需的高级实战型人才,中国通信工业协会物联网应用分会特在北京429-30日开展《Sora关键技术与实现及项目实战》高级实战类培训课程。经研修合格后由中国通信工业协会物联网应用分会颁发高级人工智能工程师》职业技术水平证书,本次研修会务由金赛文(北京)文化交流有限责任公司负责,并收取相关费用开具相关发票。

                    中国通信工业协会物联网应用分会

                                                                                                                          202442日 

 

Sora关键技术与实现及项目实战》高级研修班的简介

一、研修时间、地点:

时间:2024 4 29-30

地点:中国·北京

二、协办单位:

金赛文(北京)文化交流有限责任公司

武汉光华通信息咨询有限公司

三、研修技术交流的主要宗旨:

Sora的技术思想中,学习更多有价值的东西,不仅仅是单纯的技术,单纯的软件、工具或算法,更重要的是学习其中的逻辑思维方法、科学研究方法、技术与产品创新方法等。让我们深刻领悟,技术方案中的某一点点创新,却可以引发革命性的巨变,创造巨大的价值。

四、研修的主要亮点:

1)本课程以动手实验、项目实战为重点,按照概念篇、原理篇、技术篇、应用篇、体验篇、实战篇六大模块,对Sora技术及使用技巧与方法进行全面,系统、深刻、而又富于创新地阐述。

2)通过本次技术交流,我们将重点掌握文字生成视频、图形生成视频以及视频生成视频的技术原理和实践方法,理论与实践高度契合,通过编写程序,掌握在Python代码中通过OpenAI API库连接类Sora API的步骤、流程、技巧与方法,掌握通过类Sora API与类Sora系统交互、进行视频数据训练的关键技术,通过类Sora API实现文本生成视频,图形生成视频以及视频生成视频,掌握通过OpenAI API进行人工智能产品开发、应用创新,赋能行业数字化转型发展的利器!

3)本次技术交流提供⁠AI雅典娜大模型实训平台,基于该实训平台完成文本生成视频,图形生成视频以及视频生成视频实验和视频作品创作。

五、研修学员的最大收获:

通过培训,学员可以制作专业级、企业级、甚至商业级的短视频作品。

六、培训主要内容:

本课程采用模块化教学方法,总体架构主要包括以下6个教学模块:

模块一:概念篇-Sora的概念及基本功能

模块二:原理篇-Sora的工作原理及流程

模块三:技术篇-Sora的关键技术及实现

模块四:应用篇-Sora的应用场景及举例

模块五:体验篇-Sora制作行业应用视频

模块六:实战篇-Sora基本功能实战演练

备注: 实战帐户

1.AI雅典娜语言大模型平台1个月

2.通过API接文字生视频, 1个月内305秒视频 (Sora)

3.通过API接文字生图片, 1个月内30张图片(SD)

4.课程会教学员如何编写程序,接API用文字产生图片和视频

5.有效期一个月, 429日至529

七、研修内容及时间安排:2天,8小时/

授课时间

授课内容

授课时长

第一天

 

上午

模块一:概念篇-Sora的概念及基本功能(讲解+视频演示)

1小时

模块二:原理篇-Sora的工作原理及流程(讲解+视频演示)

1小时

模块三:技术篇-Sora的关键技术及实现(1)(讲解+视频演示)

2小时

下午

模块三:技术篇-Sora的关键技术及实现(2)(讲解+视频演示)

4小时

课程小结、答疑、交流讨论与互动环节

0.5小时

第二天

上午

模块四:应用篇-Sora的应用场景及举例(讲解+视频演示)

2小时

模块五:体验篇- Sora制作行业应用视频(讲解+实操演练)

2小时

下午

模块六:实战篇-Sora基本功能实战演练(讲解+实操演练)

4小时

课程总结、答疑、交流讨论与互动环节

0.5小时

八、培训对象:

人工智能及Sora/AIGC/视频生成/视频编辑处理技术产业链各企业、新闻媒体、广播电视、各种新媒体/传媒、广告制作、电影/电视剧制作中心,短视频制作、视频直播、游戏公司等企业,互联网公司、互联网服务提供商(ISP)、互联网内容提供商(ICP)、互联网软件开发公司、电信运营商、广电运营商、各行业客户、企事业单位、咨询公司、大专院校和科研院所等单位,从事人工智能及Sora/AIGC/视频生成/视频编辑处理技术相关工作的管理人员、技术人员等。

九、课程详细大纲:

培训主题

详细内容

 

 

 

 

 

 

 

模块一:概念篇-Sora的概念及基本功能

 

1Sora的概念、功能及技术发展

1.1什么是Sora?(技术视角、OpenAI、维基百科的定义)

1.2 Sora技术核心要点诠释

1.3 问题:如何理解Sora-理解Sora的关键点

1.3.1 Sora是如何工作的?

1.3.2 Sora的视频训练数据来源于何处?

1.3.3 Sora如何进行模型预训练?

1.3.4 Sora是如何实现文本生成视频的?

1.4问题:Sora的主要技术有哪些?

1.5 Sora的主要特点有哪些?

1.6 Sora的基本功能与高级功能

1.7 Sora的产生与发展对人类社会将带来什么影响?

1.8 Sora对哪些职业和工作产生挑战和影响?

1.9 Sora对我们的启示有哪些?

1.10 如何从Sora的技术方案中学习有价值的东西?

1.11 如何运用基于人工智能的Sora技术方案赋能行业智慧应用与商用落地和快速发展?

1.12 Sora未来5年发展与商业应用

 

 

 

 

 

 

 

 

 

模块二:原理篇-Sora的工作原理及流程

 

 

2Sora的系统架构及组成

2.1 Sora的总体技术路线是什么?

2.1.1 Diffusion model(扩散模型)+ Transformer(变换器模型)

2.1.2 Diffusion model:用于图像的生成

2.1.3 Transformer:处理图片和视频的任务,如图像分类、视频理解等

2.1.4 ChatGPT Transformer到视觉Transformer (ViT)

2.1.5 DDPM=Stable Diffusion+GAN

2.2 构建Sora系统架构需要考虑哪些关键问题?

2.2.1Sora技术架构的关键点是什么?

2.2.2 Sora预训练模型有哪些?

2.2.3 Sora预训练数据集有哪些?

2.2.4 Sora如何进行模型预训练?

2.2.5 Sora进行模型训练的步骤有哪些?

2.3 Sora系统架构整体描述

2.4 Sora系统组成要素及功能

2.5 Sora实现的关键要素有哪些?

2.6 Sora模型工作原理

2.7 Sora模型工作流程

2.8 Sora的系统架构-Transformer架构

2.10.1什么是Transformer

2.10.2 Transformer模型的作用

2.10.3 Transformer总体架构及组成

2.10.4 Encoder-Decoder编码器-解码器框架

2.10.5 输入部分的实现

2.10.6解码器部分的实现

2.10.7 输出部分的实现

2.10.8模型构建

2.9案例分析:使用Transformer构建视频模型

2.10 Sora应用系统架构及组成-端边网云(水平分割)

2.10.1 Sora应用终端(PC机、智能手机、PAD等)

2.10.2 边缘计算(边缘算力)

2.10.3 互联网/移动互联网

2.10.4 云(超级计算机、超级算力)-云数据中心

3Sora的工作原理及流程

3.1 Sora工作原理及流程总体描述

3.1.1视频压缩网络

3.1.2时空Pixel空间

3.1.3时空潜空间

3.1.4Diffusion model 扩散模型

3.1.5可扩展Transformer 变换器架构

3.1.6文本、图像与视频数据训练

3.1.7跨模态视频摘要/字幕生成:Video Caption

3.1.8多模态编码encoder

3.2 视觉 Transformer (ViT) 工作原理与流程

3.2.1视频压缩网络

3.2.2时空潜在补丁

3.2.3 ViTCNN模型比较

3.3 多模态提示词秘密

3.3.1多模态提示词工程

3.3.2文本到图像提示词

3.3.3文本到视频提示词

3.3.4可信度

3.4 Clip关联文本和图像

3.4.1 Clip工作原理

3.4.2 Clip对比学习

3.4.3 Clip跨模态学习、图像和视频联合编码

3.4.4使用Clip 生成视频内容

 

 

 

 

 

 

 

模块三:技术篇-Sora的关键技术及实现

 

 

 

4. Sora的关键技术及实现

4.1 Sora的关键技术体系

4.1.2视频压缩网络

4.1.3像素空间

4.1.4时空潜空间:Spacetime Latent Space

4.1.5扩散模型:Diffusion model

4.1.6 Transformer 变换器模型

4.1.7 编码:Encoder

4.1.8 解码:Decoder

4.1.9 Sora-视觉分块(patches

4.1.10 视频标记:Visual Label

4.1.11数据标记处理:Tokenization

4.1.12视觉补丁:Visual patches

4.1.13大语言模型-文本token

4.1.14 Re-Captioning:重述要点 重新标注 重新字幕

4.1.15视觉大模型技术

4.2 AE/VAE高效视频编码技术

4.2.1 AEVAE技术

4.2.2变分自编码机的原理和技术

4.2.3 VQ-VAE的架构和技术点

4.2.4 VAESora模型重要性

4.3 扩散模型 (DDPM) 技术

4.3.1扩散模型 (DDPM) 随机生成技术

4.3.2条件生成的原理 (Conditional DPM)

4.3.3扩散模型对Sora模型重要性

4.3.4 DDPM生成视频质量和多样性

4.4 融合扩散与注意力

4.4.1扩散Transformer (DiT) 难点

4.4.2扩散Transformer (DiT) Sampling

4.4.3Sora模型影响与应用

4.4.4多头自注意力机制 Multi-head Self-Attention

 

 

 

 

 

 

 

 

 

 

 

 

模块四:应用篇-Sora的应用场景及举例

 

 

 

5. Sora的应用场景及举例

5.1个人应用场景及举例

5.1.1应用场景1:娱乐与元宇宙

5.1.2应用场景2:短视频吸粉

5.1.3应用场景3:视频创作

5.1.4应用场景4:个人搭建系统

5.2企业应用场景与举例

5.2.1应用场景1:企业广告-视频内容

5.2.2应用场景2:产品宣传- 3维元宇宙空间

5.2.3应用场景3:商业市场需求和竞争策略

5.2.4应用场景4:企业搭建系统

5.3 Sora的行业应用场景及商用落地

5.3.1 Sora+影视领域

5.3.2 Sora +传媒领域

5.3.3 Sora +短视频

5.3.4 Sora+电商领域

5.35 Sora +金融领域

5.3.6 Sora +工业领域

5.3.7 Sora +医疗领域

5.3.8 Sora +教育领域


 

 

 

 

 

模块五:体验篇- Sora制作行业应用视频

 

6. Sora制作行业应用视频

6.1 Sora创作工具介绍

6.2 Sora行业应用视频创作思路方法

6.3 Sora行业应用视频创作步骤与流程分解

6.4 Sora行业应用视频创作案例

6.4.1 案例1:新质生产力Sora视频创作

6.4.2 案例2:新型工业化Sora视频创作

6.4.3 案例3人工智能+行业”Sora视频创作

6.4.4 案例45G工厂Sora视频创作

6.4.5 案例5:自动驾驶Sora视频创作

6.4.6 案例6:企业宣传片/广告Sora视频创作

6.4.7 案例7:电视剧Sora视频创作

6.4.8 案例8:电影Sora视频创作

6.5 Sora商业平台介绍

6.5.1比较类Sora商业平台介绍

6.5.2 访问类Sora商业平台介绍

6.5.2 测试类Sora商业平台介绍

 

 

 

 

 

 

 

 

 

 

模块六:实战篇-Sora基本功能实战演练

 

7. Sora开发环境搭建

7.1 Widows工具包  (Linux / Macbook)

7.2 PythonAI工具库

7.3 AI Agent

7.4 向量数据库 Vector Database

8. 搭建语言大模型

8.1语言大模型

8.2提示词工程

8.3用户介面

8.4通过 API AI 库连接 AI Athena 语言大模型

9. 搭建多模态大模型

9.1物体识别 YOLO

9.2多模态训练工具 Clip

10. Athena API搭建文本生图像视频系统

10.1 什么是类Sora API

10.2 如何连接类Sora API

10.3 获取AI AthenaAPI密钥

10.4 下载AI Athena

10.5 创建Python代码以连接Athena API

10.6 通过Python代码与Athena API

10.7 API key的安全措施

10.8安装和运行python程序(windows环境)

10.9下载和安装Python

10.10配置环境变量

10.11安装pip

10.12安装所需的Python模块

10.13编写和运行Python代码

11 Sora深入介绍

11.1 国际最新研究方向和技术创新

11.2 Open-Sora源码分析

11.3 Sora模型训练

 

十、专家介绍:

        李文耀:副教授,硕士生导师,全国优秀教师。1991年毕业于北京邮电大学,拥有30多年信息通信行业科技创新、产品研发、网络建设、项目咨询经验,国内通信行业精通各种通信网络与技术的网络专家、技术专家,全国通信行业资深讲师,高级网络架构师、高级咨询师,工业信息化部通信行业职业技能鉴定中心考评员,中国5G物联网产业联盟专家组成员、NB-IoT产业联盟专家组成员,中国物联网产业应用联盟专家组成员,中国通信工业协会物联网分会专家组成员、原邮电部武汉邮电科学研究院情报中心高级研究员,武汉邮电科学研究院·烽火科技集团高级培训师,上海诺基亚贝尔培训中心5G技术培训特约讲师,工信部人才交流中心5G产业发展特约讲师,工信部职业技能鉴定中心人工智能特约讲师,中国通信工业协会物联网分会5G物联网、工业互联网专业特约讲师。《中国光电》杂志、中国光电网(www.optochina. net)编委会成员,《通信世界》杂志特邀撰稿人,被评为2011-2012年度通信产业先锋技术人物,2012年全国通信行业金牌培训讲师。在5G5G to B5G专网、5G工厂)、5G物联网、NB-IoT、工业互联网、5G+工业互联网、算力网络、AI大模型、ChatGPT/GPT-4/AIGCSora、云计算、大数据、人工智能、区块链、边缘计算、数字孪生、元宇宙、传输网(100G WDM/OTN)、光接入网(xPON/10G PON)、数通网络(IPv6SRv6MPLS/MPLS VPN)、交换网(软交换、IMS)、互联网、移动互联网、车联网、企业信息化发展战略、企业数字化转型发展、智慧城市、智慧工厂、智能制造、智慧电力、智慧钢铁、智慧矿山、智慧煤矿、智慧港口、智慧物流、智慧社区、智能家居等领域有一定的造诣和工程建设实践经验。

叶淦晟:(Peter) 是具有商业策略的人工智能技术专家: ChatGPTMidjourney, 大型语言模型(LLMs), 大数据, 机器学习, 非结构性数据图像视频分析, 算法研究开发, 量子力学, 金融外汇高频交易,算法交易(Algo Tradig)。 近十年来他为世界财富500 强企业提供商业和技术咨询服务, 包括摩根士丹利 (Morgan Stanley)、苏格兰皇家银行 (RBS), 友邦保险 (AIA), 英国电信 (BT)、中国移动电信、PCCW (电讯盈科), 中国香港特区政府,中国政府机关和大型国企等等。曾领导超100亿人民币的大型数字化项目。叶导师在香港、美国、英国和中国接受过不同学科的教育,金融哲学博士@上海财经大学 ; 计算机博士@香港理工大学; 研究生金融工程@斯坦福大学; 统计学硕士@香港大学; 电子及资讯工程硕士@香港理工大学; 生物医学工程硕士@香港中文大学, 包括人工智能、信息技术、数据科学、区块链、物联网、Web3, 4G/5G, 金融科技、商业、金融工程、碳中和、生物医学工程、健康科技、创新商业战略等,有助于高效沟通和理解多样化的新兴市场痛点和业务难点,并有效地提供创新的解决方案和建设性的建议。

简宗扬:简先生是一位在大规模系统整合和尖端技术方面具有高超技能的专家,拥有三十多年的资讯技术领域经验。在他的职业生涯中,他曾在许多全球项目和财富500强企业担任高级技术和领导角色, PCCW, Cognizant, 香港特区政府,中国政府机关等。简先生的广泛知识涵盖了多个领域,包括人工智慧/机器学习、算法交易、数据工程、Web3技术、企业架构、全栈开发和DevOps等。他在这些领域获得了众多的全球专业资格认证,并因其贡献获得了产业奖项的肯定。此外,他还被邀请担任元宇宙协会的创始成员之一, 拥有丰富的知识和对软件应用开发、Web规模架构、大数据、人工智慧/机器学习和区块链的浓厚兴趣。他是PC Tech杂志上云计算栏目的知名专栏作家,并编著了Packt Publishing出版社的多本关于CassandraNodeJS的书籍。简先生获得了香港大学的电机及电子工程学士学位,随后在澳洲悉尼科技大学获得了工程管理硕士学位。他还持有牛津大学的算法交易证书。

许老师:某高科技公司总裁,加拿大魁北克大学工商管理硕士,高级工程师,资深的项目管理和人工智能领域的专家。二十多年政企行业的管理咨询及信息化建设、数字化转型、大模型应用经验。曾历任多家著名公司担任解决方案、交付管理和销售管理的副总裁或核心负责人,在数字化各层面均具有丰富的设计及实施经验,是很多头部客户IT应用部署的设计师。并在多个行业有很深的实战经验,包括:电信、石油与化工、电力、建材、食品、地产、电子与高科技、政府等行业。 承担和参与多个重点课题,多次获得年度的行业科技进步奖。致力于人工智能技术与行业应用的深度结合和应用推广,极具前沿技术应用和行业洞察能力。

十一研修证书:

经研修合格后由中国通信工业协会物联网应用分会颁发高级人工智能工程师》职业技术水平证书。证书可作为单位聘用、任职、定级、晋升重要参考依据、为参加中国通信工业协会物联网应用分会举办的高级研修班研修合格的人颁发的有效凭证。

十二、研修费用及报名材料:

1.研修费用:4980 /人(费用包含:429302天午餐、会议费、报名费、资料费、专家费、考核建档及证书费)。住宿可统一安排,费用自理。

2.报名材料:填写报名回执表(见附件 1)2寸证件照两张(蓝底白底均可)。 

十三、报名咨询方式

电话:010-85808830

 

 

COPYRIGHT (©) 2017 中国通信工业协会物联网应用分会