玩转短视频 DeepSeek+即梦AI+可灵AI+剪映AI

978-7-115-67955-0
作者: 岳伟
译者:
编辑: 孙亦珣
分类: 其他

图书目录:

详情

在AI浪潮席卷全球的今天,短视频创作已从“人力密集型”迈向“智能驱动型”。本书以四大核心工具为脉络,为创作者揭开AI赋能内容生产的无限可能。从技术原理到实战应用,从静态画面到动态视频,从个人创作到商业变现,本书构建了一条从“小白”到“大师”的进阶之路。 第1章以“AI智创便捷生活”为起点,深入解析DeepSeek的开源大模型如何打破技术壁垒,即梦AI与可灵AI如何依托字节跳动与快手生态重塑视频生成范式,以及剪映AI如何通过智能化剪辑工具降低创作门槛。第2章至第6章则以实战为核心,通过DeepSeek与即梦AI联动生成有声漫画、科幻短片,揭秘剧情生成与分镜设计的底层逻辑;更以剪映AI为枢纽,解锁绘画风格、口播视频、音乐制作的创意玩法,让静态艺术与动态表达无缝衔接。第7章聚焦口播视频与音乐制作的深度攻略,通过“美妆平价好物分享”等案例,呈现AI如何从脚本生成到后期剪辑全程赋能,让创作者在效率与品质间找到平衡。

图书摘要

内容提要

在AI浪潮席卷全球的今天,短视频创作已从“人力密集型”迈向“智能驱动型”。本书以四大核心工具为脉络,为创作者揭示AI赋能内容生产的无限可能。从技术原理到实战应用,从静态画面到动态视频,从个人创作到商业变现,本书构建了一条从“小白”到“大师”的进阶之路。

第1章以“AI智创便捷生活”为起点,深入解析DeepSeek的开源大模型如何打破技术壁垒,即梦AI与可灵AI如何依托字节跳动与快手生态重塑视频生成范式,以及剪映AI如何通过智能化剪辑工具降低创作门槛。第2章至第6章则以实战为核心,通过DeepSeek与即梦AI联动生成有声漫画、科幻短片,揭秘剧情生成与分镜设计的底层逻辑;结合可灵AI在视觉设计领域的突破,探索AI如何革新时尚与商业场景;更以剪映AI为枢纽,解锁绘画风格、口播视频、音乐制作的创意玩法,让静态艺术与动态表达无缝衔接。第7章聚焦口播视频与音乐制作的深度攻略,通过“美妆平价好物分享”等案例,呈现AI如何从脚本生成到后期剪辑全程赋能,让创作者在效率与品质间找到平衡。

前言

Preface

你是否为创意枯竭而焦虑?是否因剪辑烦琐而却步?是否羡慕那些一夜爆红的短视频却不知从何入手?在2025年的今天,这些问题已不再无解——AI正以颠覆性的力量重塑内容创作的边界。

当《哪吒之魔童闹海》的二创视频通过DeepSeek生成的脚本斩获百万次点赞,当普通用户借助剪映的AI图文成片功能“日更”30条视频并一周“涨粉”4000多时,我们不得不承认:一个“人人皆可创作”的时代已呼啸而来。本书的诞生,正是为了帮助你在这一浪潮中抢占先机。

本书并非枯燥的技术手册,而是将知识的学习化身为一场有趣的创作探险之旅。我们将从DeepSeek扮演的“破局者”角色出发,剖析其如何通过开源大模型降低创作门槛,让普通人也能生成电影级脚本;揭秘字节跳动旗下即梦AI如何借力DeepSeek-R1,实现从灵感词到成片的闭环创作。同时,了解剪映AI如何通过与DeepSeek的联动,让分镜设计、素材匹配、智能配音等一气呵成,甚至将敦煌飞天的千年神韵转化为动态走秀视频。

本书案例丰富,既有科幻短片的星际征途,也有老照片焕新的温情时刻;既有电商带货的实战秘籍,也有国风水墨的艺术升华。每一章都融合技术解析、案例拆解与操作指南等内容。无论你是刚入行的新手,还是寻求突破的资深创作者,这本书都将为你提供可复用的方法论与行业洞见。

第1章 AI智创便捷生活

在这个充满算法的时代,我们既是技术的体验者,也是文明演进的见证者。当算法开始理解人类的语言,机器学习能够分析上传的数据表格,AI翻译可以辅助工作时,科技不再是冰冷的代码,而是化作有温度的生活助手。让我们走进这个由数据编织的智能世界,探索AI如何让日常工作、生活等焕发出前所未有的光彩。

1.1 AI视觉革命:图像与视频生成技术前沿探索

在数字化浪潮中,视觉内容的创作需求呈井喷之势。从精美绝伦的静态图像,到引人入胜的动态视频,传统创作方式常耗时费力,AI生图与AI视频技术的横空出世,宛如一场及时雨,以其高效、智能、创意无限等特性,为大众开启了全新的视觉内容创作大门,让想象得以快速具象化。

1.1.1 图像生成:从静态到动态的视觉范式革新

AI生图,是一种依托先进算法与海量数据训练的创新型图像生成技术。它打破了传统绘画对画笔、画布以及创作者手工技巧的依赖,仅需输入简洁而富有想象力的文字描述,诸如“一座古希腊城堡,阴天,冷色调,高耸,中景”,如图1-1-1所示,AI生图能迅速解析文字信息,生成令人满意的效果图。

图1-1-1

1.1.2 视频生成:时空维度的智能叙事

相较AI生图,AI视频将动态的艺术展现得淋漓尽致。通过对大量视频素材的学习和分析,AI能够根据特定的主题和情节需求,自动生成连贯、富有故事性的视频内容。在艺术摄影范畴,它可以模拟专业摄影师的拍摄手法,在不同的角度、景别之间切换,配合恰到好处的光影效果,创作出仿佛由专业团队精心拍摄的艺术短片。比如输入“海浪拍打着沙滩,太阳逐渐升起”,生成的视频效果如图1-1-2和图1-1-3所示。

图1-1-2

图1-1-3

1.1.3 跨模态生成技术的产业价值

毫不夸张地说,AI引领着我们步入一个充满无限可能的智能新时代。接下来,让我们一同深入探索这一技术在各个产业领域中的具体应用实践,以及其为产业价值带来的深远影响。

1. 打破创作限制

以下选择了一种不同寻常的例子,体现创作者利用AI生图和AI视频技术不受限于实际拍摄场地和时间的优势。例如打造一场未来星际大战的宏大场景,在过去,需要耗费大量的人力、物力和财力等来构建充满科幻感的宇宙战舰、奇异的外星世界等,还需要精心安排拍摄时间以配合场景搭建进度,之后依靠复杂的特效制作来完善画面。而如今,借助AI生图与AI视频技术,创作者只需输入类似“浩瀚宇宙中,多艘造型各异的星际战舰正在激烈交火,周围环绕着闪烁的能量光束,远方是一颗色彩斑斓、布满神秘纹路的星球”的描述,短短几分钟内,就能生成极具震撼力的逼真星际大战场景,如图1-1-4至图1-1-7所示。那些形态各异的战舰、绚烂夺目的能量光束特效以及美丽的星球景观等,都能以极为生动的形式呈现,极大地拓宽了创作的边界。

图1-1-4

图1-1-5

图1-1-6

图1-1-7

传统绘画需要专业的设备和长期训练积累的技能。而AI生图与AI视频技术大大降低了这些门槛,哪怕是没有任何绘画基础的人,只要有创意和想法,通过简单的文字描述,就能利用AI工具生成高质量的作品,如图1-1-8至图1-1-11所示。

图1-1-8

图1-1-9

图1-1-10

图1-1-11

2. 丰富艺术风格与表现形式

AI强大的创作能力体现在能够以极快的速度产出多元风格的作品,风格覆盖范围极广,从古典主义、印象派到超现实主义、赛博朋克等,不一而足。就拿绘画来说,AI为创作者提供了前所未有的便捷体验。比如,一位摄影师外出拍摄了一组城市街景照片,原本这些照片只是如实记录了城市的日常风貌,但借助AI技术,创作者只需轻点几下,就能让这些照片瞬间披上莫奈印象派的“外衣”,如图1-1-12至图1-1-15所示。原本清晰的建筑轮廓变得朦胧,光线和色彩相互交融,整个画面仿佛被赋予了新的生命,充满了灵动的光影变化,如同莫奈笔下的光影诗篇。

图1-1-12

图1-1-13

图1-1-14

图1-1-15

AI可以创造出前所未有的视觉效果和场景组合,如图1-1-16所示,满足观众对新奇、独特视觉内容的需求。

图1-1-16

3. 提高创作效率

以传统方式创作一幅精美的绘画作品或者制作一段专业视频,往往需要耗费大量时间,从构思、草图绘制到最终完成,可能需要数周甚至数月。而AI生图与AI视频能在短时间内生成初稿,大大缩短了创作周期。比如,为一个产品制作宣传视频,利用AI视频工具,可能只需几个小时就能完成从创意构思到视频剪辑的全过程。

在创作过程中,如果需要修改作品,AI工具能够快速响应。例如,在AI生图中,创作者发现画面中物体的位置不合适,只需简单调整文字描述,就能迅速得到修改后的图像,方便创作者不断尝试不同的创意方向。

4. 激发创作灵感

AI生成的作品常常具有独特的视角和意想不到的组合效果,这能为创作者带来新的灵感。比如,一位设计师在为一系统新的服装寻找灵感时,AI生成的一些超现实的服装搭配和色彩组合,如图1-1-17所示,可能会启发他设计出独具创意的作品。

图1-1-17

5. 推动行业发展

在影视制作中,AI技术展现出独特优势。AI生图在游戏领域的应用加速了开发流程。比如,开发一款开放世界冒险游戏,设计师以往需耗费大量时间绘制各种奇幻生物和神秘场景。现在借助AI生图,输入“长着三只翅膀、周身散发荧光的飞行神兽,栖息在飘浮着巨大水晶的神秘山谷”,瞬间就能生成对应图像,如图1-1-18所示,从神兽的灵动姿态到山谷的奇幻光影,细节丰富。这些资源可直接用于游戏建模,极大缩短开发周期,让游戏更快面市,抢占市场先机。

图1-1-18

1.2 DeepSeek:开源大模型的破局者

作为杭州深度求索人工智能基础技术研究有限公司(简称深度求索公司)自主研发的AI生态,DeepSeek(见图1-2-1)通过混合专家模型(MoE)与多头潜在注意力(MLA)技术,构建了覆盖文本、图像、视频与语音的全场景能力矩阵。其核心产品包括支持专业代码生成的DeepSeek Coder、具备复杂逻辑推理的DeepSeek-LLM,以及2025年推出的对话式AI助手DeepSeek-R1(见图1-2-2)。用户可通过跨平台App实现多端数据同步,完成从文案生成到视频分析的一站式操作。在编程领域,DeepSeek能提供代码补全与漏洞检测,显著提升开发效率;在创意领域,其概念组合能力可精准解析用户意图,辅助生成符合物理规律的动态素材,为短视频创作提供底层技术支撑。

图1-2-1

图1-2-2

1.3 即梦AI:字节跳动的AI创作引擎

即梦AI是字节跳动旗下剪映团队打造的AI原生内容创作平台,自2024年5月上线以来,始终致力于通过技术创新降低创作门槛,将用户的想象力转化为可视化作品。其核心定位为“想象力的相机”,通过多模态AI能力,为个人创作者与企业提供从灵感孵化到内容输出的全流程支持。

1.3.1 核心功能解析

1. 文生图

即梦AI提供六大生图模型,其中通用1.4模型表现尤为突出,支持写真、插画等多元风格生成(见图1-3-1至图1-3-4)。用户输入文字描述即可生成高质量图像,并可通过“智能参考”功能对细节进行二次编辑,如调整光影、添加元素等。尽管在人物手指等细节的处理上仍有优化空间,但其生成效率与灵活性已获行业认可。平台近期更接入豆包的文生图模型,首创“一句话P图”能力,显著提升文字生成准确率,解决传统图文创作中的痛点。

图1-3-1

图1-3-2

图1-3-3

图1-3-4

2. AI视频生成与动态创作

基于字节跳动自研的视频生成模型,即梦AI支持文本生视频与图片生视频,用户输入文本或上传图片即可生成动态内容。其“故事创作”功能可自动串联多帧画面,形成叙事短片;“运镜控制”“速度调节”等功能则赋予视频更强的表现力。2025年3月上线的“动作模仿”功能更具突破性,用户上传人物图片与参考视频后,系统通过显式与隐式特征混合驱动技术,精准复刻肢体动作与微表情,支持肖像、半身、全身等多画幅适配,甚至可处理动漫、3D卡通等非真人素材。

3. 数字人“大师模式”

依托OmniHuman-1模型,即梦AI推出数字人动态生成功能。用户仅需一张图片与一段音频,即可让静态人物完成演讲、唱歌、演奏乐器等复杂动作,动态效果自然流畅(见图1-3-5、图1-3-6)。该功能设置严格的内容审核机制,并对输出视频添加“AI生成”水印,确保合规使用。

图1-3-5

图1-3-6

4. 智能画布与指令编辑

平台提供“智能画布”工具(见图1-3-7),支持用户通过自然语言指令对图像进行全局或局部修改,如换装、风格转换、元素增减等。其底层技术由我国首个产品化的通用图像编辑模型SeedEdit驱动,无须训练即可实现创意修改,显著提升创作自由度。

图1-3-7

5. 场景化模板与社区生态

即梦AI内置海量影像灵感库(见图1-3-8),覆盖美妆、教育、广告等垂直领域的预设模板,用户可一键套用并自定义调整。同时,平台搭建了兴趣社区,支持作品分享、“做同款”创作及互动交流等,形成创作者与AI协同进化的生态闭环。

图1-3-8

1.3.2 技术突破与行业价值

即梦AI通过深度整合字节跳动的AI技术资源,实现了多项行业领先的功能创新。

多模态协同:打通文本、图像、视频间的生成逻辑,支持“一句话生成海报”“动态海报转换”等高阶操作。

效率革命:文生图速度提升至3秒/张,视频生成耗时压缩至分钟级,满足高频内容生产需求。

安全合规:建立严格的内容审核与版权保护机制,确保AI创作的伦理边界。

剪映业务负责人曾表示,即梦AI的目标是成为激发人类想象力的工具。通过技术赋能,平台已帮助创作者实现从视觉冲击到叙事表达的跨越,如AI短剧《觉醒》单日点赞破40万,AI生成MV实现词曲编演全流程自动化。未来,即梦AI将持续探索虚实融合的创作可能,推动短视频行业进入更高效、更个性化的内容生产时代。

1.4 可灵AI:快手的视频生成专家

可灵AI是快手AI团队自主研发的新一代视频生成大模型,于2024年6月正式上线,定位为全球领先的AI创意生产力工具。其核心功能围绕文生视频、图生视频及视频编辑等展开,结合先进的技术架构,为创作者提供高效、高质量的内容生产解决方案。

1.4.1 核心功能解析

1. 多模态视频生成功能

文生视频:支持输入文本生成5s、10s的高清视频,可自定义视频比例,适用于生成广告、剧情短片等。“文生视频”界面如图1-4-1所示。

图1-4-1

图生视频:上传静态图片即可生成5秒动态视频,结合文本指令实现精准叙事。例如将蒙娜丽莎图像转化为戴墨镜的动态肖像,或把汽车飞驰照片扩展为包含对向车流、道路虚化的沉浸式驾驶画面。模型支持自然写实与风格化图像输入,兼容多种长宽比。“图生视频”界面如图1-4-2所示。

图1-4-2

2. 视频编辑与扩展功能

延长功能:对已生成的视频(包括文生视频和图生视频)进行延长,单次延长5秒(见图1-4-3),连续操作可生成最长3分钟的连贯内容。通过文本控制机制,用户可自定义场景过渡,如古堡视频从“日落变暗”到“日出变亮”的多路径选择。

会员专属工具:提供高表现模式、尾帧参考、大师运镜等进阶功能,提升画面可控性与美学表现力。

图1-4-3

3. 图像生成与跨平台协作

文生图/图生图:支持生成多种尺寸、风格的创意图片,并可将其一键转化为视频。

多端矩阵:覆盖独立App、Web端(中英文)及快手小程序等,用户可跨平台管理创作内容。

1.4.2 技术架构与创新

模型优化:采用Transformer替代传统卷积网络,结合分布式训练集群与算子优化,提升硬件利用率与生成效率。

数据质量保障:构建多维度标签体系筛选高质量视频数据,并通过自研描述模型增强文本指令响应能力。

物理仿真与细节处理:基于3D时空联合注意力机制,精准捕捉微表情、毛发飘动等细节,支持复杂场景的动态构建。

1.4.3 应用场景与生态价值

短视频创作:在快影App中推出“AI舞王”“AI唱跳”等功能,帮助用户快速生成个性化动态素材。

影视与广告:通过电影级画质与概念组合能力,支持虚拟场景搭建与剧情演绎,降低专业创作门槛。

创意社区:用户可通过“创意圈”(见图1-4-4)浏览作品、获取灵感,与知名创作者互动,形成UGC(用户生成内容)生态闭环。

图1-4-4

自上线以来,可灵AI已迭代更新十余次,累计用户超360万,生成视频超3700万个。其物理仿真能力与提示词响应效率获创作者高度认可,如“老电影手持镜头的松弛感”“复杂概念的自然融合”等特性显著提升了创作自由度。未来,快手计划通过技术升级与跨平台协作,进一步拓宽AI在内容生产领域的应用边界。

1.5 剪映AI:全民级智能剪辑助手

作为我国领先的视频剪辑工具,剪映持续深化AI技术与创作场景的融合,通过推出的AI生图、生视频功能,以及智能画布、音色克隆等创新模块,构建了从创意生成到内容优化的全流程解决方案。

1. AI生图:高质量与高自由度的平衡

剪映AI的文生图与图生图功能,通过大模型对中文语义的精准理解,使用户能够生成多风格、多尺寸的图片。

输入方式灵活:支持纯文本描述或上传参考图,结合不同模型(如写实、动漫、水墨等),生成符合预期的视觉内容。例如输入“红色长发亚洲女性肖像,黑色长裙,写真风格”,可快速产出影楼级人像作品。

细节控制精细:用户可调节精细度(1~50级)与画布比例(7种预设),满足不同场景需求。测试显示,人像面部特征、服装纹理等细节表现稳定,但手指等局部偶现瑕疵。

智能画布丰富创作:通过无限扩图、局部重绘、高清放大等功能,用户可对生成的图片进行二次编辑。例如将地球图片扩展为科幻场景,或修正特定区域的光影效果,但局部重绘的风格可控性仍需优化。

2. AI生视频:场景化应用与技术突破

剪映AI的视频生成功能分为文本生视频与图片生视频两种模式,现阶段实用性与探索性并重。

文本生视频:输入提示词(如“古风小女孩在长城奔跑”)可生成3秒动态视频,但存在动作逻辑偏差(如“跑步”变“飞行”)、表情扭曲等问题,更适用于简单场景的快速预览。

图片生视频:以上传的图片或AI生成图为基础,生成的视频在连贯性与细节方面表现优异,尤其适用于静态画面的动态化处理。例如将人物肖像转化为眨眼、微笑的短视频,或为商品图添加动态光影效果。

会员专属权益:非会员每日可生成5个3秒视频,会员可解锁更长时长与更多高级功能,如多模态叙事模板。

3. 辅助功能:效率与创意的双重提升

音色克隆:用户录制1~3条原声语音即可生成近似音色,适用于文本朗读、口播视频等场景,显著降低配音成本。

数字人功能:输入文案可自动匹配虚拟形象、音色与背景等,生成AI口播视频,适用于自媒体、电商营销等场景。

智能字幕与一键成篇:通过语音识别与自动化剪辑,实现字幕生成、素材匹配与成片输出等,将后期时间缩短60%以上。

1.6 如何利用AI在视频制作中取得成功

在AI辅助视频制作领域,想要取得成功,核心在于敢于探索与持续实践。不要过分在意具体的平台,不管是抖音还是快手,哪怕在所有平台上发布一模一样的内容,也要放手去做。通过在现实中开展看似难以做到的持续创作、上传以及内容输出等活动才能获取收益。

1.6.1 案例:当AI成为新世界的“普罗米修斯之火”

2023年9月7日,以AI与大模型为聚焦核心的上海外滩大会盛大启幕。在这场备受瞩目的科技盛会中,蚂蚁集团重磅发布蚂蚁金融大模型,正式向外界揭开其神秘面纱。作为大会开场的视频《点亮》,宛如一台时光放映机,凭借AI技术,栩栩如生地呈现出人类科技变革的宏大历史长卷,如图1-6-1至图1-6-4所示。从远古时期钻木取火的智慧萌芽,到工业革命中机器的轰鸣运转,再到信息时代互联网的飞速发展,每一次科技的重大突破,都如同在黑暗中点亮一盏明灯,为下一次变革孕育无限可能,也为人类文明的进步铺就坚实的基石。

图1-6-1

图1-6-2

图1-6-3

图1-6-4

如今,我们日常所见的每一则AI广告,又何尝不是如此?它们不仅是当下营销手段的创新呈现,更是对未来数字化技术成熟发展的深度探索与有力铺垫。每一次在广告创意中融入AI元素,每一次借助AI技术优化广告投放策略,都是在为构建更加智能、高效的数字化商业世界添砖加瓦。正如蚂蚁集团董事长井贤栋引用《奥本海默》中的经典文案来阐释AI的革命性意义:“这不是一个简单的新技术,而是一个全新的世界。”AI正以其磅礴之力,重塑我们的生活与认知,引领人类社会迈向一个充满无限可能的新纪元。

1.6.2 案例:用AI改编MV,“玫瑰”变“没贵”

京东家电携手二手玫瑰乐队做“11.11”营销,让其进军带货领域。“玫瑰”和“没贵”的谐音,使品牌信息点传递起来清晰又有“梗”。而短片中,利用AI改编的二手玫瑰乐队传唱度最高的歌曲《我要开花11.11焕新版》的MV,如图1-6-5和图1-6-6所示,更是项目的高潮部分与点睛之笔。

图1-6-5

图1-6-6

1.6.3 案例:以AI为桥,拆解品牌艺术

为纪念品牌标志“蜜蜂瓶”问世170周年,娇兰用AI以瓶身延展出了近1800张视觉图像,如图1-6-7至图1-6-10所示,并糅合“东方主义”“新艺术运动”等艺术流派的设计美学,向大众呈现了一个梦幻、充满未来感的AI展览。

图1-6-7

图1-6-8

图1-6-9

图1-6-10

作为2023年用AI进行品牌表达的高端品牌代表之一,娇兰这支片子胜在以AI技术和产品为桥梁,通俗、直观地将品牌百余年沉淀的艺术宇宙拆解开来,独具格调的色彩背后,传递出品牌时尚觉悟与文艺内涵之外的高贵气质。

1.6.4 案例:丹麦旅游局邀你重构旅行意义

丹麦国家旅游局(VisitDenmark)发布了一支别具一格的广告宣传片。宣传片鼓励人们摒弃传统游客的身份,转身成为探索者,呼吁大家不要局限于在知名景点打卡,而是前往丹麦,在那些小众而美好的地方发掘旅行的乐趣。这支宣传片从广告脚本到视觉动画,均由AI创作,人工仅对过长或存在偏差的部分进行删减。

短片中,蒙娜丽莎、自由女神像、凡·高这些来自世界各地的著名“面孔”纷纷登场,如图1-6-11至图1-6-14所示。通过AI让静止的事物“开口说话”,它们在充满幽默氛围的视频里变得栩栩如生。

图1-6-11

图1-6-12

图1-6-13

图1-6-14

相关图书

AI Agent 开发实战:MCP+A2A+LangGraph 驱动的智能体全流程开发
AI Agent 开发实战:MCP+A2A+LangGraph 驱动的智能体全流程开发
计算流体力学大串讲轻松解锁CFD     从公式到代码的奇妙之旅
计算流体力学大串讲轻松解锁CFD 从公式到代码的奇妙之旅
计算机组成原理(基于x86-64架构)
计算机组成原理(基于x86-64架构)
Coze入门:7天玩转扣子智能体
Coze入门:7天玩转扣子智能体
内网攻防实战图谱:从红队视角构建安全对抗体系
内网攻防实战图谱:从红队视角构建安全对抗体系
Joy RL:强化学习实践教程
Joy RL:强化学习实践教程

相关文章

相关课程