图书

电子书

课程

VIP会员

书课包

玩转短视频 DeepSeek+即梦AI+可灵AI+剪映AI

978-7-115-67955-0

作者: 岳伟

译者:

编辑: 孙亦珣

分类: 其他

图书目录:

详情

在AI浪潮席卷全球的今天，短视频创作已从“人力密集型”迈向“智能驱动型”。本书以四大核心工具为脉络，为创作者揭开AI赋能内容生产的无限可能。从技术原理到实战应用，从静态画面到动态视频，从个人创作到商业变现，本书构建了一条从“小白”到“大师”的进阶之路。第1章以“AI智创便捷生活”为起点，深入解析DeepSeek的开源大模型如何打破技术壁垒，即梦AI与可灵AI如何依托字节跳动与快手生态重塑视频生成范式，以及剪映AI如何通过智能化剪辑工具降低创作门槛。第2章至第6章则以实战为核心,通过DeepSeek与即梦AI联动生成有声漫画、科幻短片，揭秘剧情生成与分镜设计的底层逻辑；更以剪映AI为枢纽，解锁绘画风格、口播视频、音乐制作的创意玩法，让静态艺术与动态表达无缝衔接。第7章聚焦口播视频与音乐制作的深度攻略，通过“美妆平价好物分享”等案例，呈现AI如何从脚本生成到后期剪辑全程赋能，让创作者在效率与品质间找到平衡。

图书摘要

内容提要

在AI浪潮席卷全球的今天，短视频创作已从“人力密集型”迈向“智能驱动型”。本书以四大核心工具为脉络，为创作者揭示AI赋能内容生产的无限可能。从技术原理到实战应用，从静态画面到动态视频，从个人创作到商业变现，本书构建了一条从“小白”到“大师”的进阶之路。

第1章以“AI智创便捷生活”为起点，深入解析DeepSeek的开源大模型如何打破技术壁垒，即梦AI与可灵AI如何依托字节跳动与快手生态重塑视频生成范式，以及剪映AI如何通过智能化剪辑工具降低创作门槛。第2章至第6章则以实战为核心，通过DeepSeek与即梦AI联动生成有声漫画、科幻短片，揭秘剧情生成与分镜设计的底层逻辑；结合可灵AI在视觉设计领域的突破，探索AI如何革新时尚与商业场景；更以剪映AI为枢纽，解锁绘画风格、口播视频、音乐制作的创意玩法，让静态艺术与动态表达无缝衔接。第7章聚焦口播视频与音乐制作的深度攻略，通过“美妆平价好物分享”等案例，呈现AI如何从脚本生成到后期剪辑全程赋能，让创作者在效率与品质间找到平衡。

前言

Preface

你是否为创意枯竭而焦虑？是否因剪辑烦琐而却步？是否羡慕那些一夜爆红的短视频却不知从何入手？在2025年的今天，这些问题已不再无解——AI正以颠覆性的力量重塑内容创作的边界。

当《哪吒之魔童闹海》的二创视频通过DeepSeek生成的脚本斩获百万次点赞，当普通用户借助剪映的AI图文成片功能“日更”30条视频并一周“涨粉”4000多时，我们不得不承认：一个“人人皆可创作”的时代已呼啸而来。本书的诞生，正是为了帮助你在这一浪潮中抢占先机。

本书并非枯燥的技术手册，而是将知识的学习化身为一场有趣的创作探险之旅。我们将从DeepSeek扮演的“破局者”角色出发，剖析其如何通过开源大模型降低创作门槛，让普通人也能生成电影级脚本；揭秘字节跳动旗下即梦AI如何借力DeepSeek-R1，实现从灵感词到成片的闭环创作。同时，了解剪映AI如何通过与DeepSeek的联动，让分镜设计、素材匹配、智能配音等一气呵成，甚至将敦煌飞天的千年神韵转化为动态走秀视频。

本书案例丰富，既有科幻短片的星际征途，也有老照片焕新的温情时刻；既有电商带货的实战秘籍，也有国风水墨的艺术升华。每一章都融合技术解析、案例拆解与操作指南等内容。无论你是刚入行的新手，还是寻求突破的资深创作者，这本书都将为你提供可复用的方法论与行业洞见。

第1章 AI智创便捷生活

在这个充满算法的时代，我们既是技术的体验者，也是文明演进的见证者。当算法开始理解人类的语言，机器学习能够分析上传的数据表格，AI翻译可以辅助工作时，科技不再是冰冷的代码，而是化作有温度的生活助手。让我们走进这个由数据编织的智能世界，探索AI如何让日常工作、生活等焕发出前所未有的光彩。

1.1 AI视觉革命：图像与视频生成技术前沿探索

在数字化浪潮中，视觉内容的创作需求呈井喷之势。从精美绝伦的静态图像，到引人入胜的动态视频，传统创作方式常耗时费力，AI生图与AI视频技术的横空出世，宛如一场及时雨，以其高效、智能、创意无限等特性，为大众开启了全新的视觉内容创作大门，让想象得以快速具象化。

1.1.1 图像生成：从静态到动态的视觉范式革新

AI生图，是一种依托先进算法与海量数据训练的创新型图像生成技术。它打破了传统绘画对画笔、画布以及创作者手工技巧的依赖，仅需输入简洁而富有想象力的文字描述，诸如“一座古希腊城堡，阴天，冷色调，高耸，中景”，如图1-1-1所示，AI生图能迅速解析文字信息，生成令人满意的效果图。

图1-1-1

1.1.2 视频生成：时空维度的智能叙事

相较AI生图，AI视频将动态的艺术展现得淋漓尽致。通过对大量视频素材的学习和分析，AI能够根据特定的主题和情节需求，自动生成连贯、富有故事性的视频内容。在艺术摄影范畴，它可以模拟专业摄影师的拍摄手法，在不同的角度、景别之间切换，配合恰到好处的光影效果，创作出仿佛由专业团队精心拍摄的艺术短片。比如输入“海浪拍打着沙滩，太阳逐渐升起”，生成的视频效果如图1-1-2和图1-1-3所示。

图1-1-2

图1-1-3

1.1.3 跨模态生成技术的产业价值

毫不夸张地说，AI引领着我们步入一个充满无限可能的智能新时代。接下来，让我们一同深入探索这一技术在各个产业领域中的具体应用实践，以及其为产业价值带来的深远影响。

1. 打破创作限制

以下选择了一种不同寻常的例子，体现创作者利用AI生图和AI视频技术不受限于实际拍摄场地和时间的优势。例如打造一场未来星际大战的宏大场景，在过去，需要耗费大量的人力、物力和财力等来构建充满科幻感的宇宙战舰、奇异的外星世界等，还需要精心安排拍摄时间以配合场景搭建进度，之后依靠复杂的特效制作来完善画面。而如今，借助AI生图与AI视频技术，创作者只需输入类似“浩瀚宇宙中，多艘造型各异的星际战舰正在激烈交火，周围环绕着闪烁的能量光束，远方是一颗色彩斑斓、布满神秘纹路的星球”的描述，短短几分钟内，就能生成极具震撼力的逼真星际大战场景，如图1-1-4至图1-1-7所示。那些形态各异的战舰、绚烂夺目的能量光束特效以及美丽的星球景观等，都能以极为生动的形式呈现，极大地拓宽了创作的边界。

图1-1-4

图1-1-5

图1-1-6

图1-1-7

传统绘画需要专业的设备和长期训练积累的技能。而AI生图与AI视频技术大大降低了这些门槛，哪怕是没有任何绘画基础的人，只要有创意和想法，通过简单的文字描述，就能利用AI工具生成高质量的作品，如图1-1-8至图1-1-11所示。

图1-1-8

图1-1-9

图1-1-10

图1-1-11

2. 丰富艺术风格与表现形式

AI强大的创作能力体现在能够以极快的速度产出多元风格的作品，风格覆盖范围极广，从古典主义、印象派到超现实主义、赛博朋克等，不一而足。就拿绘画来说，AI为创作者提供了前所未有的便捷体验。比如，一位摄影师外出拍摄了一组城市街景照片，原本这些照片只是如实记录了城市的日常风貌，但借助AI技术，创作者只需轻点几下，就能让这些照片瞬间披上莫奈印象派的“外衣”，如图1-1-12至图1-1-15所示。原本清晰的建筑轮廓变得朦胧，光线和色彩相互交融，整个画面仿佛被赋予了新的生命，充满了灵动的光影变化，如同莫奈笔下的光影诗篇。

图1-1-12

图1-1-13

图1-1-14

图1-1-15

AI可以创造出前所未有的视觉效果和场景组合，如图1-1-16所示，满足观众对新奇、独特视觉内容的需求。

图1-1-16

3. 提高创作效率

以传统方式创作一幅精美的绘画作品或者制作一段专业视频，往往需要耗费大量时间，从构思、草图绘制到最终完成，可能需要数周甚至数月。而AI生图与AI视频能在短时间内生成初稿，大大缩短了创作周期。比如，为一个产品制作宣传视频，利用AI视频工具，可能只需几个小时就能完成从创意构思到视频剪辑的全过程。

在创作过程中，如果需要修改作品，AI工具能够快速响应。例如，在AI生图中，创作者发现画面中物体的位置不合适，只需简单调整文字描述，就能迅速得到修改后的图像，方便创作者不断尝试不同的创意方向。

4. 激发创作灵感

AI生成的作品常常具有独特的视角和意想不到的组合效果，这能为创作者带来新的灵感。比如，一位设计师在为一系统新的服装寻找灵感时，AI生成的一些超现实的服装搭配和色彩组合，如图1-1-17所示，可能会启发他设计出独具创意的作品。

图1-1-17

5. 推动行业发展

在影视制作中，AI技术展现出独特优势。AI生图在游戏领域的应用加速了开发流程。比如，开发一款开放世界冒险游戏，设计师以往需耗费大量时间绘制各种奇幻生物和神秘场景。现在借助AI生图，输入“长着三只翅膀、周身散发荧光的飞行神兽，栖息在飘浮着巨大水晶的神秘山谷”，瞬间就能生成对应图像，如图1-1-18所示，从神兽的灵动姿态到山谷的奇幻光影，细节丰富。这些资源可直接用于游戏建模，极大缩短开发周期，让游戏更快面市，抢占市场先机。

图1-1-18

1.2 DeepSeek：开源大模型的破局者

作为杭州深度求索人工智能基础技术研究有限公司（简称深度求索公司）自主研发的AI生态，DeepSeek（见图1-2-1）通过混合专家模型（MoE）与多头潜在注意力（MLA）技术，构建了覆盖文本、图像、视频与语音的全场景能力矩阵。其核心产品包括支持专业代码生成的DeepSeek Coder、具备复杂逻辑推理的DeepSeek-LLM，以及2025年推出的对话式AI助手DeepSeek-R1（见图1-2-2）。用户可通过跨平台App实现多端数据同步，完成从文案生成到视频分析的一站式操作。在编程领域，DeepSeek能提供代码补全与漏洞检测，显著提升开发效率；在创意领域，其概念组合能力可精准解析用户意图，辅助生成符合物理规律的动态素材，为短视频创作提供底层技术支撑。

图1-2-1

图1-2-2

1.3 即梦AI：字节跳动的AI创作引擎

即梦AI是字节跳动旗下剪映团队打造的AI原生内容创作平台，自2024年5月上线以来，始终致力于通过技术创新降低创作门槛，将用户的想象力转化为可视化作品。其核心定位为“想象力的相机”，通过多模态AI能力，为个人创作者与企业提供从灵感孵化到内容输出的全流程支持。

1.3.1 核心功能解析

1. 文生图

即梦AI提供六大生图模型，其中通用1.4模型表现尤为突出，支持写真、插画等多元风格生成（见图1-3-1至图1-3-4）。用户输入文字描述即可生成高质量图像，并可通过“智能参考”功能对细节进行二次编辑，如调整光影、添加元素等。尽管在人物手指等细节的处理上仍有优化空间，但其生成效率与灵活性已获行业认可。平台近期更接入豆包的文生图模型，首创“一句话P图”能力，显著提升文字生成准确率，解决传统图文创作中的痛点。

图1-3-1

图1-3-2

图1-3-3

图1-3-4

2. AI视频生成与动态创作

基于字节跳动自研的视频生成模型，即梦AI支持文本生视频与图片生视频，用户输入文本或上传图片即可生成动态内容。其“故事创作”功能可自动串联多帧画面，形成叙事短片；“运镜控制”“速度调节”等功能则赋予视频更强的表现力。2025年3月上线的“动作模仿”功能更具突破性，用户上传人物图片与参考视频后，系统通过显式与隐式特征混合驱动技术，精准复刻肢体动作与微表情，支持肖像、半身、全身等多画幅适配，甚至可处理动漫、3D卡通等非真人素材。

3. 数字人“大师模式”

依托OmniHuman-1模型，即梦AI推出数字人动态生成功能。用户仅需一张图片与一段音频，即可让静态人物完成演讲、唱歌、演奏乐器等复杂动作，动态效果自然流畅（见图1-3-5、图1-3-6）。该功能设置严格的内容审核机制，并对输出视频添加“AI生成”水印，确保合规使用。

图1-3-5

图1-3-6

4. 智能画布与指令编辑

平台提供“智能画布”工具（见图1-3-7），支持用户通过自然语言指令对图像进行全局或局部修改，如换装、风格转换、元素增减等。其底层技术由我国首个产品化的通用图像编辑模型SeedEdit驱动，无须训练即可实现创意修改，显著提升创作自由度。

图1-3-7

5. 场景化模板与社区生态

即梦AI内置海量影像灵感库（见图1-3-8），覆盖美妆、教育、广告等垂直领域的预设模板，用户可一键套用并自定义调整。同时，平台搭建了兴趣社区，支持作品分享、“做同款”创作及互动交流等，形成创作者与AI协同进化的生态闭环。

图1-3-8

1.3.2 技术突破与行业价值

即梦AI通过深度整合字节跳动的AI技术资源，实现了多项行业领先的功能创新。

多模态协同：打通文本、图像、视频间的生成逻辑，支持“一句话生成海报”“动态海报转换”等高阶操作。

效率革命：文生图速度提升至3秒/张，视频生成耗时压缩至分钟级，满足高频内容生产需求。

安全合规：建立严格的内容审核与版权保护机制，确保AI创作的伦理边界。

剪映业务负责人曾表示，即梦AI的目标是成为激发人类想象力的工具。通过技术赋能，平台已帮助创作者实现从视觉冲击到叙事表达的跨越，如AI短剧《觉醒》单日点赞破40万，AI生成MV实现词曲编演全流程自动化。未来，即梦AI将持续探索虚实融合的创作可能，推动短视频行业进入更高效、更个性化的内容生产时代。

1.4 可灵AI：快手的视频生成专家

可灵AI是快手AI团队自主研发的新一代视频生成大模型，于2024年6月正式上线，定位为全球领先的AI创意生产力工具。其核心功能围绕文生视频、图生视频及视频编辑等展开，结合先进的技术架构，为创作者提供高效、高质量的内容生产解决方案。

1.4.1 核心功能解析

1. 多模态视频生成功能

文生视频：支持输入文本生成5s、10s的高清视频，可自定义视频比例，适用于生成广告、剧情短片等。“文生视频”界面如图1-4-1所示。

图1-4-1

图生视频：上传静态图片即可生成5秒动态视频，结合文本指令实现精准叙事。例如将蒙娜丽莎图像转化为戴墨镜的动态肖像，或把汽车飞驰照片扩展为包含对向车流、道路虚化的沉浸式驾驶画面。模型支持自然写实与风格化图像输入，兼容多种长宽比。“图生视频”界面如图1-4-2所示。

图1-4-2

2. 视频编辑与扩展功能

延长功能：对已生成的视频（包括文生视频和图生视频）进行延长，单次延长5秒（见图1-4-3），连续操作可生成最长3分钟的连贯内容。通过文本控制机制，用户可自定义场景过渡，如古堡视频从“日落变暗”到“日出变亮”的多路径选择。

会员专属工具：提供高表现模式、尾帧参考、大师运镜等进阶功能，提升画面可控性与美学表现力。

图1-4-3

3. 图像生成与跨平台协作

文生图/图生图：支持生成多种尺寸、风格的创意图片，并可将其一键转化为视频。

多端矩阵：覆盖独立App、Web端（中英文）及快手小程序等，用户可跨平台管理创作内容。

1.4.2 技术架构与创新

模型优化：采用Transformer替代传统卷积网络，结合分布式训练集群与算子优化，提升硬件利用率与生成效率。

数据质量保障：构建多维度标签体系筛选高质量视频数据，并通过自研描述模型增强文本指令响应能力。

物理仿真与细节处理：基于3D时空联合注意力机制，精准捕捉微表情、毛发飘动等细节，支持复杂场景的动态构建。

1.4.3 应用场景与生态价值

短视频创作：在快影App中推出“AI舞王”“AI唱跳”等功能，帮助用户快速生成个性化动态素材。

影视与广告：通过电影级画质与概念组合能力，支持虚拟场景搭建与剧情演绎，降低专业创作门槛。

创意社区：用户可通过“创意圈”（见图1-4-4）浏览作品、获取灵感，与知名创作者互动，形成UGC（用户生成内容）生态闭环。

图1-4-4

自上线以来，可灵AI已迭代更新十余次，累计用户超360万，生成视频超3700万个。其物理仿真能力与提示词响应效率获创作者高度认可，如“老电影手持镜头的松弛感”“复杂概念的自然融合”等特性显著提升了创作自由度。未来，快手计划通过技术升级与跨平台协作，进一步拓宽AI在内容生产领域的应用边界。

1.5 剪映AI：全民级智能剪辑助手

作为我国领先的视频剪辑工具，剪映持续深化AI技术与创作场景的融合，通过推出的AI生图、生视频功能，以及智能画布、音色克隆等创新模块，构建了从创意生成到内容优化的全流程解决方案。

1. AI生图：高质量与高自由度的平衡

剪映AI的文生图与图生图功能，通过大模型对中文语义的精准理解，使用户能够生成多风格、多尺寸的图片。

输入方式灵活：支持纯文本描述或上传参考图，结合不同模型（如写实、动漫、水墨等），生成符合预期的视觉内容。例如输入“红色长发亚洲女性肖像，黑色长裙，写真风格”，可快速产出影楼级人像作品。

细节控制精细：用户可调节精细度（1～50级）与画布比例（7种预设），满足不同场景需求。测试显示，人像面部特征、服装纹理等细节表现稳定，但手指等局部偶现瑕疵。

智能画布丰富创作：通过无限扩图、局部重绘、高清放大等功能，用户可对生成的图片进行二次编辑。例如将地球图片扩展为科幻场景，或修正特定区域的光影效果，但局部重绘的风格可控性仍需优化。

2. AI生视频：场景化应用与技术突破

剪映AI的视频生成功能分为文本生视频与图片生视频两种模式，现阶段实用性与探索性并重。

文本生视频：输入提示词（如“古风小女孩在长城奔跑”）可生成3秒动态视频，但存在动作逻辑偏差（如“跑步”变“飞行”）、表情扭曲等问题，更适用于简单场景的快速预览。

图片生视频：以上传的图片或AI生成图为基础，生成的视频在连贯性与细节方面表现优异，尤其适用于静态画面的动态化处理。例如将人物肖像转化为眨眼、微笑的短视频，或为商品图添加动态光影效果。

会员专属权益：非会员每日可生成5个3秒视频，会员可解锁更长时长与更多高级功能，如多模态叙事模板。

3. 辅助功能：效率与创意的双重提升

音色克隆：用户录制1～3条原声语音即可生成近似音色，适用于文本朗读、口播视频等场景，显著降低配音成本。

数字人功能：输入文案可自动匹配虚拟形象、音色与背景等，生成AI口播视频，适用于自媒体、电商营销等场景。

智能字幕与一键成篇：通过语音识别与自动化剪辑，实现字幕生成、素材匹配与成片输出等，将后期时间缩短60%以上。

1.6 如何利用AI在视频制作中取得成功

在AI辅助视频制作领域，想要取得成功，核心在于敢于探索与持续实践。不要过分在意具体的平台，不管是抖音还是快手，哪怕在所有平台上发布一模一样的内容，也要放手去做。通过在现实中开展看似难以做到的持续创作、上传以及内容输出等活动才能获取收益。

1.6.1 案例：当AI成为新世界的“普罗米修斯之火”

2023年9月7日，以AI与大模型为聚焦核心的上海外滩大会盛大启幕。在这场备受瞩目的科技盛会中，蚂蚁集团重磅发布蚂蚁金融大模型，正式向外界揭开其神秘面纱。作为大会开场的视频《点亮》，宛如一台时光放映机，凭借AI技术，栩栩如生地呈现出人类科技变革的宏大历史长卷，如图1-6-1至图1-6-4所示。从远古时期钻木取火的智慧萌芽，到工业革命中机器的轰鸣运转，再到信息时代互联网的飞速发展，每一次科技的重大突破，都如同在黑暗中点亮一盏明灯，为下一次变革孕育无限可能，也为人类文明的进步铺就坚实的基石。

图1-6-1

图1-6-2

图1-6-3

图1-6-4

如今，我们日常所见的每一则AI广告，又何尝不是如此？它们不仅是当下营销手段的创新呈现，更是对未来数字化技术成熟发展的深度探索与有力铺垫。每一次在广告创意中融入AI元素，每一次借助AI技术优化广告投放策略，都是在为构建更加智能、高效的数字化商业世界添砖加瓦。正如蚂蚁集团董事长井贤栋引用《奥本海默》中的经典文案来阐释AI的革命性意义：“这不是一个简单的新技术，而是一个全新的世界。”AI正以其磅礴之力，重塑我们的生活与认知，引领人类社会迈向一个充满无限可能的新纪元。