
书名:AI科研绘图 : Nano Banana极速实战指南
ISBN:978-7-115-69702-8
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

著 张鼎伦
责任编辑 卜一凡
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315

人工智能(AI)在图像生成领域的快速发展,为科研插图创作提供了技术支持。针对科研人员在绘制科研插图中面临的痛点,本书构建了一套AI科研绘图方法论,该方法论适配多学科场景的视觉化表达。第1章从认知层面重新定义科研绘图的本质与边界,明确“好图”的标准及AI绘图的必要性;第2章以Nano Banana Pro为例,讲解模型接入、核心功能及辅助工具;第3章与第4章聚焦方法与实战,介绍从论文文本抽象结构关系的策略、不同领域下的提示词构建;第5章介绍复杂插图的模块化生成及矢量化处理;第6章则梳理AI辅助绘图的伦理边界与合规路径。全书旨在通过结构抽象与精准表达的底层逻辑,帮助科研人员提升科研绘图质量与效率,并建立稳定的科研绘图工作流,也为初学者提供实践起点。
本书适合所有需要绘制科研论文插图的科研人员,尤其是缺乏设计背景、希望提升表达质量与效率的研究生与青年教师阅读。

翻开本书的你,或许正在经历一个熟悉却难以言说的阶段:论文结构已经成型,实验数据已经过反复验证,推导过程经得起推敲,唯独插图迟迟无法定稿;一张结构示意图来回调整,一套配色方案反复推翻,时间在无声流逝。高质量的插图往往决定审稿人与读者对论文的第一印象,清晰的表达结构则直接影响审稿人与读者在有限时间内对论文核心贡献的判断。
近年来,人工智能(Artificial Intelligence,AI)在图像生成领域快速发展。AI生成的图像的质量持续提升,细节表达愈发稳定,结构控制能力显著增强。越来越多的人开始尝试借助AI完成科研插图的设计与绘制。作为一名科研人员,在绘制论文插图的实践过程中,我经常思考一个问题:这些AI绘图工具,能否真正服务于科研场景,而不仅停留在艺术创作层面?
最初的尝试并不顺利。当我使用结构关系模糊的提示词时,生成的图像难以体现论文的逻辑。在反复试错中,我发现,决定出图质量的核心在于如何将论文文本转化为清晰的表达结构,再用精准的语言加以描述。随着这套方法逐渐成型,Nano Banana Pro等AI绘图模型[1]终于能稳定输出符合学术审美的插图初稿了。这种从偶然盲测到稳定输出的转变,让我萌生了将这条实践路径系统整理出来的想法。
[1] 本书所提到的“AI绘图模型”与“AI绘图工具”有所区分。例如,Nano Banana是AI绘图工具,Nano Banana Pro是AI绘图模型。
起初,我将这套方法浓缩为文章并将其发布在“Datawhale”公众号上,该文章获得了广泛传播与积极反馈。但在评论区,许多科研人员针对工具平替、后期可编辑性、跨学科适用性及学术规范等问题提出了具体困惑。这些真实的声音让我深感,单篇文章或许能讲透科研绘图工作流的核心内容,却远不足以承载一个完整的体系。在Datawhale的支持与出版团队的推动下,将这篇文章转成书的想法才最终落地。
本书并非简单的工具使用指南,而是致力于提供一套系统的AI科研绘图方法论,以回应这些痛点,补齐工作流中缺失的环节。第1章从认知层面重新定义科研绘图的本质与边界,将插图视为科学信息的视觉化转译。第2章以Nano Banana Pro为例,讲解具体操作路径与文生图、图生图两种对话模式的使用技巧,同时补充介绍Qwen-image-2.0等模型的使用入口,以期帮助读者快速建立实践能力。第3章与第4章聚焦方法与实战,探讨如何从论文文本抽象出结构关系,并在计算机、材料与化学、生物与医学等不同学科场景下构建清晰、可控的视觉表达。第5章为进阶篇,强调精准控制与体系化管理,介绍模块化生成与矢量化处理,以及构建素材库。第6章则专门对学术伦理边界进行梳理,确保在拥抱技术、提升效率的同时,守住学术规范的底线。
纵观全书,本书的核心价值不仅在于节省科研人员在科研绘图上花费的时间,更在于提供一种全新的思考方式。科研插图不是美化页面的附属元素,而是对逻辑、结构与思想的视觉化表达。一旦掌握了结构抽象与表达的核心方法,工具的更迭便不再令人焦虑。无论是Nano Banana Pro、Qwen-image-2.0,还是未来更强大的模型,这套底层逻辑始终适用。
基于这样的理念,本书面向所有需要绘制科研论文插图的科研人员,尤其是缺乏设计背景却希望提升表达质量与效率的研究生与青年教师。如果你已经熟练掌握AI绘图工具,这本书能帮助你建立更稳定的科研绘图工作流与个人风格;如果你尚在观望,它也可以成为你实践的起点。
在阅读与实践的过程中,希望你能保持独立思考与判断。技术不断发展,学术规范也在同步完善。如何在使用新工具与保持学术诚信之间确立边界,是每一位科研人员必须面对的课题。需要说明的是,本书旨在提供方法与经验,最终的合规责任仍需由科研人员自行承担。
最后,谨向在本书写作与出版过程中给予我支持和帮助的师长、同人致以诚挚的感谢。感谢导师陈太聪老师在我的研究与写作阶段给予我持续鼓励,为我系统梳理相关探索、形成完整框架创造条件。感谢Datawhale社区周理璇(Amy)、范晶晶、马晓皖、卢水琼及社区其他成员在实践交流中给予的支持与反馈,使书稿不断完善。感谢人民邮电出版社信息技术分社社长陈冀康与策划编辑卜一凡在本书出版过程中的专业指导与耐心审阅。同时,感谢家人长期以来的理解与陪伴。正是这些支持,使本书得以顺利完成。
愿这本书成为你提升科研表达能力的得力助手。希望当你再次面对空白画布时,心中已有结构,手中已有方法。

本书提供如下资源:
•AI科研绘图速查手册;
•“Figma人工手绘实操教程”视频;
•“Illustrator自动描摹方法实操教程”视频;
•“Edit Banana自动矢量化实操教程”视频;
•每章的知识脉络图;
•读者QQ群(群号:1048319747):
•本书思维导图;
•异步社区7天VIP会员。
要获得以上资源,您可以扫描下方二维码,根据指引领取。

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入勘误信息,单击“提交勘误”按钮即可。本书的作者和编辑会对您提交的勘误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作译者与读者在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域40余年的发展与积淀。异步图书面向IT行业以及各行业使用IT的用户。

在科研道路上,许多人都有过类似的困境,终于“跑通”了实验数据,理顺了论文逻辑,最后却卡在了绘制论文插图这一关。用PPT拼凑的流程图显得不够专业,用Visio连线时总是难以对齐,想要学习专业三维软件又缺少时间。更令人头疼的是面对审稿人的修改意见,哪怕只是改动一个模块,可能整张图都需要推倒重来。我们往往将大量宝贵的科研时间,消耗在了对齐线条和调整配色这些机械劳动之中。
本章将从认知的角度重新审视科研绘图。我们需要厘清在AI时代,哪些图必须亲力亲为,哪些环节可以借助AI提升效率,并学会以审稿人的视角去审视一张图的优劣。
科研绘图有别于艺术创作,其本质在于科学信息的视觉化转译。
在科研论文中,图表的核心任务在于降低读者的认知负荷,以最高的效率传递科学逻辑。面对种类繁多的图表,科研人员需要建立一个清晰的分类坐标系,这涉及工具的选择和学术伦理的边界。
在实际科研写作中,由于科研领域不同,科研人员通常会遇到多种类型的插图。为了明确不同图像的使用边界,在此将常见的科研插图概括为三类。
第一类是定量数据图。这类图直接反映实验结果,包含折线图、柱状图、散点图等。其核心特征在于每一个像素点都对应着真实的实验数值。在此类插图中,主流学术期刊普遍不允许使用生成式AI直接生成图像内容。AI的生成机制是基于概率预测,所产出的数据点往往是基于像素规律的“幻觉”,而非真实数据。正确的做法是继续使用Origin等专业软件作图,AI仅可用于提供配色建议或编写绘图代码。图1-1所示的柱状图即为定量数据图。

图1-1 定量数据图[1]
[1] 本图来源于GitHub上的deepseek-ai/DeepSeek-R1项目。
Nature期刊官方在其图像完整性政策中指出,投稿的数字图像必须正确反映原始数据,不允许使用任何会改变数据本质或掩盖原始数据的手段,期刊编辑可能会使用软件检测图像处理,并在需要时要求作者提供原始未处理数据。
第二类是实证影像图。这类图是实验的直接证据,包括显微镜照片、电泳图、实物装置图等。它们记录客观事实,讲究原真性。此类图通常禁止使用AI去噪或放大等生成式填充修改,仅允许调整全图线性的亮度和对比度。图1-2所示的电子显微镜下的细胞结构图就是实证影像图的典型代表。

图1-2 实证影像图[2]
[2] 本图来源于“A brief history of microglial ultrastructure: distinctive features, phenotypes, and functions discovered over the past 60 years by electron microscopy”论文。
第三类是定性示意图。这才是本书聚焦的核心内容,也是最耗费科研人员精力的部分。它不依赖具体数值,侧重于表达逻辑、流程、机制和概念,是科研人员脑中科学假说和逻辑推演的具象化。图1-3所示的机制示意图即为定性示意图,此外,无论是展示细胞信号通路的原理图,还是描述算法模型架构的流程图,也都属于此类。

图1-3 定性示意图[3]
[3] 本图来源于“Attention is all you need”论文。
需要明确的是,在当前主流期刊的规范下,即便不涉及数据,AI直接生成的示意图通常也不宜作为论文终稿中的插图。
这类图在设计阶段具有极高价值。Nano Banana Pro能够理解复杂的结构化文本,将抽象逻辑快速转化为高质量的视觉草案,为科研人员提供成熟的构图思路与风格参考,从而显著降低后续人工绘制与修改的时间成本。
当我们评价一张图时,不能只凭主观感觉判断“好看”或“难看”。在同行评审的语境下,一张能被顶刊接收的论文插图,往往需要在三个核心维度上满足要求:科学性、逻辑性和艺术性。这三个维度共同决定了图的专业度与说服力。与此同时,科研插图的美学也具有一些通用的法则,并因学科领域的不同而存在显著差异。本节将从“好图”具有的特性、科研美学的通用准则和领域风格的定向适配三个层面,梳理“好图”的达成逻辑。
首先,科学性是不可逾越的底线。无论构图多么精致,一旦违反基本科学常识,这张图就失去了存在价值。科学性是科研绘图的生命线,同时也是最基本的合格标准。它的核心标准只有一个:诚实。所有视觉表达都必须真实反映数据、模型和实验事实,图中存在的任何形式的误导都会导致这张图被认定为一张失败的图。
其次,逻辑性决定叙事是否顺畅。一张好的科研插图还需要具备自明性。读者在不阅读正文的情况下,仅凭图和图注就应当能够理解作者的核心表达。这要求图中的信息呈现具有明确的先后顺序,视线流动自然,没有需要反复比对或猜测含义的地方。
视觉层级(Visual Hierarchy)
通过位置、大小、对比度和颜色的差异,在图中建立清晰的阅读优先级,引导读者先看到最重要的信息,再逐步关注次要内容。
当视觉层级清晰时,读者几乎无须刻意思考“该从哪里看起”,理解过程顺畅且低负担。这正是顶级期刊插图往往显得“稳定”“专业”的重要原因之一。在这一层面,理性判断尤为重要。删减无关装饰、控制背景复杂度、统一配色体系,可以确保视觉注意力始终聚焦在关键路径上,同时弱化次要信息对理解的干扰。
最后,艺术性体现为认知负荷的管理能力。艺术性是科研绘图中最容易被误解的维度。在科研语境下,它并不等同于装饰或炫技,而是利用视觉心理学规律,降低大脑处理信息的负担。一张让人感到“清晰”“舒服”的图,往往顺应了人类感知视觉信息的本能。在这一视角下,艺术性并非对装饰性的追求,而是一种高度功能化的设计能力。合理的布局、和谐的配色及清晰的结构,最终服务的都是理解效率,而非视觉炫技。
要实现上述特性,绘制具有科研美学的图,无论在哪个学科领域,都需要遵循一套通用的法则——克制与秩序。
首先是减法思维。在科研绘图中,很多问题并非源于信息不足,而是信息过载。无关背景、装饰性线条和视觉效果会持续消耗读者的注意力,使真正重要的数据被淹没。成熟的科研美学往往体现为克制,当干扰项被移除后,数据本身会自然成为视觉焦点。
数据墨水比(Data–Ink Ratio)
图中用于呈现数据的信息墨水应尽可能占据更高比例,所有不直接承载数据或必要结构的信息元素都应被削减。优秀的可视化应当最大化数据表达,最小化视觉噪声。
在数据墨水比的原则下,默认的灰色背景、密集网格线、立体阴影和冗余边框都属于典型的低价值元素。它们并不会帮助读者理解数据,反而会分散读者的视觉注意力。当这些元素被移除后,插图往往会立刻变得清爽且有表现力。
其次是利用布局建立秩序。顶级期刊中的组图之所以看起来整齐且专业,很大程度上源于对人类视觉直觉的充分利用。将相关的实验结果紧密排列时,读者会下意识地把它们视为同一组;在不同图板中使同一变量保持一致的颜色或符号,即便不加文字说明,读者也能迅速对其建立起对应关系。这种通过空间位置和视觉相似性形成的内在秩序,使读者几乎不需要额外思考就能理解信息。
格式塔原则(Gestalt Principles)
人的大脑天然倾向于把位置接近、形态相似的元素归为一个整体,科研绘图正是借助这一认知规律,在不增加读者理解文字负担的情况下完成逻辑表达。
最后是科学的色彩管理。颜色是传递数据的载体而非装饰品。传统彩虹色谱因亮度突变容易制造数据幻觉,已被可视化界公认为具有误导性,现代标准推荐使用Viridis或Magma等感知均匀的色谱。同时,考虑到色觉障碍人群的需求,应避免使用红绿配色的组合,转而采用洋红色与绿色搭配,这不仅体现了学术包容性,更在视觉上呈现出更强的专业感。
感知均匀色谱(Perceptually Uniform Colormap)
这类色谱在亮度和颜色变化上更加平滑,不会因为颜色跳变而夸大或掩盖数据差异,从而降低视觉误判的风险。
在掌握通用法则的基础上,我们还需洞察不同学科领域的审美偏好,这决定了你的插图是否具有“圈内人”的味道。目前的顶刊审稿人对图的审美主要呈现出两种截然不同的取向。
一种是偏向物理、计算机与人工智能领域的极简主义风格。以CVPR、NeurIPS会议或Nature Physics为代表,这类插图偏扁平化设计与矢量感。以图1-4所示的计算机领域插图为例,该插图使用低饱和度的莫兰迪色系,线条硬朗清晰,强调拓扑结构与逻辑流的直接表达,排斥不必要的三维渲染与光影修饰。
另一种则是偏向生物、医学与材料科学的拟真风格。以Nature、Science或Cell为代表,这类插图更“青睐”三维质感与真实环境的复现。它们强调微观细节的丰富度,常利用环境光遮蔽(AO)与次表面散射(SSS)等渲染技术来模拟细胞、蛋白质或纳米材料的真实质感,通过极强的视觉冲击力来营造沉浸式的微观世界。图1-5所示的生物医学领域插图即体现了这一拟真风格。

图1-4 计算机领域插图[4]
[4] 本图来源于“Attention is all you need”论文。
理解并对齐这两种审美取向,能让你的插图瞬间获得审稿人的专业认同,从而在评审中占据优势。

图1-5 生物医学领域插图风格[5]
[5] 本图来源于“Three-dimensional bioprinted in vitro glioma tumor constructs forsynchrotron microbeam radiotherapy dosimetry and biological study using gelatin methacryloyl hydrogel”论文。
你或许还在犹豫:用传统的PPT和Visio绘图虽然慢,但也够用,真的有必要引入AI吗?即使不考虑最终成稿,单纯从设计与迭代效率的角度看,这一步改变就非常值得。回想一下,以前你为了画一张复杂的神经网络架构图,半天的时间很容易就搭进去了;而现在利用AI,输入指令后几分钟就能得到多种方案(图)。这能让你从烦琐的“对齐、连线”中解脱出来,腾出更多精力去关注论文逻辑与实验本身。
除了快,AI绘图还解决了一个让很多科研人员头疼的问题——审美。
科研人员往往具备良好的逻辑思维,知道图里该有什么,但未必懂得如何让它“好看”。布局怎么摆才平衡?配色怎么搭才高级?这些设计层面的短板,往往导致科研人员画出来的图虽然在科学性上达标,但视觉效果总觉不尽如人意。AI的介入,相当于给你配备了一位中上水平甚至是顶级的专业设计师。你只负责提供科学逻辑,剩下的配色、光影和排版工作,统统交给它。它能帮助你将一张草图瞬间渲染出顶级期刊封面的质感,让你的论文不再因为配图质量而处于劣势。
当然,要让科研人员真正放心地将绘图任务交付给AI,前提是AI绘图工具必须具备极高的可信度与精确性。得益于两次关键的技术突破,现在利用AI绘图终于具备了这种“科研级”的可行性。
首先是LLM语义理解与空间逻辑的质变。早期的AI绘图工具往往只能通过简单的关键词“概率性猜测”绘图,这种图容易导致结构崩坏或逻辑错乱。而现在的AI绘图工具背后都有强大的大语言模型(Large Language Model,LLM)作为支撑,这让AI绘图工具从“画师”进化为了“工程师”—它开始具备复杂的因果推理能力。当你输入“A包含B,且B指向C”时,高级的AI绘图工具会像一位严谨的科研人员,先构建准确的逻辑拓扑,再进行视觉渲染。这意味着,我们终于可以用自然语言实现对图像结构的精确控制。
更关键的突破在于文字渲染能力的成熟。这为AI科研绘图补上了最后一块拼图。过去,AI绘图工具极不擅长处理画面中的字符,总是生成一堆不可读的乱码,导致我们对生成的图必须用Photoshop 进行烦琐的二次加工。而现在,像Z-Image、Nano Banana Pro等先进的模型已经具备了原生的文字理解与生成能力。它们不仅能实现图文的完美融合,甚至还能直接生成电影海报、带有精准对白的四格漫画,乃至复杂的项目架构图和带标注的科研图。
最后,为什么Nano Banana Pro是科研人员绘图的首选?
市面上AI绘图工具众多,Midjourney侧重艺术美感但难以精确控制,Stable Diffusion虽然强大但使用门槛较高。Nano Banana Pro之所以脱颖而出,是因为它具备独特的“理工科逻辑思维”。它不仅能精准解析晦涩的科研术语与复杂的空间指令,还能遵循事实优先原则,有效地规避了纯艺术类AI工具那种天马行空的随意发挥(幻觉)问题。这使得它在生成拓扑结构、生化通路及流程图等高逻辑密度的图时游刃有余。
本章重新定义了科研绘图的本质与边界,明确了AI在绘制定性示意图中的核心发力点。同时,本章探讨了决定一张“好图”的科学性、逻辑性与艺术性三大维度,确立了“克制与秩序”的科研美学法则,并指明了针对不同学科进行视觉风格定向适配的路径。最后,本章论证了引入以Nano Banana Pro为代表的AI绘图模型在科研绘图工作流中的必要性与革命性优势。为了帮助你更好地消化并内化这些底层理念,我们将本章的核心内容整理成了图1-6所示的全景式知识脉络图。
认知决定高度,工具决定效率。在建立了正确的绘图理念与审美标准后,第2章将正式进入“工具篇”,为你系统拆解本书的核心生成模型及其配套的上下游工具链,为后续的实战演练奠定坚实的基础。

图1-6 第1章的知识脉络