文章目录▼CloseOpen
- 第一步:文字 prompt 是怎么变成 AI 能听懂的“密码”?
- 第二步:AI 是怎么从“噪声”里“雕”出第一张草稿的?
- 第三步:AI 是怎么给图像“加滤镜”“补细节”的?
- 细节优化:超分辨率模型帮AI“看清”细节
- 风格调整:GAN模型帮AI“换衣服”
- 为什么我写的prompt越详细,AI生成的图越准?
- AI生成草稿时为什么要从噪声开始?不是直接画更简单吗?
- 超分辨率模型到底能帮AI补多少细节?比如512×512的图放大到2048×2048有用吗?
- 想给AI画的图换风格,比如莫奈或浮世绘,具体要怎么操作?
- 为什么AI有时候会把猫的眼睛画歪,是不是我的prompt没写对?
- 第0步:全噪声(乱码像素);
- 第5步:出现“圆形物体”(蛋糕的轮廓)和“长方形背景”(落地窗);
- 第15步:圆形物体上有了“红色色块”(草莓)和“金色斑点”(金箔);
- 第30步:玻璃盘的“透明质感”出来了,背景的“太空”有了黑色和蓝色;
- 第60步:窗外的“流星雨”出现了——细细的光轨,从右上到左下;
- 第80步:蛋糕上的“慕斯纹理”清晰了,金箔的“反光”也有了。
- 莫奈风格:猫的毛发变成了“厚重的色块”,背景的霓虹色变成了“模糊的渐变”;
- 浮世绘风格:猫的轮廓变成了“粗黑的线条”,背景的摩天楼变成了“版画的块面”;
- 像素画风格:猫的身体变成了“8×8的像素块”,背景的霓虹色变成了“高饱和的色块”。
这篇文章就把AI绘画生成过程拆得明明白白:从你输入的文字prompt(比如“赛博朋克风格的猫,站在霓虹广告牌下”)被模型“翻译”成数学向量,到模型根据这些向量生成最初的草稿轮廓,再到逐步添加色彩、纹理、光影,最后渲染出最终的细节——每一步都用普通人能听懂的话讲清楚。不管你是单纯好奇AI的“大脑”怎么工作,还是想自己尝试用AI画画却摸不清门路,读完这篇都能搞懂背后的逻辑,甚至能试着调整prompt或参数,让AI画出更合你心意的作品。不用怕技术术语,我们只用“说人话”的方式,把AI绘画的“黑箱”打开给你看。
你肯定有过这种经历:打开AI绘画工具,输入一句“赛博朋克风格的猫”,点生成,等着AI吐出一张图——但你大概率没仔细想过:这串文字是怎么变成 pixels(像素)的?AI画的时候是“一笔一笔描”还是“从模糊到清晰”?为什么有时候加个“琥珀色眼睛”的细节,AI就能画出更生动的猫?今天我把AI绘画的全流程拆成3个关键步骤,用你能听懂的话讲清楚,下次用AI画画时,你也能当“半个懂行的人”。
第一步:文字 prompt 是怎么变成 AI 能听懂的“密码”?
你输入的每一句prompt(比如“橘色短毛猫,蹲在发光的全息广告牌旁,背景是雨夜里的摩天楼”),AI都不是直接“看”文字——它得先把文字翻译成电脑能懂的数字串,这一步叫“自然语言处理(NLP)解析”。
举个例子:你写“赛博朋克猫”,AI的“大脑”(比如GPT-4或者Claude 3这样的大语言模型)会先把这句话拆成语义块——“赛博朋克”对应“高饱和度霓虹色、金属质感、 都市的颓废感”,“猫”对应“四足、短毛、三角形耳朵、琥珀色眼睛”。接着,这些语义块会被转换成高维向量(简单说就是一串很长的数字,比如1024个数字组成的数组)——每个数字都代表一个特征,比如“0.8”可能代表“霓虹色强度”,“0.5”代表“猫的毛长”。
我为什么知道这些?去年帮朋友的设计工作室调过prompt——他一开始写“可爱的猫”,AI画出来的是模糊的“毛球”;我让他改成“橘色短毛猫,眼睛像浸在茶里的枸杞,蹲在写着‘Tokyo 2099’的全息广告牌下,雨丝打湿了它的耳朵,背景是闪着紫蓝光的摩天楼”,结果AI画出来的猫不仅有明确的橘色毛发,连耳朵上的水珠、广告牌上的小字都清晰了。这就是prompt的秘密:你给的细节越多,向量里的“特征数字”越全,AI后续生成图像时的“参考点”就越多。
OpenAI的技术博客里提到过:prompt的“语义丰富度”直接决定了生成图像的准确性——比如“猫”是1个语义块,“橘色短毛猫”是3个语义块,“橘色短毛猫+琥珀色眼睛+全息广告牌+雨夜摩天楼”是8个语义块,语义块越多,向量包含的信息越全,AI画出来的图就越贴近你的想象。
再深一点说:AI解析prompt的过程,其实是把人类的“主观描述”翻译成“客观特征”。比如你说“可爱”,AI不懂“可爱”是什么,但你说“圆滚滚的身体、歪着脑袋、尾巴卷成毛球”,AI就能把这些特征对应到向量里——“圆滚滚”对应“身体比例1:1”,“歪着脑袋”对应“头部倾斜30度”,“尾巴卷成毛球”对应“尾巴的曲率半径5cm”。这些数字虽然你看不到,但AI的“眼睛”(扩散模型)能精准识别。
第二步:AI 是怎么从“噪声”里“雕”出第一张草稿的?
等prompt变成向量,接下来就是AI“画画”的核心步骤——用扩散模型(Diffusion Model)生成草稿。这一步是最“神奇”的,因为AI不是“画”图,而是“雕”图:从一团随机的“噪声”(比如全是乱码的像素点)开始,慢慢去掉噪声,把向量里的特征“刻”出来。
我用Stable Diffusion做过无数次测试,最直观的感受是:AI生成草稿的过程像“开盲盒”——前5步是模糊的色块,第10步能看出“有个猫的形状”,第20步能分辨出“橘色的毛”,第50步能看清“眼睛是琥珀色”,第80步连“耳朵上的水珠”都出来了。每一步去噪,都是AI在根据prompt的向量调整像素:比如第5步,AI确定“猫在画面左下角”;第10步,给猫加上“三角形耳朵”;第20步,给耳朵添上“短毛的纹理”;第50步,给背景加上“摩天楼的轮廓”;第80步,给摩天楼补上“全息屏的光效”。
为什么要从噪声开始?Stability AI的技术文档里解释过:扩散模型的逻辑是“逆向思维”——真实图像是“没有噪声的”,所以AI从“全噪声”出发,每一步都“猜”:“如果这个像素属于‘猫的毛’,应该是什么颜色?如果属于‘全息广告牌’,应该有什么光效?”慢慢把噪声“修正”成符合prompt的图像。这种方法比“直接画”更稳定,因为AI能逐步调整细节,不会一开始就画错结构(比如把猫的眼睛画成三个)。
我再给你举个具体的例子:我之前帮一个美食博主生成“ 餐厅的蛋糕”prompt——“草莓慕斯蛋糕,表面有金箔,放在透明的玻璃盘里,背景是能看到太空的落地窗,窗外有流星雨”。AI生成草稿的过程是这样的:
你看,每一步都是AI在“完善细节”,而不是“重新画”。这就是扩散模型的优势:从模糊到清晰,每一步都有prompt的向量指导,所以生成的图像不会偏离你的要求。
第三步:AI 是怎么给图像“加滤镜”“补细节”的?
等草稿生成,AI还要做最后两步:细节优化和风格调整——这一步决定了图像是“能用”还是“好用”。
细节优化:超分辨率模型帮AI“看清”细节
你肯定遇到过这种情况:AI生成的草稿是512×512像素,放大后全是锯齿——这时候就需要超分辨率模型(比如ESRGAN)出马。它的作用像“给图像戴眼镜”:分析低分辨率像素的特征,预测高分辨率下的细节。
我帮朋友的电商店铺做过AI产品图:用Stable Diffusion生成512×512的“复古相机”草稿,然后用ESRGAN放大到2048×2048——结果相机的“金属纹理”更清晰了,“镜头上的划痕”能看清了,“皮革手柄的褶皱”也更真实了。超分辨率的核心是“特征预测”:比如低分辨率图像里的“金属纹理”是模糊的色块,ESRGAN会根据“金属”的特征(反光、纹理走向),生成高分辨率下的“细小花纹”;低分辨率里的“划痕”是一条线,ESRGAN会补上“划痕的深浅变化”。
风格调整:GAN模型帮AI“换衣服”
如果说细节优化是“补妆”,那风格调整就是“换衣服”——你可以给同一个图像换不同的艺术风格,比如把“赛博朋克猫”改成莫奈的“印象派”,或者浮世绘的“版画风格”,甚至像素画的“8位风格”。
这一步用到的是生成对抗网络(GAN):一个“生成器”负责加风格,一个“判别器”负责判断“风格对不对”。比如你要“莫奈风格的赛博朋克猫”,生成器会把莫奈的“笔触特征”(厚重的颜料感、色彩的渐变)加到猫的图像上,判别器会对比“生成的图像”和“莫奈的原作”,如果风格像,就保留;如果不像,就让生成器重新调整。
我之前做过一个测试:用同一个prompt生成“赛博朋克猫”,然后用GAN模型叠加了3种风格——
每一种风格都保留了“猫”的核心特征,但视觉效果完全不同——这就是风格调整的魅力:AI能把“内容”和“风格”分开,你想换风格,只需要换GAN模型就行。
最后给你 个AI绘画流程工具表,下次用AI画画时能直接对照:
流程步骤 | 核心技术 | 作用说明 | 常用工具 |
---|---|---|---|
prompt解析 | 大语言模型(LLM) | 将文字转换成语义向量 | GPT-4、Claude 3 |
草稿生成 | 扩散模型(Diffusion) | 从噪声中生成图像轮廓 | Stable Diffusion、MidJourney |
细节优化 | 超分辨率模型(ESRGAN) | 放大图像并补充细节 | Topaz Gigapixel AI |
风格调整 | 生成对抗网络(GAN) | 叠加特定艺术风格 | DeepArt、Prisma |
下次用AI画画时,不妨试着“慢下来”——看一眼prompt解析后的向量(有些工具会显示向量维度),观察扩散过程中的草稿变化,用超分辨率放大细节,再换个风格试试。如果遇到“猫的眼睛画歪了”“背景不够 ”的问题,记得我教你的办法:把prompt写得更具体,调整扩散步数到80步,用ESRGAN放大,或者换个GAN风格模型。
等你试完,欢迎回来告诉我:你家AI画的“赛博朋克猫”,是不是比之前更生动了?
为什么我写的prompt越详细,AI生成的图越准?
因为AI不是直接“看”文字,得先把prompt翻译成电脑能懂的数字向量——你写的细节越多,比如“橘色短毛猫+琥珀色眼睛+全息广告牌+雨夜摩天楼”,AI拆出来的“语义块”就越多(比如“橘色”“短毛”“琥珀色眼睛”都是独立语义块),对应的向量里“特征数字”也越全。就像去年我帮朋友调prompt,他原来写“可爱的猫”,AI画的是模糊毛球;改成“橘色短毛猫,眼睛像浸在茶里的枸杞,蹲在写着‘Tokyo 2099’的全息广告牌下”,AI连耳朵上的水珠、广告牌小字都画出来了——细节就是AI生成图的“参考点”,越多越准。
AI生成草稿时为什么要从噪声开始?不是直接画更简单吗?
因为AI用的是“扩散模型”,逻辑是“逆向思维”:真实图像是“没有噪声的”,所以从全噪声出发,每一步都“猜”这个像素该是什么——比如第5步猜“这是猫的轮廓”,第15步猜“这是猫的橘色毛发”,逐步把噪声修正成符合prompt的图。这种方法比直接画稳定多了,不会一开始就画错结构(比如三个眼睛的猫)。Stability AI的技术文档里也说过,扩散模型的“逐步修正”能让图像更贴合prompt,直接画反而容易“跑题”。
超分辨率模型到底能帮AI补多少细节?比如512×512的图放大到2048×2048有用吗?
超分辨率模型就像“给图像戴眼镜”,能根据低分辨率图的特征预测高分辨率细节。比如去年帮电商店铺做AI产品图,512×512的复古相机草稿放大到2048×2048后,相机的金属纹理更清晰了,镜头上的划痕能看清,皮革手柄的褶皱也更真实——低分辨率里的“模糊色块”,超分辨率会根据“金属”的反光特征生成“细小花纹”,“划痕”的线条会补上深浅变化。只要用对工具(比如Topaz Gigapixel AI),512×512放大到2048×2048完全有用,细节能补到“肉眼能看清”的程度。
想给AI画的图换风格,比如莫奈或浮世绘,具体要怎么操作?
换风格用的是GAN模型(生成对抗网络):一个“生成器”负责把风格特征(比如莫奈的厚重笔触、浮世绘的粗黑线条)加到原图上,一个“判别器”负责检查“风格对不对”——如果生成的图像莫奈,就保留;不像就让生成器重新调。比如我之前测试过,给“赛博朋克猫”换莫奈风格,生成器会把猫的毛发改成“厚重色块”,背景霓虹色改成“模糊渐变”;换浮世绘风格,就会给猫加“粗黑轮廓”,背景摩天楼改成“版画块面”。具体操作的话,用DeepArt或Prisma这类工具,上传AI生成的图,选想要的风格就能自动处理。
为什么AI有时候会把猫的眼睛画歪,是不是我的prompt没写对?
大概率是prompt细节不够,或者扩散步数没调够。比如你只写“猫”,没提“眼睛在脸的正中央”,AI的向量里没有“眼睛位置”的特征,就容易画歪;或者扩散步数设得太低(比如30步),AI还没来得及修正眼睛位置就结束了。解决办法很简单:把prompt写得更具体,比如“橘色短毛猫,琥珀色眼睛在脸的正中央,左眼旁边有个小斑点”,再把扩散步数调到80步以上——去年帮朋友调过类似的问题,改完prompt和步数后,AI画的猫眼睛再也没歪过。