算力舱ComfyUI:主流模型生成插画评测

喵爸联萌

发布于254天前
创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
由于总是用算力舱~~不务正业~~生成图片,所以我打算做一系列针对各主流模型绘制不同风格的性能和质量评测。

由于懒猫算力舱内置支持ComfyUI,所以可以自由下载各种常用的绘画大模型,加上可以独立运行,所以就成了一个很好的图片生成工厂。


https://appstore.lazycat.cloud/#/shop/detail/cloud.lazycat.aipod.comfyui

本次将主要针对插画风格的图片进行测试,选用了两个提示词,用同样的参数对Flux1 Krea dev / Stable Diffustion 3.5 / Qwen-image / SDXL / Flux Dev 全量这五个(我常用的)模型进行对比。
 
# 参数

## 提示词1
提示词:
>a girl holding flowers in her hands, the bouquet is made of various colorful and beautiful plants, dark purple background, white shirt, digital illustration style, bright light on face, half body portrait, glowing highlights, glow effect, high contrast, surrealism, fantasy, art by ryo takemasa, tatsuya tanaka, makoto shinkai, studio ghibli style

翻译过来是:
>一个女孩手里拿着鲜花,花束由各种五颜六色美丽的植物制成,深紫色背景,白色衬衫,数字插图风格,脸上明亮的光线,半身像,发光的亮点,发光效果,高对比度,超现实主义,幻想,艺术,来自武政谅,田中达也,新海诚,吉卜力工作室风格

这个提示词的意图是营造一种清新梦幻的风格,其中:武政谅是风格很清新明快的插画师;田中达也是微摄摄影师,风格细腻安静;新海诚和吉卜力就不用多说了,都是以风格清新闻名。

## 提示词2
>a full-body character concept art of a demon geisha wearing black and red with devil horns, holding a small kitten in her hand, in the style of minjae lee. the background is simple, and the artwork is a digital illustration in a vector style painting with a detailed design and full color.

翻译
>一个全身的角色设定,恶魔艺妓穿着黑色和红色的衣服与魔鬼的角,手里拿着一只小猫,Minjae Lee的风格。背景很简单,艺术品是数字插图,矢量风格绘画,有详细设计和全色。

这里的Minjae Lee并不是明星李敏宰,而是一个韩国艺术家,插画风格比较繁杂细致(这里也可以看看AI认不认识此人)

## 测试时使用的通用参数:
尺寸:928x1232
步数:20步

----

# 测试结果对比

## Flux1 Krea Dev

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/6aea794a-3bae-4472-935c-c6405ee23b53.png "image.png")

### 生成时间:图一120秒 图二125秒


![image.png](https://dl.playground.lazycat.cloud/guidelines/319/e2d5839d-c7ff-4774-864a-15bcc396b087.png "image.png")

优点:画面很细腻,Krea特训过的模型人物本来就有一种特有的白净感,加上提示词中艺术家的描述后更加增强了这种风格,所以画面显得很干净,同时有很均匀的朦胧光晕。
缺点:并不是数字插画而是动漫风格,不过因为引用了新海诚和吉卜力,所以也不能说偏离太过,但这个风格更像是动画片里的场景。


![image.png](https://dl.playground.lazycat.cloud/guidelines/319/3dabdf37-656f-4482-83de-34036b9a5f0b.png "image.png")

优点:果然是Krea的白净感,各方面表达都不错,艺伎的表现很好
缺点:不是矢量感,猫不够生动。

## SD 3.5

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/78115173-2a7a-4961-94f5-5eef37015320.png "image.png")



### 生成时间:图一100秒 图二99秒

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/e8bceeca-818e-4f5e-b92b-883ec7006353.png "image.png")
优点:画面细致感足够高,因为要求的是数字插画,所以风格在动漫和写实之间,略带一点3D的感觉。光线从顶部洒下对花的渲染很好。
缺点:有点矢量或3D感,而且把这两种风格混合了,虽然都不偏离数字插画的风格,但这种风格其实较少见。花的顶部有些过于散乱,整体美感还差点意思。


![image.png](https://dl.playground.lazycat.cloud/guidelines/319/5d1b6268-569c-4c7d-a8f4-c6a262c5dfd0.png "image.png")

优点:出乎意料的细致,有日本风,或许理解了李敏宰画家的风格。
缺点:不是矢量风,猫动作很怪。

## Qwen-Image

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/48007e78-e0fa-4093-a2c8-30cacfb570f4.png "image.png")
### 生成时间:图一212秒 图二209秒

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/1fb4f18a-0854-4c3a-976b-0eff75f20170.png "image.png")



优点:虽然我总觉得Qwen有Flux血统,和Krea风格有时很近,但由于它的架构其实比Flux1要新,至少在语义理解的方面更好一些。这一幅的人物是风格上最接近吉卜力风的(没错,其实吉卜力风并不是你常见到的GPT画的那种),画面美感是这些测试中最好的。
缺点:人物和花的渲染有些过于“平面了”,虽然在提示中并没有要求而且平面也是一种不错的风格,但平面感和光晕背景多少有些不搭。



![image.png](https://dl.playground.lazycat.cloud/guidelines/319/c405d636-c481-434a-b151-949e678b1dab.png "image.png")

优点:有日本风,完美理解了矢量感。
缺点:细致并不够,但由于提示是矢量感所以可以理解。

# SDXL
![image.png](https://dl.playground.lazycat.cloud/guidelines/319/81f929c8-d994-443d-8f40-1ed4d39b2bf3.png "image.png")

### 生成时间:图一59秒 图二23秒

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/c61684c3-4162-4b47-b2ac-bc3558582d7c.png "image.png")
SDXL虽然算是应该淘汰掉的模型了,但做为二次元风格尤其是**某些内容**的图片主力,其实是我很常用的。但因为传统的XDSL是双模型且效果一般,所以我这里用了一个checkpoint而非原生模型。
优点:风格有强烈的动漫感,色彩明快,突出主要人物,焦点明确。更重要的优点是**生成速度超级快**,大约是其他家的1/2-1/4时间。
缺点:要求是插画而不是漫画,风格较为单一,虽然精度够了,但细节相对较少。


![image.png](https://dl.playground.lazycat.cloud/guidelines/319/21ef1167-34b1-451c-be13-8883ec96542d.png "image.png")

优点:速度极快,只有23秒,用时为Qwen的1/10。
缺点:完全没有理解风格和内容要求,风格单一,甚至理解为整个人坐在手上,手的结构还出错了。(虽然产生了意外的趣味)

## Flux Dev 全量

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/bd575b5d-5173-4610-9ddc-5cf4859f2aff.png "image.png")

### 生成时间:图一130秒 图二145秒

![image.png](https://dl.playground.lazycat.cloud/guidelines/319/efddcda6-9534-4701-a408-d5d300f82211.png "image.png")


优点:作为原生的FLux,其实它本身定位和主打是绘制写实照片,所以画倒这个水平其实是超出预期的,细致感很高,表达也很好。
缺点:光影有点怪,较强的线条感导致更加“动漫”,立体感和质感不强。
![image.png](https://dl.playground.lazycat.cloud/guidelines/319/2841d316-d3cd-4a15-b0ea-1576c90e6c01.png "image.png")

优点:中规中矩理解了要求,风格虽然不是矢量感但也比较平面。
缺点:尾巴结构有误,神态和整体美感比较一般。

----

# 总结
模型|Flux1 Krea Dev|Stable Diffusion 3.5|Qwen-image|SDXL|Flux dev
|---|---|---|---|---|---|
速度|约120秒|约100秒|约210秒|小于50秒|约130秒|
质量|++++|+++|++++|++|++
理解力|+++|++|++++|++|+++
美感|++++|+++|+++|+++|++
特点|美感相对高,质量优秀|比较通用,时有惊喜|符合需求,复杂理解较好|求快,二次元|在插画方面无明显优势

总之:Krea相对来说各方面比较平衡,美感有保证,速度也可以接受。SD3.5相对来说也能符合一般的要求。Qwen除了速度较慢,理解能力很好,美感也能兜底。SDXL超快,如果喜欢二次元可以尝试。原生FLux感觉存在感不强,同样要求不如试试Krea版。

评论

0

暂无评论

说点什么呢~
收藏
2
0
0