Case · 模型评测 / 竞品分析 / 数据洞察

文生图模型横向评测

在统一规则下,对 6 个头部文生图模型做匿名盲评——量化能力排名、拆解强弱维度、归因失败主因,并输出可执行的优化方向。

我的角色
评测规则设计 · 盲评打分 · 问题归因 · 报告撰写
样本口径
36 prompt × 6 模型 = 216 张
评测方式
同题横评 · 匿名盲评 · 分维度打分
时间
2026 上半年
为脱敏,下文模型统一以「主产品 / 竞品 A–E」表示(按综合排名);主产品为本次评测的核心对象。
01 — 背景与目标

不能闭门评估一家能力,而不看市场

2026 上半年文生图头部模型集中迭代,能力大幅跃迁,市场格局重新洗牌。团队此前缺少对「主产品相对其他头部模型究竟强在哪、弱在哪」的客观、系统认知。

因此发起本次竞品横向评测:用科学、可复现的方法,在统一规则下度量主产品与 5 个竞品,输出 能力排名 · 强弱项归因 · 优化方向建议 三项结果。

02 — 评测方法

同题横评 + 匿名盲评,把主观打分尽量做客观

每道题将 6 个模型在同一 prompt 下生成的 6 张图并排展示,匿名编号、随机打乱后由评测员按统一标准盲评,再按维度打分、归因主因。

Prompt 设计统一生成匿名编号盲评打分主因归因数据汇总结论 / 建议
同题横评匿名结果 0101
同题横评匿名结果 0202
同题横评匿名结果 0303
同题横评匿名结果 0404
同题横评匿名结果 0505
同题横评匿名结果 0606
同题横评示例 · prompt:「一棵大树从左到右呈现春花 / 夏绿 / 秋黄 / 冬雪四季无缝过渡,超现实写实」——6 个模型结果匿名编号、随机打乱后盲评打分。
03 — 评分框架

四个维度,加权打分,安全一票否决

权重 0.5

指令遵循

主体、数量、动作、风格、景别、环境、文字——是否准确满足 prompt。

权重 0.3

图片质量

光影、色彩、结构、细节、清晰度、AI 感——不看 prompt,只看画面是否自然好看。

权重 0.2

内容创造

元素组合、创造能力、风格融合、语境理解——是否具备高级创作力。

一票否决

安全合规

政治、色情、暴力、隐私、违规——安全为 0 则整题判不可用。

单题得分 =(指令遵循 ÷ 5 × 0.5 + 图片质量 ÷ 3 × 0.3 + 内容创造 ÷ 3 × 0.2)× 安全 × 100  · 分档:<60 不可用 / 60–85 可用 / >85 优质
04 — 综合结果

主产品:上限够高,下限不稳

排名模型均分 /100优质率不可用率Top1结论
1竞品 A93.883.3%0.0%20综合标杆
2竞品 B87.652.8%0.0%4均衡稳定
3竞品 C81.641.7%11.1%2稳定性略优
4主产品80.133.3%16.7%9有上限但波动大
5竞品 D76.711.1%11.1%0听话但画面普通
6竞品 E72.316.7%27.8%1不可用率最高
主产品均分仅次于竞品 C 1.5 分,Top1 次数(9)反超多数竞品——说明上限存在;但不可用率高达 16.7%(6 题低于 60)。核心问题不是「没有高分样本」,而是「失败样本偏多、下限不稳」。
05 — 分维度能力

质量不拖后腿,指令遵循是短板

模型指令遵循 /5图片质量 /3内容创造 /3
竞品 A4.922.832.44
竞品 B4.752.532.22
竞品 C4.312.502.03
主产品4.142.442.14
竞品 D4.472.081.67
竞品 E3.642.331.89

主产品的图片质量(2.44,中上)与内容创造(2.14,第 3)并不弱;最需补齐的是指令遵循——当主体、数量、动作、景别、风格同时出现时,模型容易优先保画面氛围,牺牲细节约束(多主体关系错位、「全身入镜」变半身、明确数量遗漏、复杂空间结构不自洽)。

06 — 分场景表现

动漫 / 电商是优势,科幻 / 人物是短板

场景主产品竞品 A竞品 B竞品 C竞品 D竞品 E判断
人物74.493.383.372.880.657.2短板
电商营销88.396.790.693.378.963.9优势
动漫87.298.993.376.775.078.9优势
风景79.492.286.779.475.680.0中等
科幻71.793.382.882.280.077.8明显短板
美食79.488.388.985.070.076.1中等偏弱

表中数字为各场景均分(满分 100),主产品列高亮。

主产品在四季大树题的结果主产品
综合标杆在四季大树题的结果综合标杆
同题对比(四季大树):主产品(左)四季过渡偏雾化、季节边界与地景结构松散;综合标杆(右)四象限分明、天地过渡同步、结构完整。典型短板——复杂约束下牺牲结构换氛围。
07 — 结论与优化建议

先降不可用率,再提优质率,最后拓上限

主产品的问题不能简单归因于「画质差」——美学成片能力有基础(动漫、电商已较强),真正的瓶颈是复杂 prompt 的结构化解析、要素绑定与生成后自检。因此优化不应只追求「更好看」,而要先修复可用性。

优先级问题数据证据优化建议
P0降低不可用率6/36 不可用,人物/风景/科幻均有失败样本建立不可用 badcase 专项集,按主因拆错,做 hard prompt 回归
P0人物 / 科幻稳定性人物 1/6 优质、科幻 0/6 优质补多人关系、全身景别、空间结构、机械细节样本
P1美食垂类美食仅 1/6 优质,落后竞品 B补高质量美食摄影偏好样本,强化材质/层次/摆盘
P2人物真实感面部「AI 塑料感」,手部/毛孔不稳增真人摄影偏好样本,做手部/面部专项
P3中文文字渲染海报/招牌场景易错字、乱码建中文文字专项集,覆盖招牌/包装/小字
这套评测的价值不止于「打分」,而是给出了从测量 → 归因 → 专项集建设 → 回归闭环的完整路径:先建 badcase 池、再做失败类型聚类、补专项数据、定期回归复测。
文生图模型横向评测 · 2026 查看简历 →