01Case · 模型评测 / 竞品分析 / 数据洞察
文生图模型横向评测
在统一规则下,对 6 个头部文生图模型做匿名盲评——量化能力排名、拆解强弱维度、归因失败主因,并输出可执行的优化方向。
为脱敏,下文模型统一以「主产品 / 竞品 A–E」表示(按综合排名);主产品为本次评测的核心对象。
01 — 背景与目标
不能闭门评估一家能力,而不看市场
2026 上半年文生图头部模型集中迭代,能力大幅跃迁,市场格局重新洗牌。团队此前缺少对「主产品相对其他头部模型究竟强在哪、弱在哪」的客观、系统认知。
因此发起本次竞品横向评测:用科学、可复现的方法,在统一规则下度量主产品与 5 个竞品,输出 能力排名 · 强弱项归因 · 优化方向建议 三项结果。
02 — 评测方法
同题横评 + 匿名盲评,把主观打分尽量做客观
每道题将 6 个模型在同一 prompt 下生成的 6 张图并排展示,匿名编号、随机打乱后由评测员按统一标准盲评,再按维度打分、归因主因。
Prompt 设计统一生成匿名编号盲评打分主因归因数据汇总结论 / 建议
01
02
03
04
05
0603 — 评分框架
四个维度,加权打分,安全一票否决
权重 0.5
指令遵循
主体、数量、动作、风格、景别、环境、文字——是否准确满足 prompt。
权重 0.3
图片质量
光影、色彩、结构、细节、清晰度、AI 感——不看 prompt,只看画面是否自然好看。
权重 0.2
内容创造
元素组合、创造能力、风格融合、语境理解——是否具备高级创作力。
一票否决
安全合规
政治、色情、暴力、隐私、违规——安全为 0 则整题判不可用。
单题得分 =(指令遵循 ÷ 5 × 0.5 + 图片质量 ÷ 3 × 0.3 + 内容创造 ÷ 3 × 0.2)× 安全 × 100 · 分档:<60 不可用 / 60–85 可用 / >85 优质
04 — 综合结果
主产品:上限够高,下限不稳
| 排名 | 模型 | 均分 /100 | 优质率 | 不可用率 | Top1 | 结论 |
|---|---|---|---|---|---|---|
| 1 | 竞品 A | 93.8 | 83.3% | 0.0% | 20 | 综合标杆 |
| 2 | 竞品 B | 87.6 | 52.8% | 0.0% | 4 | 均衡稳定 |
| 3 | 竞品 C | 81.6 | 41.7% | 11.1% | 2 | 稳定性略优 |
| 4 | 主产品 | 80.1 | 33.3% | 16.7% | 9 | 有上限但波动大 |
| 5 | 竞品 D | 76.7 | 11.1% | 11.1% | 0 | 听话但画面普通 |
| 6 | 竞品 E | 72.3 | 16.7% | 27.8% | 1 | 不可用率最高 |
主产品均分仅次于竞品 C 1.5 分,Top1 次数(9)反超多数竞品——说明上限存在;但不可用率高达 16.7%(6 题低于 60)。核心问题不是「没有高分样本」,而是「失败样本偏多、下限不稳」。
05 — 分维度能力
质量不拖后腿,指令遵循是短板
| 模型 | 指令遵循 /5 | 图片质量 /3 | 内容创造 /3 |
|---|---|---|---|
| 竞品 A | 4.92 | 2.83 | 2.44 |
| 竞品 B | 4.75 | 2.53 | 2.22 |
| 竞品 C | 4.31 | 2.50 | 2.03 |
| 主产品 | 4.14 | 2.44 | 2.14 |
| 竞品 D | 4.47 | 2.08 | 1.67 |
| 竞品 E | 3.64 | 2.33 | 1.89 |
主产品的图片质量(2.44,中上)与内容创造(2.14,第 3)并不弱;最需补齐的是指令遵循——当主体、数量、动作、景别、风格同时出现时,模型容易优先保画面氛围,牺牲细节约束(多主体关系错位、「全身入镜」变半身、明确数量遗漏、复杂空间结构不自洽)。
06 — 分场景表现
动漫 / 电商是优势,科幻 / 人物是短板
| 场景 | 主产品 | 竞品 A | 竞品 B | 竞品 C | 竞品 D | 竞品 E | 判断 |
|---|---|---|---|---|---|---|---|
| 人物 | 74.4 | 93.3 | 83.3 | 72.8 | 80.6 | 57.2 | 短板 |
| 电商营销 | 88.3 | 96.7 | 90.6 | 93.3 | 78.9 | 63.9 | 优势 |
| 动漫 | 87.2 | 98.9 | 93.3 | 76.7 | 75.0 | 78.9 | 优势 |
| 风景 | 79.4 | 92.2 | 86.7 | 79.4 | 75.6 | 80.0 | 中等 |
| 科幻 | 71.7 | 93.3 | 82.8 | 82.2 | 80.0 | 77.8 | 明显短板 |
| 美食 | 79.4 | 88.3 | 88.9 | 85.0 | 70.0 | 76.1 | 中等偏弱 |
表中数字为各场景均分(满分 100),主产品列高亮。
主产品
综合标杆07 — 结论与优化建议
先降不可用率,再提优质率,最后拓上限
主产品的问题不能简单归因于「画质差」——美学成片能力有基础(动漫、电商已较强),真正的瓶颈是复杂 prompt 的结构化解析、要素绑定与生成后自检。因此优化不应只追求「更好看」,而要先修复可用性。
| 优先级 | 问题 | 数据证据 | 优化建议 |
|---|---|---|---|
| P0 | 降低不可用率 | 6/36 不可用,人物/风景/科幻均有失败样本 | 建立不可用 badcase 专项集,按主因拆错,做 hard prompt 回归 |
| P0 | 人物 / 科幻稳定性 | 人物 1/6 优质、科幻 0/6 优质 | 补多人关系、全身景别、空间结构、机械细节样本 |
| P1 | 美食垂类 | 美食仅 1/6 优质,落后竞品 B | 补高质量美食摄影偏好样本,强化材质/层次/摆盘 |
| P2 | 人物真实感 | 面部「AI 塑料感」,手部/毛孔不稳 | 增真人摄影偏好样本,做手部/面部专项 |
| P3 | 中文文字渲染 | 海报/招牌场景易错字、乱码 | 建中文文字专项集,覆盖招牌/包装/小字 |
这套评测的价值不止于「打分」,而是给出了从测量 → 归因 → 专项集建设 → 回归闭环的完整路径:先建 badcase 池、再做失败类型聚类、补专项数据、定期回归复测。
文生图模型横向评测 · 2026
查看简历 →