Case · 模型评测 / 竞品分析 / 数据洞察

文生图模型横向评测

在统一规则下，对 6 个头部文生图模型做匿名盲评——量化能力排名、拆解强弱维度、归因失败主因，并输出可执行的优化方向。

为脱敏，下文模型统一以「主产品 / 竞品 A–E」表示（按综合排名）；主产品为本次评测的核心对象。

01 — 背景与目标

不能闭门评估一家能力，而不看市场

2026 上半年文生图头部模型集中迭代，能力大幅跃迁，市场格局重新洗牌。团队此前缺少对「主产品相对其他头部模型究竟强在哪、弱在哪」的客观、系统认知。

因此发起本次竞品横向评测：用科学、可复现的方法，在统一规则下度量主产品与 5 个竞品，输出 能力排名 · 强弱项归因 · 优化方向建议 三项结果。

02 — 评测方法

每道题将 6 个模型在同一 prompt 下生成的 6 张图并排展示，匿名编号、随机打乱后由评测员按统一标准盲评，再按维度打分、归因主因。

Prompt 设计统一生成匿名编号盲评打分主因归因数据汇总结论 / 建议

03 — 评分框架

权重 0.5

主体、数量、动作、风格、景别、环境、文字——是否准确满足 prompt。

权重 0.3

光影、色彩、结构、细节、清晰度、AI 感——不看 prompt，只看画面是否自然好看。

权重 0.2

元素组合、创造能力、风格融合、语境理解——是否具备高级创作力。

一票否决

政治、色情、暴力、隐私、违规——安全为 0 则整题判不可用。

单题得分＝（指令遵循 ÷ 5 × 0.5 ＋图片质量 ÷ 3 × 0.3 ＋内容创造 ÷ 3 × 0.2）× 安全 × 100　　·　分档：<60 不可用 / 60–85 可用 / >85 优质

04 — 综合结果

排名	模型	均分 /100	优质率	不可用率	Top1	结论
1	竞品 A	93.8	83.3%	0.0%	20	综合标杆
2	竞品 B	87.6	52.8%	0.0%	4	均衡稳定
3	竞品 C	81.6	41.7%	11.1%	2	稳定性略优
4	主产品	80.1	33.3%	16.7%	9	有上限但波动大
5	竞品 D	76.7	11.1%	11.1%	0	听话但画面普通
6	竞品 E	72.3	16.7%	27.8%	1	不可用率最高

主产品均分仅次于竞品 C 1.5 分，Top1 次数（9）反超多数竞品——说明上限存在；但不可用率高达 16.7%（6 题低于 60）。核心问题不是「没有高分样本」，而是「失败样本偏多、下限不稳」。

05 — 分维度能力

模型	指令遵循 /5	图片质量 /3	内容创造 /3
竞品 A	4.92	2.83	2.44
竞品 B	4.75	2.53	2.22
竞品 C	4.31	2.50	2.03
主产品	4.14	2.44	2.14
竞品 D	4.47	2.08	1.67
竞品 E	3.64	2.33	1.89

主产品的图片质量（2.44，中上）与内容创造（2.14，第 3）并不弱；最需补齐的是指令遵循——当主体、数量、动作、景别、风格同时出现时，模型容易优先保画面氛围，牺牲细节约束（多主体关系错位、「全身入镜」变半身、明确数量遗漏、复杂空间结构不自洽）。

06 — 分场景表现

表中数字为各场景均分（满分 100），主产品列高亮。

07 — 结论与优化建议

主产品的问题不能简单归因于「画质差」——美学成片能力有基础（动漫、电商已较强），真正的瓶颈是复杂 prompt 的结构化解析、要素绑定与生成后自检。因此优化不应只追求「更好看」，而要先修复可用性。

优先级	问题	数据证据	优化建议
P0	降低不可用率	6/36 不可用，人物/风景/科幻均有失败样本	建立不可用 badcase 专项集，按主因拆错，做 hard prompt 回归
P0	人物 / 科幻稳定性	人物 1/6 优质、科幻 0/6 优质	补多人关系、全身景别、空间结构、机械细节样本
P1	美食垂类	美食仅 1/6 优质，落后竞品 B	补高质量美食摄影偏好样本，强化材质/层次/摆盘
P2	人物真实感	面部「AI 塑料感」，手部/毛孔不稳	增真人摄影偏好样本，做手部/面部专项
P3	中文文字渲染	海报/招牌场景易错字、乱码	建中文文字专项集，覆盖招牌/包装/小字

这套评测的价值不止于「打分」，而是给出了从测量 → 归因 → 专项集建设 → 回归闭环的完整路径：先建 badcase 池、再做失败类型聚类、补专项数据、定期回归复测。

文生图模型横向评测 · 2026 查看简历 →