深案例 / 多模态评测 / 数据闭环

多模态大模型评测：从模型短板定位到数据优化闭环

在 T2I / I2I 多模态场景中，围绕模型能力评测、Benchmark、标签体系和自动化打标，建立可复用的评测与数据建设链路。

核心问题

当模型生成效果看起来很主观时，怎样把“好不好”拆成可评测、可归因、可迭代的数据闭环？

这个案例展示我如何从评测目标、标签体系、Benchmark、自动化评测到数据策略，把多模态模型迭代从经验判断推进到结构化证据。

我重点推动

先把主观生成质量拆成可评测目标，而不是直接堆指标
围绕生成链路重建标签体系、Benchmark 和问题归因方式
把自动化机评、人工 GT 与数据优化策略串成闭环

公开证据

初版 1000+ 数据样本沉淀 150 条标准评测数据完成 2 轮评测迭代

当前页面只展示可公开材料，敏感指标、截图和内部细节继续做脱敏收口。

执行链路

先锁评测目标

把项目目标先收敛到“定位模型短板并指导迭代”，避免评测停留在展示型打分。

再拆标签与考点

围绕 reasoning、理解、生成、修改等关键节点设计标签，让结果能回到具体能力环节。

搭建机评与人工校验

通过自动化打标、多模型交叉验证和人工 GT 校验，提升评测效率和置信度。

反推数据优化

把评测结论回写到数据生产和 Prompt 节点，为后续 SFT 与版本迭代提供明确抓手。

先定义评测目标

先明确要回答的是“模型短板在哪里、为什么、怎样迭代”，而不是泛泛比较哪张图更好。

围绕链路拆标签

把生成过程拆成 reasoning、理解、生成、修改等关键节点，让标签天然具备问题归因能力。

建立 Benchmark 数据

通过采集、清洗、标注和难度分布控制，沉淀能区分能力差异的标准评测数据。

机评结合人工 GT

用自动化打标、多模型交叉验证和人工校验一起提升效率，同时保住结论可信度。

把结论回写优化

把评测输出进一步转成数据建设、Prompt 调整和版本迭代动作，形成真正可执行的优化闭环。

闭环回写

评测结果不会停留在报告里，而是继续回到数据生产、Prompt 设计和下一轮 Benchmark 更新。

为什么这块重要

对招聘方来说，这块证据比单纯写“做过评测”更重要，因为它能直接说明我具备把模型能力拆成产品化工作流的能力。

背景

在 T2I、I2I 等多模态生成场景下，模型效果很容易停留在主观感受层面。团队需要一条更完整的评测链路，用来定位模型能力水平与短板，指导 SFT 数据建设，并支撑后续模型版本迭代。

我参与的重点不是单次打分，而是把“模型哪里不行、为什么不行、应该补什么数据”拆成可复用的评测与数据生产体系。

问题定义

这个项目的核心问题可以拆成三层：

模型能力如何被稳定衡量，而不是只靠单张图的好坏印象。
评测数据如何覆盖足够多场景和难度，同时保持能力区分度。
评测结论如何反向指导数据建设，而不是停留在报告里。

我的角色

我参与了评测体系重构、Benchmark 构建、考点标签迭代、自动化评测和问题归因相关工作，重点包括：

明确评测核心目标，调研并引入 PN-VQA 等评测机制，制定分阶段落地策略。
拆解模型生图链路，构建以 reasoning 为核心的可复用标签体系。
通过多渠道采集、清洗、标注数据，并用场景和难度标签调控数据分布。
搭建自动化打标 Bot，通过多模型交叉验证和人工 GT 校验提升机评置信度。
基于模型对标分析定位短板，并输出针对性数据优化策略。

关键产品决策

决策 1：先评测目标，再评测指标

如果只堆指标，评测体系会变成“看起来很完整，但无法指导迭代”。我把评测目标先收敛到能力短板定位，再反推标签、考点、数据分布和评测机制。

决策 2：标签体系围绕生成链路而不是素材分类

多模态生成不是简单的图片质量问题。评测标签需要能对应模型 reasoning、理解、生成、修改等链路节点，才能在结果不好时帮助定位是哪一类能力不足。

决策 3：机评必须保留置信度与人工校验

自动化评测能提升效率，但如果没有人工 GT 校验和多模型交叉验证，就容易把模型偏差包装成评测结论。因此评测链路保留了机器评估与人工校验的双重机制。

落地产出

当前可公开的结果包括：

从初版 1000+ 数据中沉淀出 150 条标准评测数据。
完成 2 轮评测迭代，评测数据具备多样性、能力区分度和标签适配性。
建立自动化打标与人工校验结合的评测机制。
基于评测结论输出数据优化与迭代策略。

数据建设延展

围绕评测发现的能力短板，我也参与了标准化数据生产链路设计。链路通过 workflow 把输入、RAG、思考、反思、生图、修正等节点串联起来，使训练数据从输入到输出更加可控、可追溯。

在 Prompt 工程层面，我针对检索、思考、生图、修正等节点定制 Prompt，明确节点角色、任务目标、执行逻辑和 few-shot 示例，用来减少无效数据产出和链路迭代成本。

复盘

这个项目让我更明确地意识到：AI 产品经理不能只站在“功能是否酷”的视角，而要能把模型能力拆成可观测、可评估、可干预的系统。真正有价值的 AI 产品工作，往往发生在模型、数据、评测和业务目标之间的连接层。

后续补强

可公开的评测流程图或标签体系示意。
更明确的个人负责边界与协作对象。
如果可公开，补充链路质量提升的脱敏前后对比。