PM Liu Shuaishuai / AI Product Portfolio
← 返回 Work 容器

深案例 / 多模态评测 / 数据闭环

多模态大模型评测:从模型短板定位到数据优化闭环

在 T2I / I2I 多模态场景中,围绕模型能力评测、Benchmark、标签体系和自动化打标,建立可复用的评测与数据建设链路。

核心问题

当模型生成效果看起来很主观时,怎样把“好不好”拆成可评测、可归因、可迭代的数据闭环?

这个案例展示我如何从评测目标、标签体系、Benchmark、自动化评测到数据策略,把多模态模型迭代从经验判断推进到结构化证据。

Execution Snapshot

先看我如何把问题拆成执行链路

这部分优先给招聘方一个可扫读的判断入口:我重点推动了什么、证据落在哪里、执行顺序怎么展开。

我重点推动
  • 先把主观生成质量拆成可评测目标,而不是直接堆指标
  • 围绕生成链路重建标签体系、Benchmark 和问题归因方式
  • 把自动化机评、人工 GT 与数据优化策略串成闭环
公开证据
初版 1000+ 数据样本沉淀 150 条标准评测数据完成 2 轮评测迭代

当前页面只展示可公开材料,敏感指标、截图和内部细节继续做脱敏收口。

执行链路
01

先锁评测目标

把项目目标先收敛到“定位模型短板并指导迭代”,避免评测停留在展示型打分。

02

再拆标签与考点

围绕 reasoning、理解、生成、修改等关键节点设计标签,让结果能回到具体能力环节。

03

搭建机评与人工校验

通过自动化打标、多模型交叉验证和人工 GT 校验,提升评测效率和置信度。

04

反推数据优化

把评测结论回写到数据生产和 Prompt 节点,为后续 SFT 与版本迭代提供明确抓手。

Visual Evidence

把“主观生成效果”改造成可复用的评测闭环

这张结构图对应我在项目里推动的核心链路:不是单点打分,而是把目标、标签、数据、机评和优化动作串成真正能指导迭代的系统。

01

先定义评测目标

先明确要回答的是“模型短板在哪里、为什么、怎样迭代”,而不是泛泛比较哪张图更好。

02

围绕链路拆标签

把生成过程拆成 reasoning、理解、生成、修改等关键节点,让标签天然具备问题归因能力。

03

建立 Benchmark 数据

通过采集、清洗、标注和难度分布控制,沉淀能区分能力差异的标准评测数据。

04

机评结合人工 GT

用自动化打标、多模型交叉验证和人工校验一起提升效率,同时保住结论可信度。

05

把结论回写优化

把评测输出进一步转成数据建设、Prompt 调整和版本迭代动作,形成真正可执行的优化闭环。

闭环回写

评测结果不会停留在报告里,而是继续回到数据生产、Prompt 设计和下一轮 Benchmark 更新。

为什么这块重要

对招聘方来说,这块证据比单纯写“做过评测”更重要,因为它能直接说明我具备把模型能力拆成产品化工作流的能力。

背景

在 T2I、I2I 等多模态生成场景下,模型效果很容易停留在主观感受层面。团队需要一条更完整的评测链路,用来定位模型能力水平与短板,指导 SFT 数据建设,并支撑后续模型版本迭代。

我参与的重点不是单次打分,而是把“模型哪里不行、为什么不行、应该补什么数据”拆成可复用的评测与数据生产体系。

问题定义

这个项目的核心问题可以拆成三层:

  • 模型能力如何被稳定衡量,而不是只靠单张图的好坏印象。
  • 评测数据如何覆盖足够多场景和难度,同时保持能力区分度。
  • 评测结论如何反向指导数据建设,而不是停留在报告里。

我的角色

我参与了评测体系重构、Benchmark 构建、考点标签迭代、自动化评测和问题归因相关工作,重点包括:

  • 明确评测核心目标,调研并引入 PN-VQA 等评测机制,制定分阶段落地策略。
  • 拆解模型生图链路,构建以 reasoning 为核心的可复用标签体系。
  • 通过多渠道采集、清洗、标注数据,并用场景和难度标签调控数据分布。
  • 搭建自动化打标 Bot,通过多模型交叉验证和人工 GT 校验提升机评置信度。
  • 基于模型对标分析定位短板,并输出针对性数据优化策略。

关键产品决策

决策 1:先评测目标,再评测指标

如果只堆指标,评测体系会变成“看起来很完整,但无法指导迭代”。我把评测目标先收敛到能力短板定位,再反推标签、考点、数据分布和评测机制。

决策 2:标签体系围绕生成链路而不是素材分类

多模态生成不是简单的图片质量问题。评测标签需要能对应模型 reasoning、理解、生成、修改等链路节点,才能在结果不好时帮助定位是哪一类能力不足。

决策 3:机评必须保留置信度与人工校验

自动化评测能提升效率,但如果没有人工 GT 校验和多模型交叉验证,就容易把模型偏差包装成评测结论。因此评测链路保留了机器评估与人工校验的双重机制。

落地产出

当前可公开的结果包括:

  • 从初版 1000+ 数据中沉淀出 150 条标准评测数据。
  • 完成 2 轮评测迭代,评测数据具备多样性、能力区分度和标签适配性。
  • 建立自动化打标与人工校验结合的评测机制。
  • 基于评测结论输出数据优化与迭代策略。

数据建设延展

围绕评测发现的能力短板,我也参与了标准化数据生产链路设计。链路通过 workflow 把输入、RAG、思考、反思、生图、修正等节点串联起来,使训练数据从输入到输出更加可控、可追溯。

在 Prompt 工程层面,我针对检索、思考、生图、修正等节点定制 Prompt,明确节点角色、任务目标、执行逻辑和 few-shot 示例,用来减少无效数据产出和链路迭代成本。

复盘

这个项目让我更明确地意识到:AI 产品经理不能只站在“功能是否酷”的视角,而要能把模型能力拆成可观测、可评估、可干预的系统。真正有价值的 AI 产品工作,往往发生在模型、数据、评测和业务目标之间的连接层。

后续补强

  • 可公开的评测流程图或标签体系示意。
  • 更明确的个人负责边界与协作对象。
  • 如果可公开,补充链路质量提升的脱敏前后对比。