VL 模型对 ppt 文字识别的评测

智谱今天发布了 GLM-4.1V-9B-Thinking 号称在 GLM-4V 架构基础上引入“思维链推理机制(Chain-of-Thought Reasoning)”,采用“课程采样强化学习策略(RLCS)”,系统性提升模型跨模态因果推理能力与稳定性,而且刷榜了高分。引起了我的兴趣,就用几个 demo 跑了一个 ppt 的文字识别场景。
ppt 里面包含了一个难点,一个就是水印,一个就是环形的带文字,类似于这种。这种非水平的文字也 给一些模型带来了困难。另外都是一个简单的提示词:把里面的所有文字提取出来。没有做任何提示词工程。

下面看看各个模型的表现
模型/维度 | 文字全面 | 环形逻辑 | 水印抽取 | 幻觉程度 | 综合评分 |
---|---|---|---|---|---|
GLM-4.1V-9B-Thinking | 100 | 90 | 0 | 100 | 72.5 |
Mistral Small 3.2 24B | 70 | 10 | 0 | 50 | 42.5 |
Gemma 3 12B IT | 60 | 60 | 70 | 50 | 60 |
Phi 4 Multimodal Instruct | 20 | 0 | 0 | 0 | 5 |
Qwen2.5 VL 32B Instruct | 100 | 0 | 100 | 100 | 75 |
Gemma 3 27B | 80 | 0 | 0 | 50 | 42.5 |
o4 Mini | 100 | 80 | 0 | 100 | 70 |
Gemini 2.5 Flash | 80 | 20 | 0 | 70 | 42.5 | Claude Sonnet 4 | 80 | 50 | 0 | 80 | 52.5 |
可以看到 Qwen 还是最强,甚至比 openAI 的都强,当然也可能是因为中文的原因,他也是唯一一个识别出来水印的模型,Gemma IT 也识别了水印,但是是当成文字去识别的,识别了好多行重复的水印。
新发的 GLM 4.1V thinking 也很强,特别是完整的识别了环形逻辑和环形字体的正确识别,如果不是没有识别水印,他就是第一了。
考虑到 4.1V 的参数量更少,其实已经很牛了,唯一的缺点就是 thinking 出结果的速度慢。但使用场景确实可以和 Qwen 拼一下了。
Member discussion