2 min read

VL 模型对 ppt 文字识别的评测

VL 模型对 ppt 文字识别的评测

智谱今天发布了 GLM-4.1V-9B-Thinking 号称在 GLM-4V 架构基础上引入“思维链推理机制(Chain-of-Thought Reasoning)”,采用“课程采样强化学习策略(RLCS)”,系统性提升模型跨模态因果推理能力与稳定性,而且刷榜了高分。引起了我的兴趣,就用几个 demo 跑了一个 ppt 的文字识别场景。

ppt 里面包含了一个难点,一个就是水印,一个就是环形的带文字,类似于这种。这种非水平的文字也 给一些模型带来了困难。另外都是一个简单的提示词:把里面的所有文字提取出来。没有做任何提示词工程。

下面看看各个模型的表现

模型/维度 文字全面 环形逻辑 水印抽取 幻觉程度 综合评分
GLM-4.1V-9B-Thinking 100 90 0 100 72.5
Mistral Small 3.2 24B 70 10 0 50 42.5
Gemma 3 12B IT 60 60 70 50 60
Phi 4 Multimodal Instruct 20 0 0 0 5
Qwen2.5 VL 32B Instruct 100 0 100 100 75
Gemma 3 27B 80 0 0 50 42.5
o4 Mini 100 80 0 100 70
Gemini 2.5 Flash 80 20 0 70 42.5
Claude Sonnet 4 80 50 0 80 52.5

可以看到 Qwen 还是最强,甚至比 openAI 的都强,当然也可能是因为中文的原因,他也是唯一一个识别出来水印的模型,Gemma IT 也识别了水印,但是是当成文字去识别的,识别了好多行重复的水印。

新发的 GLM 4.1V thinking 也很强,特别是完整的识别了环形逻辑和环形字体的正确识别,如果不是没有识别水印,他就是第一了。

考虑到 4.1V 的参数量更少,其实已经很牛了,唯一的缺点就是 thinking 出结果的速度慢。但使用场景确实可以和 Qwen 拼一下了。