Hypothesis

，必须要OCR文本辅助"。但图片模糊的话，OCR的识别结果也会差。

我用的是paddle ocrv5,单字的识别能力比qwen2-vl-72b都厉害，比gpt4o把，我觉得还是可以说ocr 效果更好吧。当然只说是更可能对的多，但是我想说，如果说ocr也错的，那就是很难辨认了，这时候如果有字很难，而且mllM发现自己的识字和ocr不一样，就自然再回图片去确认，这时候真不能判断谁对，mllm可能就会把这个字作为不可靠，提取的时候更偏向提取可靠的信息，就是结合了ocr之后，能基本确认这个字是什么。你觉得我说的对吗？从而就能减少在这只模糊的场景时，提取出错的问题，比如硬造了一个词，比如看不清也自信结果就是瞎编，顶多是提取不全，不全也是因为图片不清晰。

Annotators

URL