1 Matching Annotations
  1. Last 7 days
    1. ,必须要OCR文本辅助"。但图片模糊的话,OCR的识别结果也会差。

      我用的是paddle ocrv5,单字的识别能力比qwen2-vl-72b都厉害,比gpt4o把,我觉得还是可以说ocr 效果更好吧。当然只说是更可能对的多,但是我想说,如果说ocr也错的,那就是很难辨认了,这时候如果有字很难,而且mllM发现自己的识字和ocr不一样,就自然再回图片去确认,这时候真不能判断谁对,mllm可能就会把这个字作为不可靠,提取的时候更偏向提取可靠的信息,就是结合了ocr之后,能基本确认这个字是什么。你觉得我说的对吗?从而就能减少在这只模糊的场景时,提取出错的问题,比如硬造了一个词,比如看不清也自信结果就是瞎编,顶多是提取不全,不全也是因为图片不清晰。