1 Matching Annotations
  1. Last 7 days
    1. feat(benchmarks): add screenshot-based evaluator, screenshot collector, and --parallelize flag - Add screenshot-based LLM judge evaluator (evaluator.ts) - Add ScreenshotCollector for capturing browser screenshots during runs

      令人惊讶的是:这个项目包含一个基于截图的评估系统,使用LLM作为评判员来评估自动化任务的结果。它能够捕获浏览器截图并在运行过程中收集这些视觉数据,这为网页自动化任务提供了一种全新的评估方式,超越了传统的文本比较方法。