In our own testing, the net effect is favorable—token usage across all effort levels is improved on an internal coding evaluation, as shown below—but we recommend measuring the difference on real traffic.
Anthropic的"net effect is favorable"这一自我评估揭示了其内部评估的局限性。虽然他们在编码测试中观察到所有努力水平下的token使用率都有所改善,但这种"有利"判断是基于内部评估的,而非真实流量数据。这种自我衡量的"有利"可能忽略了实际应用中的复杂变量,如用户交互模式、任务多样性或长期成本效益。Anthropic建议在真实流量中测量差异,实际上暗示了内部测试与实际表现之间可能存在的差距,反映了AI模型评估中常见的理想化测试环境与真实世界应用之间的鸿沟。