4 Matching Annotations
  1. Apr 2026
    1. Fisher-Rao Quantization-Aware Distance (FRQAD) -- a new metric on the Gaussian statistical manifold achieving 100% precision at preferring high-fidelity embeddings over quantized ones (vs 85.6% for cosine), with zero prior art.

      这项声称100%精度的FRQAD指标令人惊讶,因为它远超传统余弦相似度的85.6%。如果属实,这将彻底改变我们处理嵌入向量压缩和相似度计算的方式,挑战当前广泛使用的余弦相似度在信息检索领域的统治地位。

    1. a quantized 1.7B model (just 290MB in size) can run at ~100 tokens per second entirely in your browser

      令人惊讶的是:如此庞大的语言模型(17亿参数)可以被压缩到仅290MB,并在浏览器中以每秒100个token的速度运行,这展示了模型量化技术的惊人进步,使得复杂的AI模型可以在普通设备上高效运行。

    1. NVFP4 enables 4-bit precision while maintaining nearly identical accuracy to 8-bit precision, increasing performance per watt and lowering cost per token.

      大多数人认为降低模型精度会显著牺牲性能,但作者声称Gemma 4通过NVFP4量化技术实现了4位精度与8位精度几乎相同的准确率。这一反直觉的结论挑战了传统量化会大幅降低模型性能的认知,暗示NVIDIA可能在量化技术方面取得了突破性进展。

  2. Nov 2023