Binary and Scalar Embedding Quantization for Significantly Faster & Cheaper Retrieval

Hugging Face Blog · 2024-03-22

Open source

Related items

AIHugging Face Blog2025-10-01

Introducing RTEB: A New Standard for Retrieval Evaluation

AIHugging Face Blog2025-04-29

Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs

AIarXiv cs.AI2026-05-26

Natural Language Query to Configuration for Retrieval Agents

Modern retrieval agents expose many configuration choices -- LLM, retriever, number of documents, number of hops, and synthesis strategy -- each shaping both answer quality and serving cost. Today, these pipelines are typically hand-tuned once per workload, leaving substantial per-query optimization untapped. We for...

AIHugging Face Blog2024-03-18

Quanto: a PyTorch quantization backend for Optimum

AIHugging Face Blog2026-05-14

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

AIHugging Face Blog2023-05-24