OptiLLM réduit automatiquement les coûts d'API des LLM jusqu'à 50%+ sans perte de qualité. Il achemine chaque requête vers le modèle le moins cher capable via des classifieurs ML, compresse les tokens avec LLMLingua-2 et met en cache les requêtes sémantiquement similaires avec FAISS. Proxy compatible OpenAI sans modification de code. Inclut des outils d'évaluation, des tableaux de bord analytiques et un entraînement personnalisé du routeur pour optimiser en continu le compromis coût-qualité.
agents-ia