11 Matching Annotations
  1. Apr 2026
    1. aration.

      une section ou parties le savais-tu / fun fact ? - Cursor ou Claude quand: quand il te prompose de suiwtch en mode planning, il mesure le temps du click, c'est une KPI à traquer. - Quand tu lui dit "continue", c'est une KPI qui permet d'ientifier à quelle moment l'agent se fatigue ou stale. - Les benchmarks AI c'est une direction: Un Bon nombre des benchmark d’agents IA les plus populaires du secteur sont fondamentalement dépassées. goodhart's law https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

    2. Traces (LangSmith, Langfuse, Arize), logs des outils appelés, métriques : taux de succès, hallucination rate, coût par tâche, temps d'exécution. Sans ça, on ne peut ni debugger, ni améliorer.

      penser amélrioration des le départ. c'est lent ? quelle est votre toolcall le moins performant ? soucis de latence ? prompt processing ? token gen ? Pourquoi l'agent se trompe ici ? manque skill ? context ? collecter le maximum pour pour du self-improvoment avec un autre modele.

    3. mise à jour de sécurité

      code propagation, dependency management at scale, or sometimes fleet-wide remediation pas que mise à jour de sécurité

      cve critique le soir, impactant 100 projets. le matin, PR, test, lien de test, notification et revue.

    4. Documentation métier, specs produit, historique des décisions, RAG bien indexé, référentiels internes. Un agent sans contexte pertinent produira du générique — au mieux inutile, au pire faux.

      context engeering cest une progression du prompt engineering. c'est plus la gestion du context: mémoire, compactage / resumé (qu'est ce qui est importante à garder & preventing "context rot" + micro-compacting) et nettoyage des outils

    5. d'evals avant production, comme des tests unitaires — avec des cas nominaux, des cas limites et des cas adversariaux.
      • Humain-in-the-loop
      • LLM a a judge (bias pour iterer plus vite)