Hypothesis

11 Matching Annotations

Apr 2026
void.ma void.ma

Harness Engineering : l'art de rendre les agents IA fiables en production

11
1. hbahlaouane 22 Apr 2026
  
  in Public
  
  aration.
  
  une section ou parties le savais-tu / fun fact ? - Cursor ou Claude quand: quand il te prompose de suiwtch en mode planning, il mesure le temps du click, c'est une KPI à traquer. - Quand tu lui dit "continue", c'est une KPI qui permet d'ientifier à quelle moment l'agent se fatigue ou stale. - Les benchmarks AI c'est une direction: Un Bon nombre des benchmark d’agents IA les plus populaires du secteur sont fondamentalement dépassées. goodhart's law https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/
2. hbahlaouane 22 Apr 2026
  
  in Public
  
  Traces (LangSmith, Langfuse, Arize), logs des outils appelés, métriques : taux de succès, hallucination rate, coût par tâche, temps d'exécution. Sans ça, on ne peut ni debugger, ni améliorer.
  
  penser amélrioration des le départ. c'est lent ? quelle est votre toolcall le moins performant ? soucis de latence ? prompt processing ? token gen ? Pourquoi l'agent se trompe ici ? manque skill ? context ? collecter le maximum pour pour du self-improvoment avec un autre modele.
3. hbahlaouane 22 Apr 2026
  
  in Public
  
  Plateforme Git
  
  manque sandbox, docker ou https://sandboxagent.dev/ ou autre
4. hbahlaouane 22 Apr 2026
  
  in Public
  
  Ollama
  
  vllm plutôt c'est plus pro
5. hbahlaouane 22 Apr 2026
  
  in Public
  
  mise à jour de sécurité
  
  code propagation, dependency management at scale, or sometimes fleet-wide remediation pas que mise à jour de sécurité
  
  cve critique le soir, impactant 100 projets. le matin, PR, test, lien de test, notification et revue.
6. hbahlaouane 22 Apr 2026
  
  in Public
  
  strict,
  
  feedback live (lint & quick checks)
7. hbahlaouane 22 Apr 2026
  
  in Public
  
  Documentation métier, specs produit, historique des décisions, RAG bien indexé, référentiels internes. Un agent sans contexte pertinent produira du générique — au mieux inutile, au pire faux.
  
  context engeering cest une progression du prompt engineering. c'est plus la gestion du context: mémoire, compactage / resumé (qu'est ce qui est importante à garder & preventing "context rot" + micro-compacting) et nettoyage des outils
8. hbahlaouane 22 Apr 2026
  
  in Public
  
  accès en lecture/écriture à un
  
  sandbox https://docs.docker.com/ai/sandboxes/
9. hbahlaouane 22 Apr 2026
  
  in Public
  
  d'evals avant production, comme des tests unitaires — avec des cas nominaux, des cas limites et des cas adversariaux.
  
  Humain-in-the-loop
  
  LLM a a judge (bias pour iterer plus vite)
10. hbahlaouane 22 Apr 2026
  
  in Public
  
  Validation loops
  
  stricte pipeline ci - Quality Gates: Sonar way - Security: Snyk, trivy...
11. hbahlaouane 22 Apr 2026
  
  in Public
  
  'impose co
  
  token burner
Visit annotations in context

Annotators

hbahlaouane

URL

void.ma/publications/harness-engineering-agents-ia-fiables-production/

Annotators

URL