Harness Engineering · Codigo Sin Siesta · 2026

Harness
Engineering

La diferencia entre un buen agente y uno mediocre
ya no la marca el modelo — la marca el harness.

NLAH · Tsinghua Meta-Harness · Stanford AutoHarness · DeepMind Marzo 2026
Alejandro de la Fuente

Alejandro de la Fuente

Tech Lead · NTT Data · GDNE

Slide 2 · El hallazgo

Mismo modelo. Mismo benchmark.

× 0 ×

de diferencia en rendimiento.

Stanford · 2026

La lógica de orquestación que envuelve al LLM produce hoy más variación de rendimiento que el propio modelo.

LangChain · TerminalBench 2.0

Modificando solo la infraestructura del harness, su coding agent saltó del puesto 30+ al puesto 5.

Slide 3 · El arnés del caballo

Por qué se llama harness.

Un LLM en bruto es un caballo desbocado capaz de generar miles de líneas de código. El arnés son las riendas que le pones para que el galope sea útil — el ingeniero ya no escribe el código, diseña el arnés que sujeta al modelo.

Cualquier arnés se descompone en 4 piezas
01

Contexto

Qué información ve el modelo y en qué orden.

02

Herramientas

Qué acciones puede ejecutar — pocas, simples, generales.

03

Memoria

Qué recuerda fuera de su ventana de contexto.

04

Validación

Cómo demuestra que su trabajo es correcto.

Slide 4 · La ecuación

Agent = Model + Harness

Si no eres el modelo, eres el harness. — LangChain

El harness es el sistema operativo del LLM
ARNÉS · CAPA DEL SOCPU= LLM en brutopesos del modeloRAM= Ventana de contextoDISK= BBDD externas / ficherosDRIVERS= Integración de herramientasI/O= Bucles de orquestación

"Todo lo que no son pesos del modelo" — prompts del sistema, herramientas, orquestación, memoria, verificación, seguridad.

Slide 5 · Convergencia 2025-2026

Cinco actores. Cinco rutas. Una misma conclusión.

El término Harness Engineering emerge en cinco meses sin coordinación entre quienes lo nombran. Hashimoto le pone la palabra el 5 de febrero; el resto converge antes y después con la misma sustancia.

1
Nov 2025
Anthropic
Effective harnesses for long-running agents

Initializer + coding agent + claude-progress.txt. Primer uso documentado del término.

2
5 Feb 2026
Mitchell Hashimoto
Acuña "Harness Engineering"

Cada error del agente se convierte en una regla de AGENTS.md. Le pone nombre.

★ Acuña el término
3
11 Feb 2026
OpenAI
Harness Engineering con Codex

7 ingenieros · 1M líneas · 0 escritas a mano. El trabajo es diseñar el arnés.

4
Abr 2026
Martin Fowler
Taxonomía Guides + Sensors

Computacionales vs inferenciales. La industria adopta el patrón Fowler.

5
Abr 2026
Andrej Karpathy
Sequoia AI Ascent — agentic engineering

Vibe coding eleva el suelo; agentic engineering preserva el techo. El harness es el sustrato.

Diferentes caminos, misma conclusión: lo que rodea al modelo importa más que el modelo. Cuando varios actores independientes llegan a la misma idea en cinco meses, no es una moda — es un cambio de fase.

Slide 6 · Los 5 patrones canónicos · Anthropic

Topologías de orquestación

Todo agente en producción combina varios. Esas decisiones arquitectónicas son las que generan el gap de 6×.

Prompt Chaining

Cadena lineal: cada paso usa la salida del anterior.

Útil: Pipelines deterministas con etapas claras.

Routing

Un clasificador decide a qué especialista delegar.

Útil: Triaje de entradas heterogéneas.

Parallelization

Distribución paralela a trabajadores y agregación al final.

Útil: Recuperación multifuente, ensembles.

Orch-Workers

ORCHw1w2w3w4

Maestro descompone, trabajadores ejecutan, maestro integra.

Útil: Tareas complejas con sub-objetivos dinámicos.

Eval-Optimizer

GENEVALreintenta si fallaOK ✓

Bucle generador-evaluador con criterio de aceptación.

Útil: Cuando hay un "está bien" objetivable.

Slide 7 · Antes de los papers

Sin representación, no hay ablación.

Dos sistemas que nominalmente diferían en una decisión de diseño, en realidad diferían simultáneamente en prompts, herramientas, verificadores y semántica de estado. Imposible aislar qué cambio causa qué efecto.

Sistema A
  • prompts
  • herramientas
  • verificadores
  • semántica de estado
Sistema B
  • prompts
  • herramientas
  • verificadores
  • semántica de estado

Cuatro variables cambiando a la vez. Atribuir el delta a uno solo es estadística — no es ingeniería.

Modo de fallo 1

One-Shotting

El agente intenta resolver toda la tarea en un único disparo y agota el contexto antes de cerrar el último paso.

parse → plan → write → test → fix → 💥 context exhausted
Modo de fallo 2

Premature Completion

Una sesión posterior ve progreso parcial (3/6) y declara victoria sin verificar el resto.

load_state(3/6) → "looks done ✓" — y nunca lo estuvo.

Slide 8 · Paper 1 · NLAH · Tsinghua · Marzo 2026

Hacer el harness explícito para poder ablararlo.

Pan et al. proponen escribir la lógica de control del agente en lenguaje natural estructurado, separada en tres capas con responsabilidades distintas.

SWAP

NLAH

Lógica específica de tarea
  • Contracts
  • Roles
  • Stages
  • Failure taxonomy

Se intercambia entre tareas. Es lo que defines tú para tu dominio.

FIXED

Runtime Charter

Reglas universales
  • cómo se vinculan los contracts
  • cómo persiste el state
  • cómo se gestionan los agentes hijos

Compartido entre tareas. Las "leyes físicas" del runtime.

INFRA

Backend

Herramientas y primitivas
  • herramientas de terminal
  • interfaz multi-agente
  • primitivas spawn & wait

La infraestructura de bajo nivel. Igual para todos los arneses.

Lo que esto desbloquea

Ablación limpia, por fin.

Fijas el Charter, intercambias el NLAH → testeas diseño del harness. Fijas el NLAH, cambias el Charter → testeas política del runtime.

Dos mecanismos lo sostienen.

Execution Contracts (firmas de función para agentes) + File-Backed State (memoria con la ruta del fichero como dirección).

Slide 9 · El experimento de migración · OS-Symphony → NLAH

Misma lógica. Mismo modelo. +16.8 pts.

Tomas un harness escrito en código nativo. Lo migras a representación NLAH. No tocas el algoritmo. No cambias el modelo. Solo cambias cómo se expresa.

Antes · Arnés en código OS-Symphony
screenshot()
find_element()
click()
verify()
// bucle de reparación ↺
0.4%precisión
361'runtime
1,200llamadas LLM
Misma estrategia
Distinta representación
Después · Arnés en lenguaje natural NLAH
Task Definition ✓
  objective & scope
  completion contract
State Schema ✓
  file-backed runtime state
  artifact paths
Completion Criteria ✓
  artifact-backed verification
0.2%precisión
141'runtime
34llamadas LLM
+0 pts precisión (representación pura)
−61% runtime
−97% llamadas LLM

La representación es decisión arquitectónica, no estilística. Cómo escribes el harness vale tanto como qué hace.

Slide 10 · The Ablation Surprise

Más estructura mejor agente.

SWE-Bench Verified · GPT-5.4 · razonamiento máximo. ~75% resueltos con 6 módulos activos — y también con LLM + herramientas y nada más. 14× el cómputo para el mismo resultado.

Ensanchar caro

Lo que parece ayudar — pero perjudica.

  • Verificadores
    Comprobaciones automáticas extra entre pasos.
    SWE −0.8
    OS −8.4
  • Búsqueda multi-candidato
    Generar varias respuestas y elegir la mejor.
    SWE −2.4
    OS −5.6
Estrechar disciplinado

Lo que realmente mejora.

  • Auto-evolución
    Bucle de reintento con criterio de aceptación. Estrecho hasta que el fallo justifique ampliar.
    SWE +4.8
    OS +2.7
    ★ ÚNICO MÓDULO CONSISTENTEMENTE ÚTIL

" Estrechar con disciplina vence a ensanchar con dinero, siempre. "

Slide 11 · Paper 2 · Meta-Harness · Stanford · Marzo 2026

Si el harness es código, se puede optimizar.

DSPy (Khattab, 2023) ajusta prompts dentro de un pipeline fijo. Meta-Harness reescribe el pipeline entero: estructura, recuperación, memoria, topología.

Bucle de optimización · 10M tokens/iter · 400× más feedback que cualquier método previo
PASO 1ProposerClaude Code · Opus 4.6lee trazas fallidasescribe nuevo arnésnuevo arnésPASO 2Evaluadorejecuta benchmarkpuntuación + traza crudaregistra resultadosPASO 3FS crecientetraces/iter_001/traces/iter_002/traces/iter_003/...acumula · diagnostica · re-proponeMEJOR ACTUAL76.4% TerminalBench 2.0

Las trazas son irremplazables. Sin ellos: 50% → 34.6% (−15.4 pts). Con resúmenes en lugar de en bruto: 34.9% (−15.1 pts). La señal vive en los detalles en bruto. No hay atajo.

Slide 12 · Lo que cambia el cálculo

Un harness optimizado se transfiere.

El activo reutilizable ya no es el modelo. Es el harness. Optimizas con uno, mejoras los otros cinco.

META-HARNESSAuto-optimizadoentrenado sobre Opus 4.6Opus 4.6+8.2 ptsSonnet 4.5+6.4 ptsHaiku 4.5+11.1 pts★ #1 GLOBALGPT-5.4+5.7 ptsLlama 4+4.2 pts1 ARNÉS → 5 MODELOS → TODOS MEJORAN
1

Cambia la economía del producto. Invertir en el harness rinde más que esperar al próximo modelo.

2

Reduce la dependencia del proveedor. El activo portable es la lógica del harness, no el contrato con el proveedor.

3

Reabre el mercado para modelos pequeños. Haiku batiendo a Opus es la prueba.

Slide 13 · Las tres eras

Cada era absorbe la anterior.

Tres disciplinas en cuatro años. Cada una contiene a la previa y añade una capa de control.

2026
Harness Engineering
+ orquestación · memoria · verificación · seguridad
2024
Context Engineering
+ recuperación · ventana · prioridad de información
2022
Prompt Engineering
+ instrucción · few-shot · interpretación de roles

El harness engineering no reemplaza saber escribir prompts ni gestionar contexto. Los incluye — y añade orquestación, memoria, verificación y seguridad como problemas de primer orden.

Slide 12 · El mapa completo

El harness es el sustrato. ¿Quién va encima?

Karpathy (Sequoia AI Ascent, 2026) separó lo que en 2025 vivía bajo la misma etiqueta. Tres capas, tres responsabilidades distintas.

negocio
Agents-as-a-Service
Vendes el resultado del agente, no la herramienta. El cliente configura una vez — el agente trabaja por él.
Bascuñana · mayo 2026
disciplina
Agentic Engineering
La responsabilidad del ingeniero que dirige: aesthetics, taste, oversight, specs. El agente hace el trabajo pesado. Tú pones el criterio.
Karpathy · Sequoia AI Ascent · abril 2026
← estamos aquí
Harness Engineering
Tools tipadas, permisos declarativos, contexto gestionado, verificación, observabilidad. Dónde trabaja el agente.
NLAH · Meta-Harness · Factory · 2026
" You can outsource your thinking but you can't outsource your understanding. " — Andrej Karpathy

Slide 14 · La forma extraña que toma la disciplina

Es un oficio de sustracción tanto como de adición.

Cada componente del harness codifica una asunción sobre lo que el modelo no puede hacer solo. Cuando el modelo aprende a hacerlo, el componente debe morir — o pasa a estorbar.

HERRAMIENTAS −80%
Vercel · agente D0

16 herramientas especializadas → filesystem con YAMLs + grep

Success 80% → 100% · 3.5× más rápido · −40% tokens
REESCRITURAS ×5
Manus

Reescribió su harness 5 veces en 6 meses

→ cada vez más simple
REINICIOS −100%
Anthropic

Eliminó context resets cuando Opus 4.6 dejó de necesitarlos

→ asunción caducada, removida
El principio

El espacio del harness no se encoge a medida que los modelos mejoran. Se mueve.

El trabajo maduro de harness engineering no es construir estructura — es podarla a medida que el modelo absorbe lo que antes la justificaba.

Slide 15 · Cómo se ve un arnés mínimo

Lo que escribes el lunes.

Con Spec-Driven Development: cuatro agentes, tres documentos de spec y un gate humano que separa escritura de implementación. Esto es lo que copia BettaTech en su repo — montable en una tarde.

Repositorio
proyecto/
├── AGENTS.md
├── init.sh
├── tasks.json
├── specs/
│   └── <feature>/
│       ├── requirements.md
│       ├── design.md
│       └── tasks.md
├── progress/
│   ├── current.md
│   └── history.md
└── .claude/agents/
    ├── leader.md
    ├── spec-author.md
    ├── implementer.md
    └── reviewer.md
Flujo SDD — 4 agentes + gate humano
LÍDERorquestadorSPEC AUTHORescribe specsIMPLEMENTERescribe códigoREVISORvalida + bloqueaspecs/contexto aisladoprogress/memoria compartidaspawnsspawnsspawnsescribegate
AGENTS.md
Punto de entrada

Reglas, mapa del repo, convenciones. Lo primero que cada agente lee.

init.sh
Gate de pre-trabajo

Verifica entorno y tests antes de dejar trabajar. Si falla → para.

specs/<feature>/
Contexto aislado

requirements · design · tasks. Cada agente recibe solo lo que necesita.

progress/
Memoria compartida

Los subagentes escriben aquí — anti teléfono descompuesto.

.claude/agents/
Roles del arnés

leader · spec-author · implementer · reviewer. Cuatro contratos en .md.

pending spec-ready in-progress done

El repo es el sistema. La spec separa el qué del cómo: ningún agente empieza a implementar hasta que el humano aprueba el diseño.

Slide 16 · Conclusiones

Cinco hallazgos que reformulan el campo.

01

Cambio de paradigma, no optimización

La pregunta operativa cambia: deja de ser "qué modelo elijo" y pasa a ser "qué estructura quito". Invierte el reflejo de añadir verificadores y multi-candidate.

02

El harness es el activo de primer nivel

Si un harness mejora 5 modelos sin retoque, vale más que cualquier modelo individual. Cambia la economía del producto y reduce la dependencia del proveedor.

03

La representación es decisión arquitectónica

El +16.8 pts de NLAH solo por cambiar de código a lenguaje natural estructurado implica que la elección de DSL/prompt-as-code es un parámetro de rendimiento, no estilístico.

04

La verificación naive es trampa cara

Añadir verificadores y búsqueda multi-candidato empeora el rendimiento mientras dispara el coste. Lo único que ayuda consistentemente es estrechar el loop del propio agente.

05

La disciplina es de sustracción

Vercel −80% herramientas. Manus 5 reescrituras. Anthropic eliminando reinicios de contexto. El harness se mantiene vivo podándolo, no engordándolo.

Si construyes agentes, ya eres un harness engineer — lo llames así o no. La pregunta deja de ser qué modelo elegir. Pasa a ser qué estructura eliminar.

Slide 17 · Cierre

Ya no es cuestión de qué modelo elegir.
Es cuestión de qué estructura quitar.

Papers de referencia

  • Pan et al. · Natural-Language Agent Harnesses · Tsinghua · marzo 2026
  • Khattab et al. · Meta-Harness · Stanford · marzo 2026
  • DeepMind · AutoHarness · 2025
  • AgentSpec DSL · ICSE 2026

Convergencia de autores

  • Lopopolo (OpenAI) · "el código es libre, el harness es lo escaso"
  • Horthy (HumanLayer) · 12-Factor Agents
  • Pan + Khattab · NLAH + Meta-Harness

Próximo paso accionable

  1. Identifica qué asunción caducada sigue viva en tu harness.
  2. Mídela. Quítala. Mide otra vez.
  3. Repite hasta que el harness solo tenga lo que demuestra valor.
Alejandro de la Fuente

Alejandro de la Fuente

Tech Lead · NTT Data · GDNE · tellmealex.dev

Gracias.
1 / 18
Navigation