Guía de MEL · Edición 2026
Una introducción a las herramientas de Monitoreo, Evaluación y Aprendizaje que separan la intención del impacto real.
En México, el programa PROGRESA/Oportunidades destinó transferencias condicionadas a familias en pobreza extrema y midió rigurosamente su efecto sobre asistencia escolar, nutrición y salud durante más de diez años. La evidencia acumulada mostró efectos sostenidos y replicables. Hoy es el modelo de referencia global para programas de transferencias condicionadas.
En el mismo período, decenas de programas de capacitación laboral para jóvenes en América Latina operaron con presupuestos similares, entregaron certificados y reportaron "beneficiarios atendidos" como indicador de éxito. Los meta-análisis disponibles (Kluve et al., 2017) muestran que la mayoría no produjo aumentos sostenidos en empleo formal ni en ingreso. Los recursos se gastaron. Los informes reportaron actividades. El cambio no ocurrió.
La diferencia entre un programa que transforma vidas y uno que desperdicia recursos no suele estar en la intención ni en el presupuesto. Está en si alguien diseñó una forma rigurosa de saber si está funcionando.
Esta guía presenta seis herramientas que los equipos de programas más rigurosos del mundo utilizan para responder esa pregunta. No son teoría académica, son instrumentos operativos que cambian cómo se diseñan, se monitorean y se evalúan los programas sociales.
Imagina un hospital que reporta anualmente "realizamos 10,000 consultas" y declara que eso es evidencia de que mejoró la salud de la población. Nadie en medicina aceptaría ese argumento. Sin embargo, el sector social lo acepta sistemáticamente.
Los indicadores de actividad miden si el programa ocurrió. Los indicadores de resultado miden si algo cambió en las personas. Los indicadores de impacto miden si ese cambio fue causado por el programa. Son tres preguntas distintas y requieren datos distintos.
| Programa | Indicador de actividad (lo que suelen reportar) | Indicador de cambio sustantivo (lo que debería medirse) |
|---|---|---|
| Capacitación laboral para jóvenes | N.º de talleres impartidos · Asistentes certificados | Tasa de empleo formal a 12 meses · Ingreso mensual vs. grupo de comparación |
| Nutrición infantil (suplementos) | Kilos de suplemento distribuidos · Familias beneficiadas | Prevalencia de desnutrición crónica (talla/edad) · Incidencia de anemia a 6 meses |
| Prevención de violencia escolar | Sesiones de sensibilización · Docentes capacitados | Incidencia de eventos violentos registrados · Escala validada de clima escolar (pre/post) |
| Acceso a agua potable | Metros de tubería instalados · Conexiones domiciliarias | Prevalencia de diarrea infantil (<5 años) · DALYs evitados por reducción de carga |
| Microcrédito para emprendedoras rurales | Créditos desembolsados · Monto total prestado | Utilidades netas del negocio · Activos del hogar · Índice de bienestar multidimensional |
| Programa de lectura en primaria | Libros donados · Horas de lectura guiada | Puntaje en prueba estandarizada de comprensión (SERCE/TERCE) · Brecha vs. nivel esperado |
La columna derecha no es un ideal inalcanzable, es el estándar que los programas con evidencia sólida ya utilizan.
Medir actividades es más fácil, más barato y más rápido. El problema estructural es que un informe de actividades es compatible con un programa que no funciona.
| ✓ Actividades ejecutadas | ✗ Actividades no ejecutadas | |
|---|---|---|
| ✓ Resultado cambió | Programa funciona y se ejecutó bien | El resultado cambió por otras causas — coincidencia peligrosa |
| ✗ Resultado no cambió | ⚠ La trampa: reporte positivo, sin impacto real | Fracaso evidente, al menos es honesto |
Indicador de actividad → El programa ocurrió. No dice nada sobre el cambio.
Indicador de resultado → Algo cambió en la población. No dice por qué.
Indicador de impacto → El programa causó el cambio. Requiere un contrafactual.
Los Principios CART de Innovations for Poverty Action (IPA) ofrecen un marco de cuatro criterios para evaluar si la evidencia de un programa es realmente usable para tomar decisiones. Antes de diseñar cualquier evaluación, pregunta: ¿la evidencia que voy a producir cumplirá estos cuatro criterios?
¿El diseño de evaluación permite atribuir los cambios al programa y no a otras causas? El estándar de oro es el RCT (experimento aleatorio), pero diseños cuasi-experimentales bien ejecutados (DiD, RDD, IV) también pueden ser creíbles. La pregunta clave: ¿existe un contrafactual válido? ¿Sabemos qué habría pasado sin el programa?
¿La evidencia responde preguntas que los implementadores y financiadores pueden realmente usar? Una evaluación que concluye "el programa tuvo algún efecto en alguna población" no es accionable. La evidencia debe especificar para quién funciona, en qué dosis, con qué tipo de personal, y a qué costo.
¿El diseño de medición es proporcional a los recursos y capacidades reales de la organización? Recolectar más datos de los que se pueden analizar y usar es un desperdicio. Solo recolectar datos que se van a usar, con métodos que no sobrepasen la capacidad instalada del equipo.
¿Lo que se aprende puede aplicarse a otros programas, contextos o ciclos futuros? La evidencia transportable genera conocimiento que otras organizaciones pueden usar. Esto requiere documentar no solo si el programa funcionó, sino por qué y bajo qué condiciones.
Kenya · Uganda · Rwanda · 2011–presente
La mayoría de las teorías del cambio son listas de actividades conectadas con flechas decorativas. Describen lo que se hará, no las hipótesis causales que justifican que hacerlo producirá los resultados esperados.
Un DAG causal (Directed Acyclic Graph), desarrollado formalmente por Judea Pearl en The Book of Why (2018), es diferente. Cada nodo es una variable y cada flecha es una hipótesis causal explícita que puede ser testeada con datos.
Actividades → Productos → Resultados → Impacto. Las flechas son decorativas. No especifican el mecanismo. No son testeables. No permiten diagnóstico cuando el programa falla.
Cada flecha es una hipótesis: "Si X ocurre, Y ocurrirá porque…" Los supuestos son explícitos. Cada eslabón puede medirse. Cuando falla, sabes exactamente dónde.
La escalera de causalidad de Pearl tiene tres peldaños: (1) Asociación; (2) Intervención; (3) Contrafactual. Un DAG bien construido fuerza al diseñador a operar en el peldaño 2: especificar exactamente qué se interviene, a través de qué mecanismo, afectando qué resultado.
Ejemplo en acciónMunicipio colombiano · basado en literatura de evaluación LAC
El programa capacitó a funcionarios locales para identificar y atender casos de violencia contra la mujer. Después de 18 meses, la tasa de denuncias no había aumentado. ¿Por qué?
Qué reveló el DAG: La cadena se rompía en el tercer nodo. Las mujeres identificaban la situación pero no denunciaban, porque el estigma social nunca fue intervenido. Rediseño: El programa añadió grupos de pares y trabajo comunitario. En el siguiente ciclo: tasa de denuncias +34%.
El error más costoso en evaluación es elegir el método antes de formular la pregunta. Una pregunta de aprendizaje es una pregunta específica cuya respuesta cambiaría una decisión concreta sobre el programa.
| Pregunta de aprendizaje | Tipo de evaluación | Diseño metodológico |
|---|---|---|
| ¿El programa causó el cambio en el indicador X? | Impacto | RCT, DiD, RDD, Variables instrumentales |
| ¿Por qué funciona? ¿Qué mecanismo activa? | Mecanismos | Análisis de mediación, process tracing |
| ¿Para quién funciona? ¿Hay subgrupos con mayor efecto? | Heterogeneidad | HTE (causal forests), subgrupos pre-especificados |
| ¿Se ejecutó como fue diseñado? | Implementación | Estudio de fidelidad, observación, encuesta de proceso |
| ¿Cuánto impacto produce por peso/dólar? | Costo-efectividad | CEA con DALY/QALY o unidad comparable |
| ¿Cuáles son las necesidades del grupo objetivo? | Diagnóstico | Encuesta de línea base, grupos focales, datos secundarios |
Un sistema MEL que mide si el programa produce cambio tiene que responder inevitablemente: ¿cuánto cuesta producir ese cambio?
El Análisis de Costo-Efectividad (CEA) fue formalizado por la OMS. En filantropía, GiveWell lo convirtió en el estándar de selección de donantes. La unidad más influyente es el DALY (Disability-Adjusted Life Year): cada DALY representa un año de vida saludable perdido por enfermedad, discapacidad o muerte prematura.
El benchmark de GiveWell son las transferencias directas no condicionadas (GiveDirectly). Cualquier programa tiene que justificar por qué produce más impacto por dólar que simplemente entregar el dinero. GiveWell aplica un umbral de al menos 10 veces la costo-efectividad de este benchmark.
| Intervención | Contexto | Costo por resultado | Evidencia |
|---|---|---|---|
| Mosquiteros tratados (malaria) Against Malaria Foundation | África sub-sahariana | ~USD $50 por DALY evitado | ●●●●● |
| Transferencias directas de efectivo GiveDirectly | Kenya / Uganda | ~USD $40–80 por punto GHQ | ●●●●● |
| Desparasitación escolar Kremer & Miguel, 2004 | Kenya | ~USD $30–100 por año de escolaridad | ●●●●○ |
| Programa de graduación Banerjee et al., 2015 | Bangladesh / India | ~USD $300–700 por hogar sobre umbral | ●●●●○ |
| Capacitación laboral convencional Meta-análisis Kluve et al., 2017 | LAC promedio | USD $2,000–8,000 por empleo formal sostenido | ●●○○○ |
Un sistema MEL excelente dentro de un programa de baja prioridad produce evidencia rigurosa de que se está haciendo lo incorrecto. El modelo ITN fue desarrollado por Holden Karnofsky para GiveWell Labs y popularizado por William MacAskill en Doing Good Better (2015).
¿Cuántas personas sufren este problema y con qué intensidad? La importancia se mide en DALYs, personas afectadas, o magnitud del bienestar perdido.
¿Hay intervenciones con evidencia de que funcionan? ¿Cuánto puede mejorar el problema con una duplicación de los recursos?
¿Cuántos recursos ya están dirigidos a este problema? En áreas sub-atendidas, el mismo recurso produce mucho más impacto porque opera en la parte empinada de la curva de retornos.
La integración de modelos de lenguaje en flujos de trabajo de análisis social está cambiando la práctica del MEL. No porque la IA reemplace al evaluador, sino porque reduce el costo de los cálculos rutinarios.
Esto fue apenas la introducción.
El trabajo empieza ahora.
En OnceOnce acompañamos a organizaciones en América Latina a construir sistemas MEL que separan la actividad del cambio y que hacen el rigor accesible para equipos sin presupuesto de investigación.