Guía MEL — OnceOnce

Introducción

Dos programas, el mismo problema, resultados opuestos.

En México, el programa PROGRESA/Oportunidades destinó transferencias condicionadas a familias en pobreza extrema y midió rigurosamente su efecto sobre asistencia escolar, nutrición y salud durante más de diez años. La evidencia acumulada mostró efectos sostenidos y replicables. Hoy es el modelo de referencia global para programas de transferencias condicionadas.

En el mismo período, decenas de programas de capacitación laboral para jóvenes en América Latina operaron con presupuestos similares, entregaron certificados y reportaron "beneficiarios atendidos" como indicador de éxito. Los meta-análisis disponibles (Kluve et al., 2017) muestran que la mayoría no produjo aumentos sostenidos en empleo formal ni en ingreso. Los recursos se gastaron. Los informes reportaron actividades. El cambio no ocurrió.

La diferencia entre un programa que transforma vidas y uno que desperdicia recursos no suele estar en la intención ni en el presupuesto. Está en si alguien diseñó una forma rigurosa de saber si está funcionando.

Esta guía presenta seis herramientas que los equipos de programas más rigurosos del mundo utilizan para responder esa pregunta. No son teoría académica, son instrumentos operativos que cambian cómo se diseñan, se monitorean y se evalúan los programas sociales.

El problema fundamental

Actividades cumplidas vs. cambio sustantivo

Imagina un hospital que reporta anualmente "realizamos 10,000 consultas" y declara que eso es evidencia de que mejoró la salud de la población. Nadie en medicina aceptaría ese argumento. Sin embargo, el sector social lo acepta sistemáticamente.

Los indicadores de actividad miden si el programa ocurrió. Los indicadores de resultado miden si algo cambió en las personas. Los indicadores de impacto miden si ese cambio fue causado por el programa. Son tres preguntas distintas y requieren datos distintos.

Programa	Indicador de actividad (lo que suelen reportar)	Indicador de cambio sustantivo (lo que debería medirse)
Capacitación laboral para jóvenes	N.º de talleres impartidos · Asistentes certificados	Tasa de empleo formal a 12 meses · Ingreso mensual vs. grupo de comparación
Nutrición infantil (suplementos)	Kilos de suplemento distribuidos · Familias beneficiadas	Prevalencia de desnutrición crónica (talla/edad) · Incidencia de anemia a 6 meses
Prevención de violencia escolar	Sesiones de sensibilización · Docentes capacitados	Incidencia de eventos violentos registrados · Escala validada de clima escolar (pre/post)
Acceso a agua potable	Metros de tubería instalados · Conexiones domiciliarias	Prevalencia de diarrea infantil (<5 años) · DALYs evitados por reducción de carga
Microcrédito para emprendedoras rurales	Créditos desembolsados · Monto total prestado	Utilidades netas del negocio · Activos del hogar · Índice de bienestar multidimensional
Programa de lectura en primaria	Libros donados · Horas de lectura guiada	Puntaje en prueba estandarizada de comprensión (SERCE/TERCE) · Brecha vs. nivel esperado

La columna derecha no es un ideal inalcanzable, es el estándar que los programas con evidencia sólida ya utilizan.

La trampa de la rendición de cuentas

Medir actividades es más fácil, más barato y más rápido. El problema estructural es que un informe de actividades es compatible con un programa que no funciona.

	✓ Actividades ejecutadas	✗ Actividades no ejecutadas
✓ Resultado cambió	Programa funciona y se ejecutó bien	El resultado cambió por otras causas — coincidencia peligrosa
✗ Resultado no cambió	⚠ La trampa: reporte positivo, sin impacto real	Fracaso evidente, al menos es honesto

La escalera de evidencia

Indicador de actividad → El programa ocurrió. No dice nada sobre el cambio.

Indicador de resultado → Algo cambió en la población. No dice por qué.

Indicador de impacto → El programa causó el cambio. Requiere un contrafactual.

Un informe que solo reporta actividades no es evidencia de impacto. Es evidencia de que el programa se ejecutó. Son cosas distintas.

Herramienta · Origen: Innovations for Poverty Action, 2016

Principios CART — El estándar de la evidencia usable

Los Principios CART de Innovations for Poverty Action (IPA) ofrecen un marco de cuatro criterios para evaluar si la evidencia de un programa es realmente usable para tomar decisiones. Antes de diseñar cualquier evaluación, pregunta: ¿la evidencia que voy a producir cumplirá estos cuatro criterios?

Credible, Creíble

¿El diseño de evaluación permite atribuir los cambios al programa y no a otras causas? El estándar de oro es el RCT (experimento aleatorio), pero diseños cuasi-experimentales bien ejecutados (DiD, RDD, IV) también pueden ser creíbles. La pregunta clave: ¿existe un contrafactual válido? ¿Sabemos qué habría pasado sin el programa?

Actionable, Accionable

¿La evidencia responde preguntas que los implementadores y financiadores pueden realmente usar? Una evaluación que concluye "el programa tuvo algún efecto en alguna población" no es accionable. La evidencia debe especificar para quién funciona, en qué dosis, con qué tipo de personal, y a qué costo.

Responsible, Responsable

¿El diseño de medición es proporcional a los recursos y capacidades reales de la organización? Recolectar más datos de los que se pueden analizar y usar es un desperdicio. Solo recolectar datos que se van a usar, con métodos que no sobrepasen la capacidad instalada del equipo.

Transportable, Transportable

¿Lo que se aprende puede aplicarse a otros programas, contextos o ciclos futuros? La evidencia transportable genera conocimiento que otras organizaciones pueden usar. Esto requiere documentar no solo si el programa funcionó, sino por qué y bajo qué condiciones.

Ejemplo en acción · GiveDirectly

GiveDirectly — Transferencias directas de efectivo

Kenya · Uganda · Rwanda · 2011–presente

C, Creíble: GiveDirectly financió múltiples RCTs con seguimiento a 2, 3 y hasta 10 años. El estudio de Haushofer & Shapiro (2016) en Quarterly Journal of Economics es el punto de referencia. La aleatorización garantiza que los efectos observados se atribuyen a las transferencias.

A, Accionable: Los estudios midieron consumo, activos del hogar, bienestar psicológico (escala GHQ), estabilidad alimentaria y participación en el mercado laboral — indicadores que permiten comparar programas entre sí.

R, Responsable: GiveDirectly calibró la escala de recolección de datos a lo que realmente podía usar. No recolectó más datos de los necesarios; recolectó exactamente los que permitían tomar decisiones.

T, Transportable: Más de 200 estudios sobre transferencias en contextos distintos convergieron en los mismos mecanismos: reducción de estrés, inversión en activos productivos, mejora en nutrición infantil. El modelo es replicable porque se documentó por qué funciona, no solo que funciona.

La evidencia CART no es un lujo académico: es la diferencia entre escalar algo que funciona y escalar algo que parece funcionar.

Herramienta · Origen: Judea Pearl, UCLA, Premio Turing 2011

Teoría del cambio como DAG causal

La mayoría de las teorías del cambio son listas de actividades conectadas con flechas decorativas. Describen lo que se hará, no las hipótesis causales que justifican que hacerlo producirá los resultados esperados.

Un DAG causal (Directed Acyclic Graph), desarrollado formalmente por Judea Pearl en The Book of Why (2018), es diferente. Cada nodo es una variable y cada flecha es una hipótesis causal explícita que puede ser testeada con datos.

Teoría del cambio convencional

Actividades → Productos → Resultados → Impacto. Las flechas son decorativas. No especifican el mecanismo. No son testeables. No permiten diagnóstico cuando el programa falla.

DAG causal

Cada flecha es una hipótesis: "Si X ocurre, Y ocurrirá porque…" Los supuestos son explícitos. Cada eslabón puede medirse. Cuando falla, sabes exactamente dónde.

La escalera de causalidad de Pearl tiene tres peldaños: (1) Asociación; (2) Intervención; (3) Contrafactual. Un DAG bien construido fuerza al diseñador a operar en el peldaño 2: especificar exactamente qué se interviene, a través de qué mecanismo, afectando qué resultado.

Ejemplo en acción

Programa de prevención de violencia doméstica

Municipio colombiano · basado en literatura de evaluación LAC

El programa capacitó a funcionarios locales para identificar y atender casos de violencia contra la mujer. Después de 18 meses, la tasa de denuncias no había aumentado. ¿Por qué?

Capacitación a funcionarios

Funcionarios identifican casos

Mujeres denuncian / buscan apoyo

⚠ Cadena rota aquí

Acceso a servicios de protección

Reducción de episodios de violencia

←

Reducción del estigma social

No intervenido

Qué reveló el DAG: La cadena se rompía en el tercer nodo. Las mujeres identificaban la situación pero no denunciaban, porque el estigma social nunca fue intervenido. Rediseño: El programa añadió grupos de pares y trabajo comunitario. En el siguiente ciclo: tasa de denuncias +34%.

Cada flecha en el DAG es una hipótesis. Si no mides si la flecha se activó, no sabes por qué el programa funcionó o falló.

Herramienta · Origen: Rogers, Patton, OCDE-CAD · J-PAL / IPA

Preguntas de aprendizaje → Tipo de evaluación

El error más costoso en evaluación es elegir el método antes de formular la pregunta. Una pregunta de aprendizaje es una pregunta específica cuya respuesta cambiaría una decisión concreta sobre el programa.

Criterios de una buena pregunta de aprendizaje

✓ Es específica sobre el indicador y la población

✓ Tiene un horizonte temporal definido

✓ Su respuesta afectaría una decisión operativa

✓ Es evaluable con los recursos disponibles

Pregunta de aprendizaje	Tipo de evaluación	Diseño metodológico
¿El programa causó el cambio en el indicador X?	Impacto	RCT, DiD, RDD, Variables instrumentales
¿Por qué funciona? ¿Qué mecanismo activa?	Mecanismos	Análisis de mediación, process tracing
¿Para quién funciona? ¿Hay subgrupos con mayor efecto?	Heterogeneidad	HTE (causal forests), subgrupos pre-especificados
¿Se ejecutó como fue diseñado?	Implementación	Estudio de fidelidad, observación, encuesta de proceso
¿Cuánto impacto produce por peso/dólar?	Costo-efectividad	CEA con DALY/QALY o unidad comparable
¿Cuáles son las necesidades del grupo objetivo?	Diagnóstico	Encuesta de línea base, grupos focales, datos secundarios

Las preguntas de aprendizaje no son para los evaluadores. Son para el equipo que toma decisiones. Si el equipo no las formula, la evaluación responde preguntas que nadie necesitaba.

Herramienta · Origen: WHO-CHOICE, DCP3, GiveWell

Costo-efectividad — El benchmark que cambia todo

Un sistema MEL que mide si el programa produce cambio tiene que responder inevitablemente: ¿cuánto cuesta producir ese cambio?

El Análisis de Costo-Efectividad (CEA) fue formalizado por la OMS. En filantropía, GiveWell lo convirtió en el estándar de selección de donantes. La unidad más influyente es el DALY (Disability-Adjusted Life Year): cada DALY representa un año de vida saludable perdido por enfermedad, discapacidad o muerte prematura.

El benchmark de GiveWell son las transferencias directas no condicionadas (GiveDirectly). Cualquier programa tiene que justificar por qué produce más impacto por dólar que simplemente entregar el dinero. GiveWell aplica un umbral de al menos 10 veces la costo-efectividad de este benchmark.

Fórmula básica

Costo por unidad de resultado = Costo total ÷ Unidades de resultado producidas

4 pasos para el costeo por ingredientes

Lista todas las actividades del programa usando la lógica del DAG — cada nodo genera costos.

Para cada actividad, identifica los ingredientes: horas de personal × tarifa, materiales, transporte, overhead proporcional.

Suma los costos totales y divídelos por el número de beneficiarios y por el efecto estimado en el indicador de resultado.

Haz análisis de sensibilidad: ¿Qué pasa si el efecto es 20% menor? ¿Si los costos aumentan 30%? ¿Sigue siendo costo-efectivo?

Lo que la evidencia global dice sobre el costo del cambio

Intervención	Contexto	Costo por resultado	Evidencia
Mosquiteros tratados (malaria) Against Malaria Foundation	África sub-sahariana	~USD $50 por DALY evitado	●●●●●
Transferencias directas de efectivo GiveDirectly	Kenya / Uganda	~USD $40–80 por punto GHQ	●●●●●
Desparasitación escolar Kremer & Miguel, 2004	Kenya	~USD $30–100 por año de escolaridad	●●●●○
Programa de graduación Banerjee et al., 2015	Bangladesh / India	~USD $300–700 por hogar sobre umbral	●●●●○
Capacitación laboral convencional Meta-análisis Kluve et al., 2017	LAC promedio	USD $2,000–8,000 por empleo formal sostenido	●●○○○

Costo relativo por resultado

Mosquiteros tratados

$50

Transferencias directas

$60

Desparasitación escolar

$65

Prog. graduación

$500

Capacitación laboral

$5,000

Un programa que no sabe cuánto le cuesta producir una unidad de cambio no puede mejorar su eficiencia, compararse con alternativas, ni justificar su escala ante un donante riguroso.

Herramienta · Origen: Holden Karnofsky, GiveWell Labs, 2013

Priorización de causas — El modelo ITN

Un sistema MEL excelente dentro de un programa de baja prioridad produce evidencia rigurosa de que se está haciendo lo incorrecto. El modelo ITN fue desarrollado por Holden Karnofsky para GiveWell Labs y popularizado por William MacAskill en Doing Good Better (2015).

Importancia (Scale)

¿Cuántas personas sufren este problema y con qué intensidad? La importancia se mide en DALYs, personas afectadas, o magnitud del bienestar perdido.

Pregunta operativa: Si se resolviera completamente este problema, ¿cuánto bienestar se recuperaría?

Tratabilidad (Tractability)

¿Hay intervenciones con evidencia de que funcionan? ¿Cuánto puede mejorar el problema con una duplicación de los recursos?

Pregunta operativa: ¿Qué evidencia existe de que se puede mover este indicador con intervenciones costo-efectivas?

Negligencia (Neglectedness)

¿Cuántos recursos ya están dirigidos a este problema? En áreas sub-atendidas, el mismo recurso produce mucho más impacto porque opera en la parte empinada de la curva de retornos.

Pregunta operativa: ¿Qué pasaría en este espacio si este programa no existiera?

La fórmula de prioridad (guía de razonamiento, no literal)

Prioridad ∝ (Importancia × Tratabilidad) / (Financiamiento actual + 1)

ITN no dice qué causa es más noble. Dice dónde tu recurso marginal produce más cambio. Son preguntas distintas, y la segunda es más honesta.

Tendencia · 2023–2026

Inteligencia artificial como agente de cálculo y validación MEL

La integración de modelos de lenguaje en flujos de trabajo de análisis social está cambiando la práctica del MEL. No porque la IA reemplace al evaluador, sino porque reduce el costo de los cálculos rutinarios.

Lo que un agente IA puede hacer hoy

→ Normalización min-max y z-scores sobre bases de datos de Kobo / ODK

→ Estimación de tamaño de muestra con corrección por diseño

→ Sensibilidad del CEA: "¿qué pasa si el efecto es 20% menor?"

→ Conversión de efectos a DALYs con fórmulas del DCP3

→ Síntesis de estimaciones de efecto desde múltiples PDFs

→ Borrador de DAG causal desde descripción del programa

Lo que la IA no puede hacer

✗ Verificar que los datos de entrada sean correctos

✗ Juzgar si el contexto de comparación es apropiado

✗ Tomar responsabilidad por las conclusiones

✗ Conocer la realidad operativa del programa

✗ Hacer el juicio ético sobre qué importa más

La apuesta de OnceOnce: Estamos desarrollando agentes especializados en MEL para América Latina, con benchmarks LAC incorporados y lógicas de comparación calibradas para el contexto regional. No como sustituto del evaluador riguroso, sino como copiloto que hace el rigor accesible. filantropos.org

Esto fue apenas la introducción.
El trabajo empieza ahora.

En OnceOnce acompañamos a organizaciones en América Latina a construir sistemas MEL que separan la actividad del cambio y que hacen el rigor accesible para equipos sin presupuesto de investigación.

Próximos pasos

Explorar programas con evidencia para LAC

Plataforma de filantropía científica para América Latina

filantropos.org →

Haz el diagnóstico de tu sistema MEL

10 preguntas · 3 minutos · resultado personalizado

Hacer el diagnóstico →

Agenda una conversación con Andrés

Recibe recomendaciones sobre cómo potenciar tu práctica en el sector social

WhatsApp →

Por qué algunos programas socialesfuncionan y otros no.