Guía de MEL · Edición 2026

Por qué algunos programas sociales
funcionan y otros no.

Una introducción a las herramientas de Monitoreo, Evaluación y Aprendizaje que separan la intención del impacto real.

Contenido
IntroDos programas, el mismo problema, resultados opuestos 01Actividades cumplidas vs. cambio sustantivo 02Principios CART — El estándar de la evidencia usable 03Teoría del cambio como DAG causal 04Preguntas de aprendizaje → Tipo de evaluación 05Costo-efectividad — El benchmark que cambia todo 06Priorización de causas — El modelo ITN 07Inteligencia artificial como agente MEL
Para
Profesionales y estudiantes de ciencias sociales
que quieren transitar hacia una práctica más rigurosa
Herramientas incluidas
CART · DAG · ITN · CEA · IA
Introducción

Dos programas, el mismo problema, resultados opuestos.

En México, el programa PROGRESA/Oportunidades destinó transferencias condicionadas a familias en pobreza extrema y midió rigurosamente su efecto sobre asistencia escolar, nutrición y salud durante más de diez años. La evidencia acumulada mostró efectos sostenidos y replicables. Hoy es el modelo de referencia global para programas de transferencias condicionadas.

En el mismo período, decenas de programas de capacitación laboral para jóvenes en América Latina operaron con presupuestos similares, entregaron certificados y reportaron "beneficiarios atendidos" como indicador de éxito. Los meta-análisis disponibles (Kluve et al., 2017) muestran que la mayoría no produjo aumentos sostenidos en empleo formal ni en ingreso. Los recursos se gastaron. Los informes reportaron actividades. El cambio no ocurrió.

La diferencia entre un programa que transforma vidas y uno que desperdicia recursos no suele estar en la intención ni en el presupuesto. Está en si alguien diseñó una forma rigurosa de saber si está funcionando.

Esta guía presenta seis herramientas que los equipos de programas más rigurosos del mundo utilizan para responder esa pregunta. No son teoría académica, son instrumentos operativos que cambian cómo se diseñan, se monitorean y se evalúan los programas sociales.

01
Actividades cumplidas vs. cambio sustantivo

Imagina un hospital que reporta anualmente "realizamos 10,000 consultas" y declara que eso es evidencia de que mejoró la salud de la población. Nadie en medicina aceptaría ese argumento. Sin embargo, el sector social lo acepta sistemáticamente.

Los indicadores de actividad miden si el programa ocurrió. Los indicadores de resultado miden si algo cambió en las personas. Los indicadores de impacto miden si ese cambio fue causado por el programa. Son tres preguntas distintas y requieren datos distintos.

ProgramaIndicador de actividad (lo que suelen reportar)Indicador de cambio sustantivo (lo que debería medirse)
Capacitación laboral para jóvenesN.º de talleres impartidos · Asistentes certificadosTasa de empleo formal a 12 meses · Ingreso mensual vs. grupo de comparación
Nutrición infantil (suplementos)Kilos de suplemento distribuidos · Familias beneficiadasPrevalencia de desnutrición crónica (talla/edad) · Incidencia de anemia a 6 meses
Prevención de violencia escolarSesiones de sensibilización · Docentes capacitadosIncidencia de eventos violentos registrados · Escala validada de clima escolar (pre/post)
Acceso a agua potableMetros de tubería instalados · Conexiones domiciliariasPrevalencia de diarrea infantil (<5 años) · DALYs evitados por reducción de carga
Microcrédito para emprendedoras ruralesCréditos desembolsados · Monto total prestadoUtilidades netas del negocio · Activos del hogar · Índice de bienestar multidimensional
Programa de lectura en primariaLibros donados · Horas de lectura guiadaPuntaje en prueba estandarizada de comprensión (SERCE/TERCE) · Brecha vs. nivel esperado

La columna derecha no es un ideal inalcanzable, es el estándar que los programas con evidencia sólida ya utilizan.

La trampa de la rendición de cuentas

Medir actividades es más fácil, más barato y más rápido. El problema estructural es que un informe de actividades es compatible con un programa que no funciona.

✓ Actividades ejecutadas✗ Actividades no ejecutadas
✓ Resultado cambióPrograma funciona y se ejecutó bienEl resultado cambió por otras causas — coincidencia peligrosa
✗ Resultado no cambió⚠ La trampa: reporte positivo, sin impacto realFracaso evidente, al menos es honesto

La escalera de evidencia

Indicador de actividad → El programa ocurrió. No dice nada sobre el cambio.

Indicador de resultado → Algo cambió en la población. No dice por qué.

Indicador de impacto → El programa causó el cambio. Requiere un contrafactual.

Un informe que solo reporta actividades no es evidencia de impacto. Es evidencia de que el programa se ejecutó. Son cosas distintas.
02
Principios CART — El estándar de la evidencia usable

Los Principios CART de Innovations for Poverty Action (IPA) ofrecen un marco de cuatro criterios para evaluar si la evidencia de un programa es realmente usable para tomar decisiones. Antes de diseñar cualquier evaluación, pregunta: ¿la evidencia que voy a producir cumplirá estos cuatro criterios?

C

Credible, Creíble

¿El diseño de evaluación permite atribuir los cambios al programa y no a otras causas? El estándar de oro es el RCT (experimento aleatorio), pero diseños cuasi-experimentales bien ejecutados (DiD, RDD, IV) también pueden ser creíbles. La pregunta clave: ¿existe un contrafactual válido? ¿Sabemos qué habría pasado sin el programa?

A

Actionable, Accionable

¿La evidencia responde preguntas que los implementadores y financiadores pueden realmente usar? Una evaluación que concluye "el programa tuvo algún efecto en alguna población" no es accionable. La evidencia debe especificar para quién funciona, en qué dosis, con qué tipo de personal, y a qué costo.

R

Responsible, Responsable

¿El diseño de medición es proporcional a los recursos y capacidades reales de la organización? Recolectar más datos de los que se pueden analizar y usar es un desperdicio. Solo recolectar datos que se van a usar, con métodos que no sobrepasen la capacidad instalada del equipo.

T

Transportable, Transportable

¿Lo que se aprende puede aplicarse a otros programas, contextos o ciclos futuros? La evidencia transportable genera conocimiento que otras organizaciones pueden usar. Esto requiere documentar no solo si el programa funcionó, sino por qué y bajo qué condiciones.

Ejemplo en acción · GiveDirectly

GiveDirectly — Transferencias directas de efectivo

Kenya · Uganda · Rwanda · 2011–presente

C, Creíble: GiveDirectly financió múltiples RCTs con seguimiento a 2, 3 y hasta 10 años. El estudio de Haushofer & Shapiro (2016) en Quarterly Journal of Economics es el punto de referencia. La aleatorización garantiza que los efectos observados se atribuyen a las transferencias.
A, Accionable: Los estudios midieron consumo, activos del hogar, bienestar psicológico (escala GHQ), estabilidad alimentaria y participación en el mercado laboral — indicadores que permiten comparar programas entre sí.
R, Responsable: GiveDirectly calibró la escala de recolección de datos a lo que realmente podía usar. No recolectó más datos de los necesarios; recolectó exactamente los que permitían tomar decisiones.
T, Transportable: Más de 200 estudios sobre transferencias en contextos distintos convergieron en los mismos mecanismos: reducción de estrés, inversión en activos productivos, mejora en nutrición infantil. El modelo es replicable porque se documentó por qué funciona, no solo que funciona.
La evidencia CART no es un lujo académico: es la diferencia entre escalar algo que funciona y escalar algo que parece funcionar.
03
Teoría del cambio como DAG causal

La mayoría de las teorías del cambio son listas de actividades conectadas con flechas decorativas. Describen lo que se hará, no las hipótesis causales que justifican que hacerlo producirá los resultados esperados.

Un DAG causal (Directed Acyclic Graph), desarrollado formalmente por Judea Pearl en The Book of Why (2018), es diferente. Cada nodo es una variable y cada flecha es una hipótesis causal explícita que puede ser testeada con datos.

Teoría del cambio convencional

Actividades → Productos → Resultados → Impacto. Las flechas son decorativas. No especifican el mecanismo. No son testeables. No permiten diagnóstico cuando el programa falla.

DAG causal

Cada flecha es una hipótesis: "Si X ocurre, Y ocurrirá porque…" Los supuestos son explícitos. Cada eslabón puede medirse. Cuando falla, sabes exactamente dónde.

La escalera de causalidad de Pearl tiene tres peldaños: (1) Asociación; (2) Intervención; (3) Contrafactual. Un DAG bien construido fuerza al diseñador a operar en el peldaño 2: especificar exactamente qué se interviene, a través de qué mecanismo, afectando qué resultado.

Ejemplo en acción

Programa de prevención de violencia doméstica

Municipio colombiano · basado en literatura de evaluación LAC

El programa capacitó a funcionarios locales para identificar y atender casos de violencia contra la mujer. Después de 18 meses, la tasa de denuncias no había aumentado. ¿Por qué?

Capacitación a funcionarios
Funcionarios identifican casos
Mujeres denuncian / buscan apoyo
⚠ Cadena rota aquí
Acceso a servicios de protección
Reducción de episodios de violencia
Reducción del estigma social
No intervenido

Qué reveló el DAG: La cadena se rompía en el tercer nodo. Las mujeres identificaban la situación pero no denunciaban, porque el estigma social nunca fue intervenido. Rediseño: El programa añadió grupos de pares y trabajo comunitario. En el siguiente ciclo: tasa de denuncias +34%.

Cada flecha en el DAG es una hipótesis. Si no mides si la flecha se activó, no sabes por qué el programa funcionó o falló.
04
Preguntas de aprendizaje → Tipo de evaluación

El error más costoso en evaluación es elegir el método antes de formular la pregunta. Una pregunta de aprendizaje es una pregunta específica cuya respuesta cambiaría una decisión concreta sobre el programa.

Criterios de una buena pregunta de aprendizaje
✓ Es específica sobre el indicador y la población
✓ Tiene un horizonte temporal definido
✓ Su respuesta afectaría una decisión operativa
✓ Es evaluable con los recursos disponibles
Pregunta de aprendizajeTipo de evaluaciónDiseño metodológico
¿El programa causó el cambio en el indicador X?ImpactoRCT, DiD, RDD, Variables instrumentales
¿Por qué funciona? ¿Qué mecanismo activa?MecanismosAnálisis de mediación, process tracing
¿Para quién funciona? ¿Hay subgrupos con mayor efecto?HeterogeneidadHTE (causal forests), subgrupos pre-especificados
¿Se ejecutó como fue diseñado?ImplementaciónEstudio de fidelidad, observación, encuesta de proceso
¿Cuánto impacto produce por peso/dólar?Costo-efectividadCEA con DALY/QALY o unidad comparable
¿Cuáles son las necesidades del grupo objetivo?DiagnósticoEncuesta de línea base, grupos focales, datos secundarios
Las preguntas de aprendizaje no son para los evaluadores. Son para el equipo que toma decisiones. Si el equipo no las formula, la evaluación responde preguntas que nadie necesitaba.
05
Costo-efectividad — El benchmark que cambia todo

Un sistema MEL que mide si el programa produce cambio tiene que responder inevitablemente: ¿cuánto cuesta producir ese cambio?

El Análisis de Costo-Efectividad (CEA) fue formalizado por la OMS. En filantropía, GiveWell lo convirtió en el estándar de selección de donantes. La unidad más influyente es el DALY (Disability-Adjusted Life Year): cada DALY representa un año de vida saludable perdido por enfermedad, discapacidad o muerte prematura.

El benchmark de GiveWell son las transferencias directas no condicionadas (GiveDirectly). Cualquier programa tiene que justificar por qué produce más impacto por dólar que simplemente entregar el dinero. GiveWell aplica un umbral de al menos 10 veces la costo-efectividad de este benchmark.

Fórmula básica
Costo por unidad de resultado = Costo total ÷ Unidades de resultado producidas

4 pasos para el costeo por ingredientes

1
Lista todas las actividades del programa usando la lógica del DAG — cada nodo genera costos.
2
Para cada actividad, identifica los ingredientes: horas de personal × tarifa, materiales, transporte, overhead proporcional.
3
Suma los costos totales y divídelos por el número de beneficiarios y por el efecto estimado en el indicador de resultado.
4
Haz análisis de sensibilidad: ¿Qué pasa si el efecto es 20% menor? ¿Si los costos aumentan 30%? ¿Sigue siendo costo-efectivo?

Lo que la evidencia global dice sobre el costo del cambio

IntervenciónContextoCosto por resultadoEvidencia
Mosquiteros tratados (malaria)
Against Malaria Foundation
África sub-sahariana~USD $50
por DALY evitado
●●●●●
Transferencias directas de efectivo
GiveDirectly
Kenya / Uganda~USD $40–80
por punto GHQ
●●●●●
Desparasitación escolar
Kremer & Miguel, 2004
Kenya~USD $30–100
por año de escolaridad
●●●●○
Programa de graduación
Banerjee et al., 2015
Bangladesh / India~USD $300–700
por hogar sobre umbral
●●●●○
Capacitación laboral convencional
Meta-análisis Kluve et al., 2017
LAC promedioUSD $2,000–8,000
por empleo formal sostenido
●●○○○
Costo relativo por resultado
Mosquiteros tratados
$50
Transferencias directas
$60
Desparasitación escolar
$65
Prog. graduación
$500
Capacitación laboral
$5,000
Un programa que no sabe cuánto le cuesta producir una unidad de cambio no puede mejorar su eficiencia, compararse con alternativas, ni justificar su escala ante un donante riguroso.
06
Priorización de causas — El modelo ITN

Un sistema MEL excelente dentro de un programa de baja prioridad produce evidencia rigurosa de que se está haciendo lo incorrecto. El modelo ITN fue desarrollado por Holden Karnofsky para GiveWell Labs y popularizado por William MacAskill en Doing Good Better (2015).

I

Importancia (Scale)

¿Cuántas personas sufren este problema y con qué intensidad? La importancia se mide en DALYs, personas afectadas, o magnitud del bienestar perdido.

Pregunta operativa: Si se resolviera completamente este problema, ¿cuánto bienestar se recuperaría?
T

Tratabilidad (Tractability)

¿Hay intervenciones con evidencia de que funcionan? ¿Cuánto puede mejorar el problema con una duplicación de los recursos?

Pregunta operativa: ¿Qué evidencia existe de que se puede mover este indicador con intervenciones costo-efectivas?
N

Negligencia (Neglectedness)

¿Cuántos recursos ya están dirigidos a este problema? En áreas sub-atendidas, el mismo recurso produce mucho más impacto porque opera en la parte empinada de la curva de retornos.

Pregunta operativa: ¿Qué pasaría en este espacio si este programa no existiera?

La fórmula de prioridad (guía de razonamiento, no literal)

Prioridad ∝ (Importancia × Tratabilidad) / (Financiamiento actual + 1)
ITN no dice qué causa es más noble. Dice dónde tu recurso marginal produce más cambio. Son preguntas distintas, y la segunda es más honesta.
07
Inteligencia artificial como agente de cálculo y validación MEL

La integración de modelos de lenguaje en flujos de trabajo de análisis social está cambiando la práctica del MEL. No porque la IA reemplace al evaluador, sino porque reduce el costo de los cálculos rutinarios.

Lo que un agente IA puede hacer hoy

Normalización min-max y z-scores sobre bases de datos de Kobo / ODK
Estimación de tamaño de muestra con corrección por diseño
Sensibilidad del CEA: "¿qué pasa si el efecto es 20% menor?"
Conversión de efectos a DALYs con fórmulas del DCP3
Síntesis de estimaciones de efecto desde múltiples PDFs
Borrador de DAG causal desde descripción del programa

Lo que la IA no puede hacer

Verificar que los datos de entrada sean correctos
Juzgar si el contexto de comparación es apropiado
Tomar responsabilidad por las conclusiones
Conocer la realidad operativa del programa
Hacer el juicio ético sobre qué importa más
La apuesta de OnceOnce: Estamos desarrollando agentes especializados en MEL para América Latina, con benchmarks LAC incorporados y lógicas de comparación calibradas para el contexto regional. No como sustituto del evaluador riguroso, sino como copiloto que hace el rigor accesible. filantropos.org

Esto fue apenas la introducción.
El trabajo empieza ahora.

En OnceOnce acompañamos a organizaciones en América Latina a construir sistemas MEL que separan la actividad del cambio y que hacen el rigor accesible para equipos sin presupuesto de investigación.

Próximos pasos
Explorar programas con evidencia para LAC
Plataforma de filantropía científica para América Latina
filantropos.org →
Haz el diagnóstico de tu sistema MEL
10 preguntas · 3 minutos · resultado personalizado
Hacer el diagnóstico →
Agenda una conversación con Andrés
Recibe recomendaciones sobre cómo potenciar tu práctica en el sector social
WhatsApp →