Metodología: de dónde salen nuestros números
Los números de la portada no son marketing: son el resultado de una validación con diseño publicado, ejecutada sobre el producto desplegado (no un prototipo de laboratorio), el 12 de junio de 2026. Esta página cuenta el diseño completo, los resultados y, igual de importante, lo que todavía no va bien.
Qué afirmamos
- Sensibilidad de seguridad del cribado: 95,6% en los pools de validación, y 98,0% en dos revisiones sistemáticas nuevas no vistas (una al 100%). «Sensibilidad de seguridad» = porcentaje de los estudios realmente incluidos por la revisión original que nuestro cribado conserva (como «incluir» o «revisar») en la fase de resumen. La duda se deriva a una persona, nunca al silencio.
- Carga de revisión humana: 9–26% según el corpus, ajustable por proyecto mediante la banda de incertidumbre. No prometemos un número único porque depende del ruido del corpus, y lo decimos.
- Recall de búsqueda: 7–60% según el corpus, hoy. Es nuestro punto débil conocido (ver abajo).
Cómo lo medimos
- Patrón oro real: 4 revisiones sistemáticas publicadas (2 EN, 2 ES: burnout docente, mindfulness, ejercicio y sueño, estrés académico) con sus listas oficiales de estudios incluidos. Una de ellas con corpus 59% iberoamericano.
- Inyección de gold: construimos pools de cribado con registros reales de nuestras búsquedas e inyectamos todos los estudios incluidos de la revisión original. La sensibilidad se calcula exacta sobre la lista gold completa; la carga de revisión, muestreada con IC95.
- Sobre el producto real: cuentas recién creadas, pipeline de producción completo (cola, prompts versionados, banda por defecto), sin ajustes manuales por el camino.
- Coste íntegro de la re-validación: 5,47 $ de API. La publicamos también para que se vea que reproducirla está al alcance de cualquiera.
Fase A: reproducción sobre los pools validados
| Métrica | Producción | Validación original | Umbral |
|---|---|---|---|
| Sensibilidad de seguridad combinada | 95,6% | 95,6% | ≥ 90% ✓ |
| Carga derivada a revisión humana | 13,1% | 10,6% | ≤ 15% ✓ |
| Concordancia por registro | 93,2% | — | — |
Fase B: generalización en 2 revisiones nuevas
| Métrica | Revisión EN (sueño) | Revisión ES (estrés académico) | Combinada |
|---|---|---|---|
| Sensibilidad (lista gold completa, exacta) | 95,5% (21/22) | 100% (27/27) | 98,0% |
| Carga de revisión humana (muestreada, banda por defecto) | 15,7% ±4,1 | 25,7% ±4,9 | 20,7% |
| Tras ajustar la banda (sin perder ningún gold) | 12,0% | 23,8% | — |
| Recall de búsqueda (nuestras variantes OpenAlex) | 27,3% | 7,4% | publicado, no filtrado |
Lo que todavía no va bien (y qué hacemos al respecto)
- Recall de búsqueda en corpus iberoamericanos: 7,4% en la revisión cuyas fuentes viven en LILACS y Dialnet, bases que los competidores tampoco indexan. Primer paso ya desplegado: búsqueda SciELO integrada (junio 2026), con mejora medida y modesta en ese corpus (7,4% → 11,1% con las mismas estrategias; la publicamos aunque sea pequeña). Siguiente: LILACS vía la API de BIREME, pendiente de acuerdo de acceso (no existe registro autoservicio). Mitigación adicional hoy: importación manual de referencias (RIS/BibTeX/CSV/PubMed).
- La carga de revisión depende del corpus: en un pool ruidoso, mantener el 100% de sensibilidad costó honestamente ~24% de revisión humana. La banda es ajustable y mostramos el efecto antes de aplicarla.
- No determinismo: entre ejecuciones, algunos registros oscilan entre «incluir» y «revisar». Todas esas oscilaciones acaban en ojos humanos, nunca en exclusiones silenciosas.
- El único estudio gold perdido en la fase B se autodescribe como «estudio observacional preliminar» en su propio título; un cribado por resumen lo excluye con causa textual. Lo contamos porque ese es el trato.
Nuestras reglas de honestidad
- Ningún número sin su metodología al lado.
- La incertidumbre se deriva a revisión humana, nunca se descarta en silencio.
- Si un número deja de aguantar al re-validar, se corrige aquí primero.
- Las exportaciones son gratuitas siempre: puedes llevarte tu revisión y auditarnos desde fuera.
Última actualización: 2026-06-12 · versión de prompts evaluada: screening-v2-twostage-2026-06-10