Saltar al contenidoEn memoria de las víctimas del terremoto
← InicioMetodología
Datos en vivo · al corte

Unificación de reportes de personas desaparecidas

Reporte técnico de metodología, arquitectura y resultados. Documenta el pipeline de resolución de entidades (record linkage) y la verificación biométrica facial que consolida reportes heterogéneos de múltiples fuentes en una identidad canónica por persona, preservando el linaje del dato y minimizando los falsos positivos.

227.964

Reportes crudos

79.359

Personas únicas · −62,5 %

Última actualización: 29 de junio de 2026. Las cifras de reconocimiento facial aumentan mientras el proceso continúa.

Síntesis

Las fuentes presentan alta redundancia: una misma entidad aparece múltiples veces con variantes ortográficas del nombre, distinto orden de tokens y cobertura parcial de fotografía. El sistema ejecuta una resolución de entidades que consolida todos los registros en una ficha canónica por persona, con linaje completo y sin fusiones espurias entre identidades distintas.

01 · Visión general

Resumen ejecutivo

  • 5 fuentes heterogéneas aportaron 227.964 reportes crudos.
  • La redundancia inter-fuente es elevada: una misma entidad se repite con variantes de nombre, permutación del orden de tokens y cobertura parcial de foto.
  • El proceso de record linkage resuelve los registros en 79.359 identidades únicas — una reducción del −62,5 %.
  • Opera en dos capas de evidencia complementarias: (1) matching por atributos determinístico y probabilístico (cédula, hash de imagen, teléfono+apellido, nombre con corroboración) y (2) verificación biométrica por embeddings faciales.
  • Esquema no destructivo: cada registro de origen se conserva inmutable y toda fusión es reversible vía linaje (provenance).
  • Las coincidencias de baja confianza se derivan a arbitraje humano antes de fusionar.

02 · Datos

Snapshot de los datos

La ingesta está activa sobre cinco fuentes independientes. Cada reporte se persiste sin transformación en una capa cruda inmutable (source_record); el pipeline de unificación opera sobre proyecciones normalizadas, nunca sobre el dato original.

De dónde vienen (las 5 fuentes)

FuenteQué esReportes
reconexionApp/API de Reconexión (producción)79.290
mapa-appBase del «mapa» de desaparecidos78.470
desaparecidos-tvListado de desaparecidos-tv41.944
azureAPI «Venezuela Dedupe Review» (Azure)28.250
partner-demoPrueba de la API de aliados10
TOTAL227.964

Estado actual

227.964

Reportes crudos

211.545

Normalizados

reportes → personas

79.359

Personas únicas

−62,5 % por dedup

61.905

Buscadas

17.454

Encontradas

61.104

Rostros analizados

creciendo

46.598

Fichas con foto

publicables, creciendo

32.761

Fichas sin foto

solo datos

33

Grupo más grande

reportes de una misma persona

Síntesis

Tasa de unicidad ≈ 1/3: por cada ~3 reportes ingresados, ~1 corresponde a una entidad nueva y ~2 son co-referencias que se consolidan. Más de la mitad del universo ya tiene embedding facial asociado.

03 · Tecnología

Snapshot de la tecnología

La arquitectura combina componentes estándar de la industria, cada uno especializado: almacenamiento relacional para el modelo de identidades, un índice vectorial para búsqueda de vecinos más cercanos (ANN) sobre embeddings faciales, y los modelos de visión por computadora para detección y reconocimiento.

PiezaPara qué sirveTecnología
Base de datosGuarda y ordena reportes y personas únicasPostgreSQL 17
Buscador de carasCompara una cara contra millones en milisegundosQdrant (vectorial, 512-d, coseno)
IA de rostrosDetecta y reconoce caras en las fotosInsightFace · buffalo_l
API / serviciosConecta todo y expone consultas segurasFastAPI (Python)
ServidorDonde corre todoLinux Debian 13, multinúcleo
Tablero en vivoVer avance y verificar a manoDashboard web propio

Detalle técnico

Modelo de 3 capas en PostgreSQL: source_record (crudo inmutable) → persona (normalizada con claves fonéticas metaphone/soundex, teléfono E.164 y hash de imagen) → canonical_identity (golden record con public_uid estable). Búsqueda facial sobre Qdrant (colección de 512-d, distancia coseno). Indexado facial multiproceso fijando 1 hilo de ONNX por núcleo. Idempotencia por (fuente, id) y hash de dataset. Nada se borra; uniones reversibles vía procedencia.

04 · Proceso A

Deduplicación, fase a fase

Principio rector: la fusión exige evidencia suficiente y se aplica en orden decreciente de fiabilidad de la señal. El criterio es conservador —se prioriza precisión sobre recall—: ante ambigüedad no se fusiona, porque un falso positivo colapsa dos identidades distintas y elimina de facto a una persona del registro, el error de mayor costo en este dominio.

  1. Fase 1 — Recepción y resguardo

    Cada reporte se persiste sin alteración en la capa cruda (source_record). Constituye la base de auditoría y la condición que hace toda fusión reversible.

  2. Fase 2 — Normalización

    Cada registro se proyecta a una forma canónica comparable: case folding y eliminación de diacríticos, segmentación de nombre/apellido, normalización telefónica a E.164 y derivación de claves fonéticas (Double Metaphone/Soundex) que colapsan variantes homófonas. Ej.: «José» y «jose» convergen a la misma clave de bloqueo.

  3. Fase 3 — Matching determinístico (automático)

    Se fusionan registros que coinciden en un identificador específico y de alta fiabilidad:

    1. Cédula idéntica.
    2. Hash de imagen idéntico (mismo archivo, aunque resida en otro host/CDN).
    3. Teléfono + apellido (el apellido evita colisiones entre familiares que comparten un mismo número de contacto).
  4. Fase 4 — Matching por nombre con corroboración

    Ante coincidencia de nombre con orden de tokens permutado («Pérez Juan» ≈ «Juan Pérez»), la fusión requiere al menos un atributo corroborante —misma zona o edad dentro de ±5 años— y se veta si el sexo difiere. Regla auditada con panel multi-revisor: precisión ≥ 99 %.

  5. Fase 5 — Arbitraje humano

    Los casos ambiguos (nombres frecuentes en zonas densas) no se fusionan de forma automática: se aíslan para revisión. La decisión humana es soberana y persiste sobre cualquier reprocesamiento posterior.

  6. Fase 6 — Survivorship (golden record)

    Al consolidar un clúster se construye una única ficha seleccionando, por atributo, el mejor valor disponible (estrategia tipo MDM): nombre más completo, foto de mayor calidad, cédula, ubicación y estado (buscado/encontrado).

Lo que NO hacemos

No se fusiona por nombre aislado (homónimos) ni por identificadores de baja entropía (p. ej. teléfonos placeholder como +0000000 compartidos por cientos de registros). Esas señales generan clústeres degenerados («súper-grupos») que mezclan identidades distintas.

05 · Proceso B

Reconocimiento facial, fase a fase

Principio: cuando dos registros disponen de foto, la verificación biométrica compara los rostros para confirmar co-referencia de identidad, incluso ante divergencia textual o datos faltantes. Es la capa de evidencia complementaria al record linkage.

Cadena de 3 modelos (InsightFace buffalo_l)

#ModeloQué hace
1Detección (SCRFD / det_10g)Localiza cada rostro y su bounding box. Soporta múltiples caras por imagen.
2Alineación (2d106det, 106 landmarks)Normaliza la pose mediante 106 puntos faciales, garantizando una representación invariante a la orientación.
3Reconocimiento (ArcFace / w600k_r50)Genera el embedding facial (vector de 512 dimensiones). La proximidad entre embeddings indica co-referencia.

Pipeline de inferencia

  1. Adquisición de la imagen desde los servidores/CDN públicos.
  2. Modelo 1 (detección): localiza cada rostro y su bounding box.
  3. Modelo 2 (alineación): normaliza la pose mediante 106 landmarks.
  4. Modelo 3 (reconocimiento): genera el embedding (vector de 512-d).
  5. El embedding se indexa en el motor vectorial (Qdrant).
  6. Se consulta por similitud coseno contra el corpus (búsqueda ANN), obteniendo un score en [0, 1].

Umbral de decisión

SimilitudDecisión
≥ 65 %Misma persona — alta confianza, se fusiona
51 – 65 %Misma persona — confianza media, se fusiona
45 – 51 %Borde — no se fusiona, va a revisión humana
< 45 %No es la misma cara — descartada

El umbral operativo de fusión es 51 % de similitud coseno, alineado con el del bot de verificación. En el survivorship, la ficha conserva el rostro de mayor calidad (resolución/nitidez) entre las coincidencias.

Margen de error

El reconocimiento facial tiene alta exactitud pero no es infalible. Principales fuentes de error: alta similitud inter-clase entre parientes (fotos grupales/familiares); degradación de la señal (baja resolución, oclusión por lentes/gorra/mascarilla, baja iluminación); deriva morfológica en menores (el rostro cambia rápido entre tomas); gemelos; y singletons (una sola foto, sin par para corroborar).

Mitigaciones: (1) umbral conservador (51 %); (2) banda de incertidumbre (45–51 %) excluida de la fusión automática; (3) arbitraje humano en el tablero con overlay de bounding box (verde = match, amarillo = no-match); (4) reversibilidad total. El facial acelera y corrobora; la decisión final en casos límite es humana.

06 · Estado

Resultados y trabajo en curso

Ya consolidado — deduplicación por datos (completo)

  • 79.359 identidades únicas resueltas a partir de 227.964 reportes (−62,5 %).
  • 0 duplicados residuales verificables por las señales deterministas (hash de imagen, cédula, teléfono+apellido).
  • Sin clústeres degenerados: la cardinalidad máxima de un clúster es 33 registros de una misma persona.
  • Precisión del matching por nombre, auditada con panel multi-revisor: ≥ 99 %.

En proceso — reconocimiento facial (en curso)

  • 61.104 embeddings faciales computados · 46.598 fichas con foto publicable y creciendo.
  • Recuperación de 43.201 imágenes inicialmente inaccesibles (alojadas en un host privado bloqueado; localizadas en un mirror público) — actualmente en cola de extracción de embeddings.
  • Etapa final: una pasada de fusión por similitud facial resolverá los casos que la evidencia textual no pudo confirmar (mismo rostro, atributos divergentes).

Seguimiento en vivo

El progreso es observable en el tablero: throughput, avance por etapa y la verificación facial caso por caso.

07 · Ética

Garantías y privacidad

  • No destructivo. Cada registro de origen se conserva inmutable; las fusiones son reversibles vía linaje.
  • Conservador ante el error. La fusión exige evidencia; los casos de baja confianza pasan por arbitraje humano.
  • Minimización de datos. No se exponen teléfonos ni datos de contacto; el uso es estrictamente asistivo de reunificación.
  • Idempotencia. El reprocesamiento de una fuente no genera duplicados (clave natural (fuente, id) + hash de dataset).

Consulta también la Política de privacidad y los Términos y condiciones.

08 · Referencia

Glosario

Record linkage / resolución de entidades
Proceso de identificar y consolidar registros que refieren a la misma persona real.
Matching determinístico / probabilístico
Determinístico: fusión por igualdad exacta de un identificador fiable. Probabilístico: fusión por similitud con atributos corroborantes.
Identidad canónica (golden record)
Registro consolidado que agrega todos los reportes de una persona bajo un public_uid estable.
Embedding facial
Vector de 512 dimensiones que codifica un rostro; la cercanía en distancia coseno indica co-referencia.
Umbral 51 %
Punto de corte de similitud coseno a partir del cual se acepta la co-referencia facial.
Survivorship
Reglas de selección del mejor valor por atributo al construir el golden record (estilo MDM).
Idempotencia
Propiedad por la cual reprocesar una misma fuente no produce registros duplicados.
Margen de error
Casos límite del reconocimiento facial (alta similitud inter-clase, degradación de señal, menores, gemelos, singletons).

Documento generado a partir del estado real de la base terremoto. Las cifras de reconocimiento facial aumentan mientras el proceso continúa.