Edición de Datos
El procesamiento de la información en la base de datos implicó la ejecución de un proceso de validación con la finalidad de garantizar, tanto su congruencia lógica, como la completitud e integridad de los datos asociados a las preguntas de los módulos del instrumento de captación, además de que se definieron una serie de criterios basados fielmente en la estructura y contenido de los cuestionarios.
En términos generales, la validación se llevó a cabo para corregir las inconsistencias de la información derivadas básicamente por la existencia de errores como omisión o falta de respuesta, multirrespuesta, valores inadmisibles o fuera de rango, falta de atención en los pases de preguntas y, también, incongruencias entre respuestas. Si bien el levantamiento de la información antecede al procesamiento, es importante precisar que las actividades comienzan desde la liberación de los instrumentos de captación.
Para estos efectos, fue necesario realizar una serie de actividades principales, las cuales son: el etiquetado del cuestionario, el diseño e implementación de la estructura de base de datos preliminar, la migración de la información de la base de datos de captura a la base de datos preliminar del censo, aplicar los métodos de validación y procesamiento; y la documentación de cada una de las mismas. Las actividades generan insumos que requieren otras actividades, por tanto, se han dividido en etapas. En este sentido, a continuación, se detallan las seis etapas a través de las cuales es posible generar la base de datos en versión definitiva.
Etiquetado
En esta etapa, teniendo como insumo el instrumento de captación desarrollado en Excel, se realizó el etiquetado del cuestionario, el cual consistente en colocar etiquetas (identificadores) que especifican por medio de variables la forma de agrupar, organizar y almacenar la información captada para posteriormente depositarla en la base de datos preliminar. En esta etapa se lleva acabo el análisis del instrumento para darle una forma sencilla de interpretar y almacenar los datos. En la siguiente ilustración se muestran algunas de las etiquetas colocadas en la hoja de cálculo.
Estructura de la base de datos
A partir del cuestionario etiquetado se creó un archivo con sentencias en lenguaje SQL que permite generar tanto el modelo, como la estructura de la base de datos preliminar; esto con el apoyo de la herramienta informática DataModeler, integrada en el software libre de Oracle, la cual es utilizada para el modelado de bases de datos.
El modelo de base de datos antes mencionado, se utiliza para el diseño, así como referencia para interpretar los elementos de esta. Cabe destacar que el modelo utilizado es de tipo Entidad Relación, mismo que define de manera puntual las relaciones entre entidades u objetos, es decir, las características de la entidad cuyos valores se encuentran en las tablas de la base de datos.
Por último, se ejecuta el archivo con sentencias SQL en los esquemas asignados para la carga de la estructura y se dejan listos para su uso, tanto en siguientes etapas, como para consulta de usuarios de otros procesos del área.
Migración
Este proceso consta de tres subprocesos que son el mapeo de datos, objetos vista y creación de paquetes.
Mapeo de Datos. Los insumos para este subproceso son el cuestionario etiquetado y la estructura de base de datos de captura, con ellos se genera una correspondencia entre las preguntas del etiquetado y la estructura de la base de datos donde se capta la información de campo y consiste en vaciar en un archivo en Excel los nombres de las etiquetas del cuestionario y frente a cada etiqueta el nombre del campo de la base de datos de captura.
Teniendo este archivo de correspondencias, se emplea una herramienta informática propia para generar un script de inserts a la tabla denominada relaciones.
Objetos Vista. Los insumos para este subproceso son los inserts a la tabla relaciones y la estructura de base de datos preliminar y mediante una herramienta informática propia se generan consultas que garantizan que la estructura de la base de datos preliminar esta lista para recibir la información captada en campo que contiene la base de datos de captura que será vaciada en el siguiente subproceso a la base de datos preliminar.
Proceso de paquetes. Los insumos para este subproceso son las vistas y la estructura de base de datos preliminar, y con el apoyo de herramientas informáticas propias desarrolladas se crea un proceso que permite insertar la información que contiene la base de datos de captura a la base de datos preliminar asignándole a cada dato los atributos dependiendo del tipo de dato que se trate, así como codificando los datos alfanuméricos necesarios a numéricos. Es así como queda lista la base de datos preliminar para el siguiente proceso.
Descriptores y vectores
Para esta etapa el insumo fue la base de datos preliminar, puede contener o no información, por tanto, se realizó de manera paralela a la etapa de migración.
Iniciemos definiendo lo que es un descriptor. Un descriptor es un archivo que describe los casos de análisis de cada una de las preguntas del instrumento de captación. Un caso de análisis se puede ver como una posible respuesta a la pregunta. Los descriptores se realizaron utilizando un lenguaje propio, mismo que facilita al usuario, realizar el procesamiento de las preguntas para garantizar la consistencia y calidad, siendo un lenguaje de alto nivel. Una vez realizados los descriptores, estos son los insumos para los vectores de validación.
Un vector de validación es una implementación de un caso de análisis, mismo que define reglas para aplicar los distintos tratamientos a la información. Los vectores de validación ayudan a garantizar que la información cumpla con los criterios definidos en el diseño del programa. Además, son una herramienta paral procesar la información. Estos trabajan revisando las distintas combinaciones de valores que se pudieran encontrar en una misma pregunta o entre preguntas, con la finalidad de garantizar la congruencia lógica, así como la completitud e integridad de los datos.
Una vez concluida la generación tanto de los descriptores se utilizó una herramienta informática, diseñada para el procesamiento, para ejecutarlos y crear así los vectores de validación para la etapa siguiente.
Procesamiento
Para este apartado es sustancial el significado de validación de la información. Se define como "Un conjunto de actividades para identificar, en la información captada, los datos que cumplen o no, con los requisitos de congruencia lógica y aritmética, completez e integridad, con el fin de aplicar a los que no los cumplen, una solución bajo criterios específicos, que aseguren la eliminación de inconsistencias sin afectar los datos válidos originales." (INEGI, 2017. Diseño conceptual para la generación de estadística básica). La información en procesos anteriores es revisada y validada, al procesarla es necesario garantizar que los datos son consistentes, por ellos con ayuda de los vectores de validación se verifica que la información esté libre de inconsistencias, de acuerdo a la definición anterior, para procesarla.
Durante esta etapa se ejecutaron los vectores creados en el procesamiento de la información para analizar cada resultado arrojado y poder realizar los ajustes necesarios a los datos, lo que da como resultado la base de datos final, con la que se van a generan los productos e insumos.
Documentación del procesamiento de la información
Para documentar el proceso de validación se requieren los siguientes documentos:
a) Diagrama. Es una referencia grafica de la estructura de la base de datos, que se utiliza para consulta de la información. Es creado con la herramienta informática modeladora de datos, que trabaja con el archivo SQL que se generó en la etapa estructura de la base de datos.
Al cargar el archivo en la herramienta se genera una vista de las tablas, que las distribuye de tal manera que sea más fácil visualizar la relación que hay entre ellas y así poder analizar sus atributos. Como resultado se obtiene un documento de formato PDF.
b) Conteo de datos. De la base de datos final se hace un conteo de toda la información, en ella se incluye la segregación de cuatro tipos de datos: "Mayores o iguales a cero" y que incluyen códigos relacionados con preguntas de tipo "Sí/No"; valores que corresponden a reactivos que por las características de las preguntas no requieren una respuesta o no requieren el registro de datos específicos, y que se registran como "No aplica" y se codifican con "-2"; valores que corresponden a datos que no fueron proporcionados por el informante, ya sea por desconocimiento o por falta de elementos de información en sus registros administrativos y que se registraron como "No se sabe" y se codificaron con "-1"; por último, valores nulos que corresponden a variables que no requieren registro de información dada la construcción de las tablas y las características de las preguntas.
c) Archivo de revisión de casos. Se genera un archivo en una hoja de cálculo que registra las inconsistencias y sus soluciones, con este archivo se tiene control sobre todos los cambios aplicados a la base de datos preliminar; al concluir todo el proceso se convierte en la base de datos final.
Resumen de datos procesados
De acuerdo con la forma en que están diseñados los cuestionarios que corresponden al Censo Nacional de Transparencia, Acceso a la Información Pública y Protección de Datos Personales Federal 2019, y para efectos de la integración, procesamiento y validación de la información, se genera una base de datos relacional. La base de datos generada considera un total de 11 056 datos individuales. Con respecto al total de datos que se contabilizan, 16.22 por ciento corresponden al módulo 1, el 29.63 por ciento corresponden al módulo 2, 54.15 por ciento corresponden al módulo 3.
Durante el procesamiento de los datos que se integraron en la base de datos y que se derivaron de los cuestionarios respondidos, se incluye la discriminación de cuatro tipos de datos: valores o datos mayores o iguales a cero y que incluyen códigos relacionados con preguntas de tipo "verdadero" y "falso"; valores que corresponden a reactivos que, por las características de las preguntas no requieren una respuesta o no requieren el registro de datos específicos, y que se registran como "No aplica" y se codifican con "-2"; valores que corresponden a datos que no fueron proporcionados por el informante, ya fuera porque no supieron la respuesta o porque no tuvieron elementos de información en sus registros administrativos para responderla y que se registraron como "No se sabe" y se codificaron con "-1"; y por último, valores nulos que corresponden a variables que no requieren registro de información dada la construcción de las tablas y las características de las preguntas.