Edición de Datos
Considerando que la temática y logística del levantamiento de información para este proyecto representaron el segundo ejercicio llevado a cabo a nivel nacional por el INEGI, el procesamiento de la información en su etapa de validación se convirtió en una actividad fundamental, debido a la relevancia del proceso de detección de posibles errores e inconsistencias, donde toda la información fue depurada para asegurar completa calidad y congruencia.
Para ello, la validación de la información se llevó a cabo en dos etapas; la primera de ellas, llamada microvalidación, consistió en la identificación de las inconsistencias en la información a nivel de registro dentro del cuestionario (instrumento de captación generado para este proyecto) aplicando los criterios básicos establecidos y posteriormente solicitando al informante las aclaraciones necesarias sobre el dato o valor registrado en el cuestionario con el fin de confirmar si la información emitida en el mismo es correcta o se requiere modificar dicha información (proceso de reconsulta) y una vez terminado este proceso generar la base de datos preliminar.
La segunda consistió en un proceso denominado macrovalidación, que se realizó para identificar comportamientos incorrectos (de estructura o de valor) presentes en la base de datos preliminares, y a su vez validarlos mediante los criterios establecidos en el marco conceptual y metodológico de los temas correspondientes, para lo cual se emplearon las reglas de congruencia lógica, identificación de falta de información o inconsistencia de la respuesta.
Terminado estos procesos de validación de los microdatos y realizados los ajustes necesarios que garanticen la calidad en la información, se genera e integra las bases de datos definitivas.
Por lo tanto, el procesamiento de la información emitida a través de los cuestionarios fue realizada mediante las actividades de microvalidación de los datos emitidos en el instrumento de captación, macrovalidación de la base de datos preliminar y por último, la generación de la base de dato definitiva, estas etapas de procesamiento iniciaron el 21 de octubre y finalizaron en el mes de febrero de 2012, procesamiento que tuvo como principal objetivo la revisión y ajuste de los datos obtenidos en el CNGSPSPE 2011, así como la integración de la datos estadísticos para su posterior explotación.
A continuación se explican las tres etapas del procesamiento de la información por cada uno de los cuatro módulos contenidos en el cuestionario.
La etapa de microvalidación de los datos emitidos en los tipos de preguntas cerradas (que son aquellas que la respuesta está condicionada a una selección de opciones) y abiertas (que son aquellas donde el dato emitido es un valor numérico o textos) se realizó a partir de la aplicación de los criterios de validación de rango que se refiere al proceso de revisar que los microdatos se expresen como valores numéricos positivos y se encuentren dentro de los parámetros esperados, de consistencia que se refiere al proceso de revisar que los datos numéricos solicitados de manera agregada sean consistentes con los datos numéricos solicitados de manera desagregan en tablas, de filtro que se refiere a la revisión de las preguntas que por el tipo de selección de las opciones en la pregunta que antecede no deben ser respondidas, de selección que se refiere a la revisión de la selección de las opciones que se presentan en las preguntas donde una o dos opciones invalidan la selección de las demás opciones, y finalmente, de asignación que se refiere a la elección de las funciones que no aplican y que dicha elección afecta a los tipos de funciones que se presentan en varias tablas concatenadas por la selección de la columna de “No aplica”, estos procesos se realizaron para cada una de las preguntas contenidas en cada módulo dentro del cuestionario, mismos que fueron expresados en funciones lógicas con el fin de revisar su cumplimiento y cuyo propósito principal fue la detección de inconsistencias de datos numéricos agregados y desagregados, de pase de pregunta mal aplicados, de selección de opciones mutuamente excluyentes y de selección de tipo de función que no aplica mal asignada.
Después de realizada la confronta de los registros estadísticos contra los criterios de validación establecidos,
se detectaron las inconsistencias siguientes:
• Omisión, espacio vacío y/o falta de respuesta
• Uso heterogéneo del término “NS” (No sé), “NA” (No aplica) y “ND” (No disponible)
• Inconsistencia en las respuestas a preguntas condicionadas por la selección de las opciones únicas en pregunta que antecedía
• Respuesta múltiple en preguntas cerradas con selección de opción única
• Dato numérico agregado que no es congruente con la suma de los datos numéricos desagregados
• Valores emitidos en tipo de funciones, tipo de corporación policiaca, tipos de centros penitenciarios, tipos de centros de tratamiento o de internamiento para adolescentes y tipo de cargo, que fueron seleccionados como no aplica en tablas relacionadas
Para lo cual se aplico la solución siguiente:
a) Envío de cuestionario electrónico con las observaciones correspondientes a cada una de las inconsistencia detectadas para su reconsulta con el informante, con el fin de revisar omisiones y falta de respuesta, y datos numéricos emitidos que no son congruentes con datos desagregados.
Finalizado el proceso de reconsulta con el informante, se revisaron nuevamente los microdatos, detectándo nuevamente las inconsistencias siguientes:
• Espacios vacíos y/o falta de respuesta
• Uso heterogéneo del término “NS” (No sé), “NA” (No aplica) y “ND” (No disponible)
• Dato numérico agregado que no es congruente con datos numéricos desagregados
• Valores emitidos en tipo de funciones, tipo de corporación policiaca, tipos de centros penitenciarios, tipos de centros de tratamiento o de internamiento para adolescentes y tipo de cargo que fueron seleccionados como no aplica en tablas
Debido a que las inconsistencias se mantenían en los datos emitidos por los informantes, se aplicaron las soluciones siguientes:
b) Homologación del término “No sé” de acuerdo con el tipo de pregunta y los valores aceptados por cada pregunta, asignando los caracteres “NS”:
I. Sustitución de los términos “NA” y “ND” por “NS” determinados por el tipo de valor aceptado en cada pregunta.
II. Aquellas que contenían un campo específico para el término “No sé” y no contaran con algún dato y/o se encontraran sin respuesta.
III. Todas las que se desprendían de tablas en las que, por la naturaleza de los datos solicitados en la misma, se aceptaban valores alfanuméricos y no contaran con algún dato y/o se encontraran sin respuesta.
IV. Para aquellas que no tenían valor alguno en la respuesta, se determinó incorporar el código “NS”, debido a que el informante no respondió por falta de información, desconocimiento y/u omisión.
c) Incorporación del código “NA” (no aplica), identificado con los caracteres NA, y que se asignó a los espacios en las variables de las preguntas que por su carácter condicionado a otras preguntas no tenían que ser respondidas, y en caso de contener una respuesta en la pregunta de referencia se cambió el valor de la pregunta que determina el pase de ésta.
d) Imputación del valor cuando el mismo dato esta desagregado en otra pregunta o se solicitó aclaración del mismo por parte del informante o responsable en el llenado del cuestionario, o bien presentaron datos en anexos, que no se encontraban registrados en los campos de respuesta correspondientes.
e) Reasignación de valores que fueron emitidos en tipo de funciones, tipo de corporación policiaca, tipos de centros penitenciarios, tipos de centros de tratamiento o de internamiento para adolescentes y tipo de cargo que no aplicaban, bajo el criterio de las funciones secundarias y/o alineación por totales por sexo.
f) Realización de los cálculos con base en la información presentada por el informante con el fin de modificar los microdatos para ser incorporados
en las preguntas correspondientes.
Después de concluido el proceso de microvalidación, se generó la base de datos preliminar, misma que contempló los ajustes y modificaciones derivados de
la identificación de los errores e inconsistencias mencionadas.
La segunda etapa, denominada macrovalidación de la base de datos preliminar implicó el uso del criteriode validación llamado congruencia lógica, mismo que se define como un conjunto de reglas de naturaleza conceptual y estadística que sirve de base para la identificación de las inconsistencias entre los datos relacionados, omisiones y datos emitidos que no son congruentes con tipo de valor solicitado en las preguntas específicas (datos emitidos en preguntas agregadas que no son consistentes con el valor solicitado de manera desagregada). Este criterio sólo fue empleado para aquellas preguntas que se encontraban relacionadas entre sí, por lo que dicha validación se realizó mediante el análisis de la interrelación de las preguntas contenidas en los módulos que integran este cuestionario.
Una vez terminada la macrovalidación sobre la base de datos preliminar, se consideraba como concluido el procedimiento de validación.
Adicionalmente, se realizó un análisis comparativo respecto a las características de la información registrada en la Encuesta Nacional de Gobierno 2010 – Poder Ejecutivo Estatal y el CNGSPSPE 2011.
En este sentido, se pudo observar una mayor tasa de respuesta y una mayor calidad de la información obtenida en el proceso de captación del presente Censo, lo anterior derivado de las mejoras en el diseño de los instrumentos de captación, la ampliación y precisión de las preguntas establecidas en los cuestionarios, así como la experiencia adquirida por los informantes y el avance en la mejora de sus registros administrativos, resultaron en la captación de la totalidad de los módulos en que se dividió el Censo, en el registro de una mayor cantidad de datos desagregados y en una mejora en la consistencia y la calidad de la información recopilada.
Finalmente, la última etapa del procesamiento de la información, denominada generación de la base de datos definitiva, tenía como objetivo la integración de las bases de datos preliminares ya validadas en las bases de datos finales que contiene toda la información generada por cada tema y desagregada por subtemas y preguntas, misma que se estructuró conforme a los criterios y lineamientos establecidos para su explotación y la posterior generación de los tabulados correspondientes