Edición de Datos
Considerando que la temática y logística del levantamiento de información para este proyecto representaron un ejercicio sin precedentes a nivel nacional en la historia del INEGI, el procesamiento de la información en su etapa de validación se convirtió en una actividad fundamental, debido a la relevancia del proceso de detección de posibles errores e inconsistencias, donde toda la información fue depurada para asegurar completa calidad y congruencia. Para ello, la validación de la información se llevó a cabo en dos etapas y en una tercera etapa del procesamiento de la información se generó la base de datos definitiva.
La primera de estas etapas, llamada microvalidación, consistió en la identificación de las inconsistencias en la información a nivel de registro dentro del cuestionario (instrumento de captación generado para este proyecto) aplicando los criterios básicos establecidos y posteriormente solicitando al informante las aclaraciones necesarias sobre el dato o valor registrado en el cuestionario con el fin de confirmar si la información emitida en el mismo es correcta o se requiere modificar dicha información (proceso de reconsulta) y una vez terminado este proceso generar la base de datos preliminar.
La segunda etapa consistió en un proceso denominado macrovalidación, que se realizó para identificar comportamientos incorrectos (de estructura o de valor) presentes en la base de datos preliminares, y a su vez validarlos mediante los criterios establecidos en el marco conceptual y metodológico de los temas correspondientes, para lo cual se emplearon las reglas de congruencia lógica, identificación de falta de información o inconsistencia de la respuesta.
Y la tercera etapa se llevó a cabo, terminados estos procesos de validación de los microdatos y realizados los ajustes necesarios que garanticen la calidad en la información, generando e integrando las bases de datos definitivas.
A continuación se explican las tres etapas del procesamiento de la información por cada uno de los siete temas contenidos en el cuestionario.
1.- La etapa de Microvalidación de los datos emitidos en los tipos de preguntas cerradas y abiertas se realizó a partir de la aplicación de los criterios de:
• Validación de rango, se refiere al proceso de revisar que los microdatos se expresen como valores numéricos o alfanuméricos y se encuentren dentro de los parámetros esperados.
• Validación de consistencia, se refiere al proceso de revisar que los datos numéricos solicitados de manera agregada sean consistentes con los datos numéricos solicitados de manera desagregada en tablas.
• Validación de filtro, se refiere a la revisión de las preguntas que por el tipo de selección de las opciones en la pregunta que antecede no deben ser respondidas.
• Validación de selección, se refiere a la revisión de la selección de las opciones que se presentan en las preguntas donde una o dos opciones invalidan la selección de las demás opciones, y
• Validación de asignación, se refiere a la elección de las funciones que no aplican y que dicha elección afecta a los tipos de funciones que se presentan en varias tablas vinculadas por la selección de la columna "No aplica".
Estos procesos se realizaron para cada una de las preguntas contenidas en cada tema dentro del cuestionario, mismos que fueron expresados en funciones lógicas con el fin de revisar su cumplimiento y cuyo propósito principal fue la detección de inconsistencias de datos numéricos agregados y desagregados, de pase de pregunta mal aplicados, de selección de opciones mutuamente excluyentes y de selección de tipo de función que no aplica mal asignada.
Después de realizada la confronta de los registros estadísticos contra los criterios de validación establecidos, se detectaron las inconsistencias siguientes:
• Omisión, espacio vacío y/o falta de respuesta.
• Uso heterogéneo del término “NS” (No sé), “NA” (No aplica) y “ND” (No disponible).
• Inconsistencia en las respuestas a preguntas condicionadas.
• Respuesta múltiple en preguntas cerradas con selección de opción única.
• Dato numérico agregado que no es congruente con la suma de los datos numéricos desagregados.
• Valores emitidos en tipo de funciones que fueron seleccionados como no aplica en tablas relacionadas.
Para las que se aplicaron las soluciones siguientes:
a) Envío de cuestionario electrónico con las observaciones correspondientes a cada una de las inconsistencia detectadas para su reconsulta con el informante con el fin de revisar omisiones y falta de respuesta, y datos numéricos emitidos que no son congruentes con datos desagregados (por tipo de función y sexo).
b) Homologación del término "No se" de acuerdo con el tipo de pregunta de valores aceptados por cada pregunta, asignando los caracteres "NS"
c) Incorporación del código "No Aplica", que se identifica con los caracteres NA.
d) Imputación del valor cuando el mismo dato está desagregado en otra pregunta o se solicitó aclaración del mismo por parte del informante o responsable para el llenado del cuestionario
e) Reasignación de valores que fueron emitidos en tipo de funciones y tipos de agencias del ministerio público que no aplicaban, bajo el criterio de las funciones secundarias y tipo complementario.
f) Realización de los cálculos con base en la información presentada por el informante con el fin de modificar los microdatos para ser incorporados en las preguntas correspondientes.
Después de concluida la microvalidación se generó la base de datos preliminar, que contempló los ajustes y modificaciones derivados de la identificación de los errores e inconsistencias mencionadas.
2.- Etapa de Macrovalidación de la base de datos preliminar. Esta etapa, implicó el uso del criterio de validación de consistencia, que se define como un conjunto de reglas de naturaleza conceptual y estadística que sirve de base para la identificación de las inconsistencias, omisiones y multirrespuestas no aplicables; este criterio sólo fue empleado en aquellas preguntas que se encontraban relacionadas entre sí, por lo que dicha validación se realizó mediante el análisis de la interrelación de las preguntas contenidas en los temas que integran este cuestionario
Una vez terminado el análisis de los microdatos mediante la validación de consistencia, se detectaron en las bases de datos preliminares las inconsistencias siguientes:
• Valores numéricos menores en los presuntos delitos del fuero común con respecto al total de carpetas de investigación para el caso de los presuntos responsables registradas en las tablas.
• Valores numéricos menores en las conductas delictivas antisociales con respecto a las investigaciones abiertas para el caso de los menores infractores registradas en las tablas de las preguntas correspondientes.
• Microdatos integrados por valores sumados de denuncias y querellas.
• Datos obtenidos por la sumatoria de totales de hombres, mujeres, múltiple y alguien no identificado
• Valores generados mediante la sumatoria de mayores y menores de edad.
• Datos agregados por tipos de hombre, mujer, múltiple y alguien no identificado que no son congruentes con el valor desagregado para los mismos tipos en las tablas registradas en las preguntas relacionadas.
Las soluciones a estas inconsistencias dentro de la base de datos fueron las siguientes:
• Imputación del valor obtenido de la sumatoria de los valores desagregados por los presuntos delitos del fuero común registrados por hombre, mujer, múltiple y alguien no identificado por presuntos responsables y divido por denuncia y querella para ser sustituido por el dato emitido en el total de carpetas de investigación en las bases de datos.
• Imputación del valor obtenido de la sumatoria de los valores desagregados en las conductas antisociales registradas por hombre, mujer, múltiple y alguien no identificado por menores infractores y divido por denuncia y querella para ser sustituido por el dato emitido en el total de investigaciones
abiertas en las bases de datos.
• Generación de nuevas bases de datos que integran los valores emitidos por denuncia y querella, y sustitución del microdato emitido de manera agregada por la clave “NS” en las bases de datos que se estructuran de forma dividida por denuncia y querella.
• Sustitución de los valores generados mediante la sumatoria de los totales de hombres, mujeres, múltiple y alguien no identificado por la clave “NS”, quedando únicamente el valor agregado de estos totales en la bases de datos.
• Procesamiento de los valores emitidos por la sumatoria de mayores y menores de edad mediante la resta de los de estos microdatos siempre y cuando existirá el valor de referencia en el apartado de adolescentes (este caso sólo se aplico para la entidad federativa de Michoacán) y en las bases de datos que no se podía realizar esta resta se aplico el uso de la clave “NS” para las bases de datos integradas únicamente por mayores de edad.
• Imputación de valores, a partir del valor obtenido de la sumatoria de los valores desagregados en aquellas preguntas que solicitaban el mismo dato pero con otros clasificadores, y en este último contaban con información que permitiera identificar la asignación proporcional a realizar en las bases de datos.
Una vez terminada la macrovalidación sobre la base de datos preliminar, se considera concluido el procedimiento de validación.
3.- Etapa de generación de la Base de Datos definitiva. Esta etapa es la última del procesamiento de la información y tuvo como objetivo la integración de las bases de datos preliminares ya validadas en una sola base de datos que contiene toda la información generada por cada tema y desagregada por subtemas y preguntas, misma que se estructuró conforme a los criterios y lineamientos establecidos para su explotación y la posterior generación de los tabulados correspondientes.