Edición de Datos
Procesamiento a nivel de unidad económica
Considera la preparación de los datos captados para el análisis, mediante procesos de transformación como la revisión, validación, edición e imputación de estos; conservando el registro de los procesos que transforman a cada dato de entrada; todo esto con el fin de obtener un conjunto de datos procesados actualizados y congruentes de acuerdo con los criterios de validación establecidos.
La validación a nivel de registro previo al procesamiento de datos, como se ha mencionado antes, comienza desde la captación de la información y continúa en la captura de la información vía internet que cuenta con un sistema de validación automatizado, lo que permite al usuario justificar o en su defecto, corregir datos incongruentes o inconsistentes.
Durante esta etapa cada uno de los cuestionarios captados es objeto de análisis exhaustivo, para identificar la completez de los datos; una validación amplia de ellos permite la detección de valores atípicos, para proceder con las reconsultas correspondientes, y avanzar con el procesamiento y análisis de los resultados generados.
Criterios básicos de validación en campo
Como parte del proceso de validación integral, en primera instancia, se revisa la correcta aplicación de los criterios básicos de validación en campo. Los(as) entrevistadores(as) cuentan con una guía impresa que les señala cuales preguntas requieren una respuesta obligatoria durante la entrevista y, en algunos casos, también se presenta el intervalo donde se tiene que posicionar la respuesta, asimismo, determina los casos en los que es necesaria una aclaración o explicación por parte de la fuente informante; lo anterior, con el propósito de asegurar el correcto funcionamiento de los validadores del sistema de captura.
Criterios básicos de validación para el procesamiento
Como parte del proceso de validación se verifica la consistencia entre los datos del mes de referencia, pues algunas variables deben mantener relación entre sí, o bien, una respuesta debe asociarse necesariamente a otra pregunta o nivel de respuesta de forma lógica.
En complemento del punto anterior, se verifican los cambios de tendencia en la serie de tiempo de las variables que reportan las unidades económicas: para la validación de la información se realiza la comparación de las respuestas de los datos del año en estudio respecto del año anterior, con el propósito de identificar los cambios en los niveles, sobre todo de aquellos que son inconsistentes en series de tiempo.
Identificación de valores atípicos
A partir de la aplicación del conjunto de criterios de validación, se generan listados con los datos atípicos que son revisados para determinar si los mismos requieren ser objeto de reconsulta con el informante.
Se consideran registros atípicos cuando se rompe la consistencia o la tendencia observada se interrumpe bruscamente. Lo anterior no necesariamente implica cambios en la información captada, sino que derivan en reconsultas de información con la fuente informante o con la imputación de los datos.
Reconsultas de la información
Las reconsultas que en el análisis de la información de la EAC se detectan, se llevan a cabo vía telefónica directamente, o bien, por correo electrónico. En esta actividad participan tanto los (las) analistas y supervisores (as) de las oficinas centrales, como de oficinas descentralizadas (operativo de campo).
Eventualmente, cuando el tiempo comienza a ser un factor relevante y no se ha podido concretar la reconsulta, dependiendo del tipo de inconsistencia detectada, se puede desechar temporalmente el registro para hacer una imputación, o bien, solamente editar el dato en cuestión hasta recibir la respuesta correspondiente por parte de la fuente informante.
Imputación de información faltante
Para finalizar la actividad de revisión a nivel de unidad económica se efectúa la imputación de empresas faltantes con actividades operativas normales.
Dicha imputación se realiza de manera sistematizada, utilizando diferentes métodos de estimación según periodo de referencia y variable faltante, estos son los siguientes:
• Suma anualizada de la EMEC. La imputación de empresas faltantes con actividades operativas normales se realiza aprovechando la información recibida por la Encuesta Mensual sobre Empresas Comerciales, con la cual se comparte el mismo diseño estadístico; este proceso implica retomar las variables comunes entre ambas encuestas y tomar su valor anualizado para la EAC.
En tanto, para generar la información del resto de la temática, se toman como punto de partida los datos históricos reportados por las propias unidades económicas y las estructuras por dominio de estudio, como es el caso de las existencias y activos fijos.
• Vecino más cercano. Es una técnica que consiste en agrupar empresas de tipo similar por estrato, con la finalidad de ordenar el grado de asociación entre dos empresas que pertenecen al mismo grupo, en este caso, por rama de actividad. A través
de este procedimiento es posible imputar la información de las empresas faltantes, retomando la información del donante que en este caso se identifica como el vecino más cercano del mismo grupo.
La imputación únicamente se efectúa a las empresas que conforman el estrato de certeza (estrato 1), con la finalidad de completar la muestra mínima necesaria para el procesamiento, luego de lo cual se solicitan los fatores de expansión para procesar la muestra y obtener los indicadores.
En los casos de empresas faltantes de los estratos 2 al 7 se realizan ajustes a los factores de expansión de la muestra, logrando con este procedimiento mantener la cobertura definida por el diseño estadístico.
En complemento a lo anterior, la información agregada se compara con los resultados de la EMEC.
Con la imputación, se consolida la información de la muestra completa que permite integrar la base de datos procesados del periodo en estudio.
Procesamiento de datos agregados
Cuando el conjunto de datos procesados se encuentra validado y completado, se solicitan a la Dirección de Marcos y Muestreo los factores de expansión, insumo necesario para la inferencia de totales de los dominios de estudio (rama y subsector de actividad SCIAN 2018); el diseño estadístico es probabilístico, por lo que cada empresa al ser expandida posee un peso específico de acuerdo con el dominio de estudio y estrato en el que participa. En este punto es cuando la EAC genera los indicadores con carácter de preliminar, para dar así paso a la fase de Análisis de la Producción.
Cuando se cuenta con la información consolidada se realizan los cálculos de los Indicadores de Precisión Estadística (IPE); estos indicadores se construyen de manera conjunta con el área que da seguimiento al modelo del proceso MPEG, ya que esta última envía los IPE al Comité de Aseguramiento de la Calidad del INEGI.