Edición de Datos
ANÁLISIS Y PROCESAMIENTO DE LA INFORMACIÓN
El procesamiento y análisis de la información representa una parte primordial para garantizar la calidad, consistencia, completitud y oportunidad de la información generada en eventos estadísticos censales o muestrales agropecuarios.
Para la Encuesta Nacional Agropecuaria 2019 (ENA 2019), se contemplaron actividades específicas de procesamiento de la información con la finalidad garantizar la congruencia y calidad de esta. Los procesos de validación y análisis se llevaron a cabo desde el momento de la entrevista con criterios de validación en el Dispositivo de Cómputo Móvil (DCM) directamente con el informante, hasta la revisión y presentación de los resultados.
Por lo anterior, la información captada en la ENA 2019, fue sometida a un conjunto de procesos para identificar datos que no cumplen con los requisitos de congruencia lógica y aritmética, completes e integridad, a fin de aplicar una solución bajo criterios específicos y homogéneos, que aseguren la consistencia y calidad de la información.
Dentro del procesamiento de la ENA 2019 se definieron diversas etapas para llevar a cabo el análisis y validación de la información. Las etapas del procesamiento fueron las siguientes:
- Validación en línea
- Monitoreo
- Codificación y Normalización
- Validación al interior del cuestionario
- Validación entre cuestionarios
- Comparación con fuentes internas y externas
VALIDACIÓN EN LÍNEA
La validación en línea es la primera etapa del procesamiento y tuvo el propósito de detectar y solucionar inconsistencias en la información al momento de la entrevista directamente con el informante, esto durante la aplicación del cuestionario con el DCM. Esta validación permitió que una vez que el entrevistador haya registrado los datos proporcionados por el informante, si el sistema detectaba alguna inconsistencia, mandaba un mensaje de error para que fuese corregida en ese momento con el informante. Los criterios de validación en línea fueron más de 200. Estos se diseñaron para garantizar que el cuestionario contara con la información mínima necesaria, detectar variables sin respuestas, así como validar los desgloses del destino de la producción de cultivos, existencias ganaderas, entre otros.
Finalizada la captura de cuestionarios, la información fue transferida vía internet a la base de datos de captura nacional de oficinas centrales del INEGI.
MONITOREO
El monitoreo de la información se llevó a cabo a la par del operativo de campo y con la información de la base de datos de captura. Tuvo como objetivo dar seguimiento a la información captada en los cuestionarios y verificar su completitud durante el operativo de campo, a fin de detectar de manera oportuna inconsistencias en la captación de la información que no fueran detectadas durante la validación en línea. De igual forma, fungió como un sistema de alertas para monitorear la calidad y completitud en la información y ofreció elementos para reinstruir al personal operativo en caso de omisiones o faltas reiterativas en la captura de la información.
CODIFICACIÓN DE CONCEPTOS
Para la generación de estadísticas es necesario que la información recopilada de cada variable, sea catalogada para su clasificación adecuada y quede identificada para su integración en la base de datos, para su procesamiento, análisis, así como para una ordenada presentación de resultados.
En las estadísticas agropecuarias (censos y encuestas), se utilizan catálogos para clasificar las opciones de respuesta de cada variable contenida en el cuestionario; los catálogos contienen conceptos codificados que se desarrollan a partir de la investigación y análisis de cada variable, para integrar las opciones de respuesta, tantas como sea factible que respondan los informantes, según las características de cada pregunta del cuestionario.
La primera codificación se realizó al momento de la entrevista dado que el dispositivo de cómputo móvil tenía integrados los catálogos, de tal manera que, durante la entrevista, el dispositivo permitió desplegar el catálogo del cual el entrevistador podía elegir el concepto según correspondiera con la respuesta del productor, al elegir un concepto del catálogo integrado en el dispositivo de cómputo móvil, en ese momento quedaba almacenada la clave del concepto elegido del catálogo. En los casos en que la respuesta que proporcionó el informante no coincidía con ninguno de los conceptos del catálogo, el sistema de captura permitía capturar la respuesta y todos estos casos se codificaron una vez que se integró la información capturada en una base de datos, mediante dos procesos: la codificación electrónica y la codificación manual.
Los cuestionarios captados en el dispositivo de cómputo móvil de cada entrevistador, eran transferidos semanalmente a la base de datos concentrada a nivel estatal y cada coordinación estatal transfería a su vez a una base de datos nacional, integrada en las oficinas centrales del Instituto.
La información ya concentrada en la base de datos de oficinas centrales, se procesaron por un sistema y aquellos casos que en el momento de la captura no quedaron codificados porque no se localizaron en el catálogo al momento de la entrevista, pasaron a una codificación electrónica, es decir por medio de un sistema electrónico automatizado se cotejaron los conceptos captados con los contenidos en los catálogos para hacer un filtro que permitiera detectar aquellos casos que sí eran coincidentes y que por algún motivo al momento de la entrevista no fue localizado, por este medio electrónico quedaron codificados de manera automatizada los casos con los descritos en los catálogos.
Posterior al proceso de codificación electrónica, los casos que quedaron pendientes de codificar, se transfieren a una codificación manual, en este proceso se agrupan por tipo de catálogo para su revisión y análisis por personal de oficinas centrales, en donde se detectaron sinónimos con conceptos que sí estén contenidos en el catálogo o bien tenían una escritura errónea en el momento de su captura; a estos se les asignó la clave correspondiente del concepto contenido en el catálogo; por otro lado, los casos que se identificaron como nuevos, después de la revisión, el análisis y la investigación, incluso de consultas con personal de las oficinas estatales, se les asignó una clave nueva y se dieron de alta en el catálogo correspondiente para su codificación.
NORMALIZACIÓN
En México a lo largo de su territorio existen diversos regionalismos y las unidades de medida que se refieren a superficie y volumen no son la excepción. La información que es captada en las estadísticas agropecuarias y que corresponde a variables cuantitativas, que se refieren a extensiones de superficie o bien a cuantificar la capacidad o el volumen. En algunos casos los productores agropecuarios las expresan en medidas que no siempre son del sistema métrico decimal (metros, hectáreas, litros, kilogramos, toneladas, etc.), según el lugar geográfico en que se sitúen, proporcionan unidades regionales que acostumbran manejar en su comunidad, tales como almud, tarea, media, mecate, entre otras medidas.
Para la publicación de resultados es necesario homogeneizar las medidas al sistema métrico decimal, a este proceso de homogeneización se le llama Normalización, en este proceso se revisan y analizan las unidades de medida diferentes al sistema métrico decimal y se aplica una equivalencia para realizar una conversión a las medidas con las que serán publicadas (hectáreas, toneladas, litros, etcétera).
Primero se realiza una normalización electrónica que, mediante un proceso electrónico automatizado, se realiza la conversión de las unidades de medida que son de equivalencia fija (metro cuadrado, yarda, acre, libra, galón, etc.), a unidades de medidas que se presentan en los resultados publicados: litro, metro o hectárea, kilogramo o tonelada, según la variable de que se trate como la superficie sembrada, superficie cosechada o producción.
Por otra parte, en la normalización manual se analizan e investigan todas las unidades captadas que no corresponden al sistema métrico decimal y que no tienen una equivalencia establecida, dado que puede variar su valor, según la región donde haya sido captada. A estos casos, una vez que se determina su equivalencia por medio de una exhaustiva investigación y haber verificado su congruencia con otras variables, se convierte su valor a unidades de medida publicables, homogeneizando así los valores para poder agregar la información y presentarla en los resultados de la Encuesta.
VALIDACIÓN AL INTERIOR DEL CUESTIONARIO
La validación al interior del cuestionario garantiza la consistencia de la información al interior de este, verificando la congruencia entre variables relacionadas. Para ello, se contó con un significativo número de validaciones lógicas que fueron aplicadas a cada uno de los cuestionarios. Este proceso se realizó una vez liberados los procesos previos de codificación y normalización. Por lo cual, la validación al interior del cuestionario, y para cada uno de ellos, inició con la información normalizada y se ejecutó hasta que ningún cuestionario presentó errores o discrepancias de acuerdo con los criterios establecidos. En la ENA 2019, se elaboraron 157 criterios de validación.
Para la validación al interior de cuestionarios, se estableció que se utilizara el método de 'vectores teóricos', en el cual se definieron previamente funciones en donde a sus variables dependientes se les asignaron valores de acuerdo con las preguntas y respuestas de cada capítulo del cuestionario. A partir de estos valores las funciones proporcionaron un conjunto de 'imágenes' que correspondían a todas las combinaciones posibles de respuestas a las preguntas objeto de estudio, cada imagen identificó una y solo una combinación. Posterior a ello, cada imagen fue sometida a una metodología de análisis y corrección para las inconsistencias que se pudieran presentar, de tal forma que los registros que no cumplían con los criterios establecidos serían en algunos casos corregidos automáticamente y en otros diagnosticados para su depuración manual.
VALIDACIÓN ENTRE CUESTIONARIOS
La etapa del procesamiento de validación entre cuestionarios tuvo como objetivo que la información fuera consistente de forma agrupada. Para ello, se realizó un análisis entre diferentes grupos definidos de acuerdo con la actividad principal o el tamaño de la unidad de producción, etc.; como, por ejemplo: unidades de producción de maíz o unidades de producción pecuaria con afinidad de alguna especie, con ello fue posible detectar registros que mostraran comportamiento diferente en ciertas variables con respecto al grupo al que pertenecen. Esto se realizó mediante la aplicación de herramientas estadísticas para datos agrupados como el análisis multivariado y univariado. Para el análisis univariado se definieron estadísticamente los intervalos entre los cuales los datos de estas variables podrían fluctuar sin salirse del comportamiento promedio de los demás. Los intervalos sirvieron para detectar todas aquellas unidades de producción que registraron datos atípicos al salirse de la fluctuación acotada, es decir, todos aquellos datos cuya dimensión fue superior o inferior a lo que registra el comportamiento promedio predeterminado de los demás. Por otro lado, para el análisis multivariado, se definieron las variables que estuvieran correlacionadas y fueran dependientes entre sí; en función de ello, se detectaron las unidades de producción con atipicidades en el comportamiento agrupado de dichas variables.
La validación entre cuestionarios se llevó a cabo al contar con todos los cuestionarios codificados y normalizados. Esta etapa se desarrolló a la par de la validación al interior de los cuestionarios, al tener toda la base normalizada, y se continuó con ella hasta finalizar el procesamiento. En los casos que resultaron inconsistentes se elaboró un reporte para analizar su depuración automática o manual en caso de ser necesario.
Durante las etapas de validación al interior y entre cuestionarios, se dispuso de un sistema de reconsulta, el cual permitió llevar a cabo un intercambio de información entre los ámbitos central y estatal, en relación con los casos reportados como inconsistentes para que pudieran ser analizados estatalmente y si se consideraba necesario reconsultarlos en campo directamente con el informante, para ratificar los datos o aplicar ajustes a los mismos.
COMPARACIÓN CON FUENTES INTERNAS Y EXTERNAS
Con el propósito de garantizar la calidad de la información captada por la ENA 2019, fue importante llevar a cabo una confronta de información con la generada por otras fuentes, tanto internas como de instituciones relacionadas con el Sector Agropecuario. Las fuentes de consulta empleadas fueron las siguientes:
FUENTES INTERNAS: información del censo 2007 y Encuestas Agropecuarias 2012, 2014 y 2017.
FUENTES EXTERNAS: información del SIAP-SADER, SEMARNAT, CONAGUA, RAN, etcétera.
La confronta mencionada se realizó bajo dos niveles, nacional y estatal, con base en la prioridad a ciertas variables, tales como: superficie, cultivos, producción, rendimientos, inventarios de cabezas de ganado, etcétera.
Para lo anterior, fue necesario contar con los tabulados de diagnóstico o preliminares, que permitieran llevar a cabo el análisis correspondiente en cuanto a corroborar las cifras muestrales expandidas, así como realizar reconsultas con los productores, con la finalidad de determinar si la información era correcta o bien se debían hacer los ajustes pertinentes y, en último caso, realizar la justificación correspondiente.
Finalmente, esta actividad permitió detectar similitudes y/o diferencias de los datos estadísticos expandidos, o bien, determinar si estas diferencias se debían a aspectos de tipo conceptual u operativo.
Organización y preparación
La estructura organizacional del INEGI está orientada al desarrollo de la normatividad a nivel central y delegar la ejecución de los programas estadísticos en los ámbitos regionales y estatales.
La muestra para la ENA 2019 se obtuvo del universo de unidades de producción resultantes de la Actualización del Marco Censal Agropecuario 2016 y de la ENA 2017, el levantamiento de la información se realizó con una estructura operativa integrada por Entrevistadores (ENT) y Supervisores de Entrevistadores (SENT).
La planeación constituyó un proceso básico, ya que permitió calcular la plantilla de personal operativo y de control necesaria para el levantamiento de la información; así como definir y distribuir equitativamente las cargas de trabajo mediante la conformación de áreas geográficas de responsabilidad, de esta manera se determinaron los recursos materiales necesarios y para efectos de establecer una adecuada organización del trabajo y optimizar el control del operativo de campo.
La planeación general del operativo de campo se basó en el cálculo de recursos humanos necesarios para satisfacer las necesidades de la Encuesta, la planeación operativa se definió en función del tamaño de la muestra y la dispersión de las localidades donde se ubicaba el domicilio de los productores, accesibilidad, tiempo promedio de identificación, total de terrenos y conformación de la Unidad de Producción; además se consideran otras variables como el número de días del operativo de campo y el promedio de cuestionarios por día que aplicaría el Entrevistador; con estos elementos se definieron las cargas y áreas de trabajo, lo que determinó la cantidad de Entrevistadores.
En la primera fase de planeación, se señaló el universo de localidades objeto de levantamiento y se describen los factores y criterios considerados en el sistema de planeación para realización del cálculo de la fracción de Entrevistador y Supervisor de Entrevistadores requerido por localidad.
En la segunda fase de planeación se detallaron los criterios y lineamientos para la conformación de las Áreas de Entrevistadores y Supervisor de Entrevistadores que se describieron en los reportes generados por sistema para la asignación de cargas de trabajo de estas figuras.
Adicionalmente se realizó una sesión de reforzamiento en campo, con el propósito de retroalimentar al personal respecto a posibles inconsistencias. La sesión consistió en la aplicación de la pregunta: “¿Cuantos terrenos manejo en este municipio?”, si el número que manifestaba era igual al que se tenía registrado, se continuaba con la aplicación del cuestionario; si no coincidía el numero solo se anotaba la cantidad de terrenos que el informante decía poseer.
Por último, se elaboraron reportes de avance, generados con información resguardada en el DCM y transferida al Sistema de Administración de Control y Seguimiento de los Procesos Operativos (SACSPO) vía Web, con el propósito de mantener el control sobre el grado de avance de las actividades desarrolladas en cada área de responsabilidad en las entidades y de acuerdo a ello, trazar las medidas pertinentes en aquellos casos en que se consideraron necesarios.
La estructura de organización de la ENA 2019 se definió, en función de las cargas de trabajo, de la forma siguiente:
Jefe de Control (JC)
Responsable de planear el operativo, coordinar, asesorar, supervisar y apoyar las tareas que realiza el personal a su cargo, dar seguimiento y solucionar las situaciones de acuerdo con los lineamientos que se han establecido, con el fin de asegurar la planeación, capacitación, seguimiento del control del operativo, así como, el requerimiento de recursos financieros y materiales. Además, realiza la concertación de apoyos, difusión del proyecto con autoridades municipales y líderes locales para su desarrollo; y, la contratación del personal operativo participante de la encuesta.
Soporte Informático
Es el encargado del administrador del sistema para la operación de los dispositivos de cómputo móvil, se encarga de asesorar y apoyar a los ENT, para el envío de información del DCM a través de la Web; también brinda asesoría al personal en el uso y manejo del dispositivo, previa solicitud del JC.
Por último, se encargó de generar los reportes de seguimiento para las reuniones semanales o bien cuando le eran requeridos por el JC.
Instructor Agropecuario (IA)
Se encargó de impartir capacitación al personal operativo como lo son: SENT, ENT, AI, Auxiliar Administrativo de zona (AA), también capacitó al personal contratado para sustituir las vacantes por renuncias de personal operativo. El IA realiza actividades de supervisión del operativo de campo, es decir al SENT y al ENT; además apoya al JC en las actividades que realiza en caso de que este se lo solicitara.
Analista de Información (AI)
Dentro de las actividades realizadas fue revisar y analizar los reportes de análisis con posibles inconsistencias generados por los sistemas de Monitoreo y Validación automatizada, mismas que hace del conocimiento al JC, en el caso de las inconsistencias de información a las que se les dio solución tanto en campo como en gabinete, debe de registrarlas en el Módulo de Reconsulta, hasta corroborar que al regresar contuvieran la información correcta, motivo por el cual la comunicación con el Sistema de Reconsulta fue directa.
Supervisor de Entrevistadores (SENT)
Responsable de supervisar que los ENT realicen las actividades de captación adecuadamente. Entrega el DCM cargado con el Sistema de Captación de Información de la ENA 2019. Proporciona los materiales necesarios (control, apoyo, auxiliar y oficina) para el desempeño de las actividades. Asigna la carga inicial. En conjunto con los ENT establece la programación semanal de visitas a productores. Asesora y apoya en la solución de la problemática. Supervisa la correcta captación de la información de las unidades de producción (UP) seleccionadas. Revisa el avance del operativo con base en el análisis de los reportes de seguimiento. Verifica que los envíos de información a través de la Web se realicen de forma completa y oportuna.
Entrevistador (ENT)
Encargado de captar mediante una entrevista directa, la información de las unidades de observación asignadas en su área de responsabilidad, con base en la planeación y la estrategia estipulada en el manual del entrevistador para la generación de información de la encuesta.