Procedimiento de muestreo
Marco de la Muestra
El marco estadístico se conformó a partir del Registro Estadístico de Negocios de México (RENEM) actualizado con el directorio de los resultados definitivos de los Censos Económicos 2019.
Esquema de muestreo
Es probabilístico y estratificado para los 35 dominios de estudio:
• Probabilístico. Las unidades de muestreo tienen una probabilidad conocida y distinta de cero de ser seleccionadas.
• Estratificado. Las unidades de muestreo con características similares se agrupan para formar estratos homogéneos en su interior y heterogéneos entre ellos.
Estratificación
Grupos de entidades federativas y subsectores de actividad económica.
Después de analizar los coeficientes de variación de la muestra recuperada durante los 12 meses del año 2020, se detectó la necesidad de generar grupos de entidades federativas, a fin de determinar los tamaños de la muestra diferenciados conforme el comportamiento del sector en cada grupo de entidades federativas.
a) Grupo de entidades federativas
Se generó con base en el total de empresas y valor de la producción del marco de muestreo, recurriendo a una serie de índices de agrupamiento (Kl, ch, hartigan, ccc, Scott, marriot, trcovw, tracew, friedman, rubin, cindex, db, silhouette, duda, beale, ratkowsky, ball, ptbiserial, frey, mcclain, gamma, gplus, tau, dunn, sdindex, sdbw, euclidean, maximum, manhattan y Canberra) en donde se considera como número óptimo de grupos a aquel que recomiende la mayor cantidad de índices.
• Una vez definido el número óptimo de grupos, las entidades federativas se agruparon por el método de k-medias y orden jerárquico con diferentes medidas de distancia y métodos de agregación, definiendo 3 grupos de entidades federativas.
b) Grupo de subsectores
Se analizó el comportamiento de la variable valor de la producción por subsector a nivel nacional, generando 2 grupos de subsectores.
Determinación de la certeza
Se incluyeron con certeza (estrato 1) a las empresas con valor de la producción mayor o igual a 73 millones de pesos o personal ocupado mayor o igual a 251 personas.
Formación de la componente principal
El análisis de componentes principales transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas. El objetivo del análisis es reducir la dimensionalidad en la cual se expresa el conjunto original de variables, en este caso, de tener dos variables por separado (Total de personal ocupado y valor de la producción) se identifica la componente principal, que explica mejor el comportamiento de ambas. Esta variable es adecuada para la formación de los estratos ya que explica más del 80 % de la varianza de ambas variables.
Para cada empresa del marco de muestreo, se obtuvo la primera componente principal, a nivel grupo de entidades federativas y grupo de subsectores, la cual es una combinación lineal de las variables del total de personal ocupado y valor de la producción.
Estratificación de la componente principal
Se estableció una estratificación del marco de muestreo, de dos a cuatro estratos, diferenciada de entidades federativas y grupo de subsectores, aplicando el método de Dalenius Hodges, a la componente principal.
Tamaño de la muestra
El cálculo de tamaño de la muestra se realizó para estimar el total de personal ocupado y valor de la producción considerando el máximo. Dichos tamaños se calcularon de manera independiente para cada entidad federativa, considerando un coeficiente de variación diferenciado por dominio, que toma valores entre 6 y 11 % así como una tasa de no respuesta esperada (TNR) diferenciada la cual oscila entre 15 y 26 por ciento.
Debido a que el tamaño de la muestra por subsector de actividad económica se cubría con el tamaño de la muestra por entidad federativa, se consideró este último, es decir, el tamaño de la muestra total es de 3 263 empresas, incluyendo certeza.
Afijación de la muestra
Para cada dominio (la afijación, selección y cálculo de factor de expansión se considera como dominio la concatenación de la entidad federativa y el subsector de actividad económica) la muestra fue distribuida en los estratos, empleando el método de Neyman, considerando la variable de valor de la producción.
Con la finalidad de contar con una muestra suficiente para el cálculo de la varianza, se determinó un mínimo, de 4 empresas por dominio-estrato, verificando la existencia en el marco, quedando un tamaño de la muestra final, incluyendo la certeza, de 3 922 empresas.
Ajuste por no respuesta
El ajuste del factor de expansión por no respuesta se aplicó considerando todas las empresas captadas en la encuesta. El factor de expansión se define como el inverso de la probabilidad de selección de la i-ésima empresa del h-ésimo estrato, del d-ésimo dominio.
En conclusión, el diseño estadístico probabilístico y estratificado de la ENEC, garantiza la precisión de las estimaciones obtenidas para la población en estudio.
Finalmente, es importante mencionar que el RENEM se actualiza periódicamente y que sus respectivas actualizaciones serán retomadas por el marco estadístico de la ENEC, con la finalidad de seguir produciendo indicadores del sector construcción acordes con las condiciones operativas de las empresas constructoras, manteniendo elevadas tasas de precisión estadística.