Procedimiento de muestreo
Marco de la Muestra
El marco estadístico se conformó a partir del Registro Estadístico de Negocios de México (RENEM) actualizado con el directorio de los resultados definitivos de los Censos Económicos 2019.
Las distribuciones del marco de muestreo por sector y subsector de actividad económica y por entidad federativa para las principales variables económicas (total de personal ocupado y valor de la producción).
Esquema de muestreo
Es probabilístico y estratificado para los 35 dominios de estudio:
• Probabilístico: Las unidades de muestreo tienen una probabilidad conocida y distinta de cero de ser seleccionadas.
• Estratificado: Las unidades de muestreo con características similares se agrupan para formar estratos homogéneos en su interior y heterogéneos entre ellos.
Estratificación
Grupos de entidades federativas y subsectores de actividad económica.
Después de analizar los coeficientes de variación de la muestra recuperada durante los 12 meses del año 2020, se detectó la necesidad de generar grupos de entidades federativas, a fin de determinar los tamaños de la muestra diferenciados conforme el comportamiento del sector en cada grupo de entidades federativas.
Se generó con base en el total de empresas y valor de la producción del marco de muestreo, recurriendo a una serie de índices de agrupamiento (Kl, ch, hartigan, ccc, Scott, marriot, trcovw, tracew, friedman, rubin, cindex, db, silhouette, duda, beale, ratkowsky, ball, ptbiserial, frey, mcclain, gamma, gplus, tau, dunn, sdindex, sdbw, euclidean, maximum, manhattan y Canberra) en donde se considera como número óptimo de grupos a aquel que recomiende la mayor cantidad de índices.
Una vez definido el número óptimo de grupos, las entidades federativas se agruparon por el método de k-medias y orden jerárquico con diferentes medidas de distancia y métodos de agregación, definiendo 3 grupos de entidades federativas.
Se analizó el comportamiento de la variable valor de la producción por subsector a nivel nacional, generando 2 grupos de subsectores.
Determinación de la certeza.
Se incluyeron con certeza (estrato 1) a las empresas con valor de la producción mayor o igual a 73 millones de pesos o personal ocupado mayor o igual a 251, la cual se excluye en los cálculos posteriores. Los criterios que se tomaron para definir los límites en personal ocupado y valor de la producción fueron:
Personal ocupado
Se consideraron las empresas de tamaño grande de 251 y más personas ocupadas, de acuerdo con la estratificación publicada por la Secretaría de Economía en el Diario Oficial de la Federación (DOF).
Valor de la producción
Se aplicó la prueba de Tukey con una rigidez de 4.57.
Formación de la componente principal
El análisis de componentes principales transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas. El objetivo del análisis es reducir la dimensionalidad en la cual se expresa el conjunto original de variables, en este caso, de tener dos variables por separado (Total de personal ocupado y valor de la producción) se identifica la componente principal, que explica mejor el comportamiento de ambas. Esta variable es adecuada para la formación de los estratos ya que explica más del 80% de la varianza de ambas variables.
Para cada empresa del marco de muestreo, se obtuvo la primera componente principal a nivel grupo de entidades federativas y grupo de subsectores, la cual es una combinación lineal de las variables del total de personal ocupado y valor de la producción.
Estratificación de la componente principal
Se estableció una estratificación del marco de muestreo, de dos a cuatro estratos, diferenciada por grupo de entidades federativas y grupo de subsectores, aplicando el método de Dalenius Hodges a la componente principal.
Tamaño de la muestra
El cálculo de tamaño de la muestra se realizó para estimar el total de personal ocupado y valor de la producción, considerando el máximo. Dichos tamaños se calcularon de manera independiente para cada entidad federativa, considerando un coeficiente de variación diferenciado por dominio, que toma valores entre el 6% y 11% así como una tasa de no respuesta esperada (TNR) diferenciada, la cual oscila entre el 15 y 26 por ciento.
Debido a que el tamaño de la muestra por subsector de actividad económica se cubría con el tamaño de la muestra por entidad federativa, se consideró este último, es decir, el tamaño de la muestra total es de 3 263 empresas, incluyendo certeza.
Afijación de la muestra
Para cada dominio (la afijación, selección y cálculo de factor de expansión se considera como dominio la concatenación de la entidad federativa y el subsector de actividad económica), la muestra fue distribuida en los estratos empleando el método de Neyman, considerando la variable de valor de la producción.
Con la finalidad de contar con una muestra suficiente para el cálculo de la varianza, se determinó un mínimo, de 4 empresas por dominio-estrato, verificando la existencia en el marco, quedando un tamaño de la muestra final, incluyendo la certeza, de 3 922 empresas.
Selección de la muestra
Las empresas se seleccionaron aleatoriamente, sin remplazo y de manera independiente para cada dominio-estrato.
Cálculos de los factores de expansión
El factor de expansión se define como el inverso de la probabilidad de selección de la i-ésima empresa del h-ésimo estrato, del d-ésimo dominio.
Ajuste por no respuesta
El ajuste del factor de expansión por no respuesta se aplicó considerando todas las empresas captadas en la encuesta.