lunes, 29 de agosto de 2011
¿1+1=3? Sobre el Procedimiento para Calcular Apoyos Válidos de la Registraduría
Como se dio a conocer en los documentos publicados por la Registraduría, de las 75.157 firmas analizadas en el caso de Guerrero, se anularon 28.940 por razones varias diferentes a uniprocedencia (cuando una misma persona firma varias veces). Esto implica que el ejercicio de muestra generó un estimado de la proporción de firmas “inválidas” del 38,51%. Lo que no aparece claramente en los documentos públicos de la Registraduría, pero se pudo dilucidar por un artículo de La Silla Vacía (www.lasillavacia.com/historia/el-registrador-esta-dispuesto-contar-una-una-las-firmas-de-susana-correa-y-rodrigo-guerrero), es que, adicionalmente, la Registraduría seleccionó 3.758 firmas de las 46.217 firmas calificadas como “válidas” tras la revisión de la muestra inicial para realizar un análisis grafológico. No es claro el por qué de este tamaño de muestra. Si tomáramos como universo estas 46.217 firmas “válidas”, se debió seleccionar una muestra de 17.133 firmas para respetar el margen de error de la resolución (como lo muestra la figura anterior). Dado que esta es una submuestra de una muestra aleatoria, el tamaño de la muestra en realidad debería ser mayor. Aunque la resolución no regula sobre el tamaño de la muestra que se debe seleccionar para pruebas de “uniprocedencia”, el tamaño de la muestra seleccionado no permite tener un estimador preciso de las firmas inválidas según el análisis de grafología. El margen de error y confianza asociados a esta muestra para el análisis grafológico no reflejan la intención del artículo 6 de la Resolución 0757 de 2011. Sin embargo, éste no es el peor error cometido por la Registraduría.
martes, 23 de agosto de 2011
La Estadística de la Registraduría Nacional
He hecho mi mejor esfuerzo por entender la técnica estadística plasmada en la Resolución 0757 de La Registrduría (Diario Oficial del 7 de febrero de 2011) para la revisión de firmas para la inscripción de candidatos. Como mínimo tengo que decir que la falta de transparencia y claridad en la descripción de un procedimiento técnico tan importante para los destinos de una ciudad es absolutamente reprochable. Esta nota tiene como objeto analizar y esclarecer el procedimiento y resaltar que no se ha aplicado la norma como debería de ser. La metodología de la Resolución 0757 corresponde a la metodología expuesta en un libro clásico y autoritario en el tema: Cochrane W, 1977. Sampling Techniques. John Wiley & Sons, Inc. Utilizaré los datos del candidato Rodrigo Guerrero, uno de los aspirantes perjudicados, para quién tengo a la mano los resultados oficiales (el caso de Susana Correa es similar pero no tengo los datos oficiales a la mano).
El primer paso de la metodología estadística consignada en la Resolución 0757 (artículo 6) consiste en utilizar una muestra de datos para hacer una estimación de proporciones que tenga un margen de error a lo sumo de 0.5% con un 90% de confianza (en este caso específico se asume normalidad de la variable que mide el número de firmas anuladas o válidas como proporción del universo de apoyos y el cálculo se hace a dos colas).
La primera conclusión es que no existe un universo de datos (apoyos) para los cuales la metodología tenga como consecuencia que se necesita una muestra de 75.157 apoyos como aparentemente dice el documento oficial de la Registraduría que se utilizó como muestra para el caso del Dr. Guerrero (véase Figura 1).
En efecto, si el universo es de 115.250 datos (apoyos) como aparece en el documento oficial, la muestra utilizada debía ser, en ausencia de algún conocimiento preciso sobre la proporción de apoyos válidos en el universo, 21.912 apoyos a revisar. Sin embargo, se revisaron 75.157. Algo totalmente incomprensible a la luz de la Resolución.
Supongamos que por alguna razón la Registraduría decidió utilizar una muestra más grande y utilizó 75.157 apoyos muestreados de forma aleatoria e independiente. El segundo paso cosiste en calcular la varianza del estimador de la proporción (como una demostración más de la ligereza de la Registraduría en este asunto técnico es que la formula de la varianza del Diario Oficial contiene un error sin mayores consecuencia en este caso pero, que sí podría ser determinante en otros casos: en la fórmula de la varianza no se debe dividir por n multiplicado por (N-n) sino por N multiplicado por (n-1)). De nuevo, en ausencia de cualquier conocimiento preciso sobre la proporción verdadera de firmas válidas en la muestra, la varianza es a lo sumo 0.0001%. Ahora se debe calcular la proporción de apoyos anuladas en la muestra que son 29.870 de 75.157 lo que da una proporción, en la muestra, de aproximadamente 39.8%. Ahora se compara la proporción estimada en la muestra 39.8%, con el verdadero valor (proporción de apoyos nulos del universo) más la desviación estándar multiplicada por 1.28 (esto equivale a una prueba de hipótesis al 90% de una sola cola asumiendo normalidad). Técnicamente este segundo cálculo no es posible hacerlo pues no se conoce el verdadero valor mencionado anteriormente pero la Registraduria da instrucciones para hacerlo: Restar del número de datos del universo (115.250) el número mínimo de apoyos requeridos (50.000) y dividir por el número de datos del universo (115.250). Este cálculo da 56.6% y sumando 1.28 veces la desviación estándar calculada anteriormente se obtiene aproximadamente 56.7%. Luego, siguiendo con la metodología de la Resolución, se debe comparar 39.8% con 56.7%. Como el primer número es menor, según la Resolución se deberían de aprobar el listado de firmas. Más aún, en ausencia de volatilidad en la estimación de la proporción de apoyos anulados en la muestra, 39% es menor que 56.6% luego la proporción de apoyos anulados en la muestra es menor que la máxima tolerable en el universo. Es apenas obvio que la Registraduría no está aplicando, o no lo está haciendo correctamente, el análisis estadístico en la Resolución.
El resultado de este ejercicio sumado a las declaraciones del Registrador en la radio elevando a principio elemental de la estadística que entre mayor sea el universo menor puede ser la muestra son una clara ofensa a la inteligencia (no hay tamaño de muestra sin error y nivel de confianza y, si se fijan estos últimos, entre mayor sea el universo mayor debe ser la muestra – véase Figura 1). Por el bien de Cali, debería de reconsiderase los cálculos hechos sin necesidad de pasar a los estrados judiciales y aumentar los ya altos costos sociales de realizar una sana contienda electoral.