miércoles, 26 de mayo de 2010

Detección de Fraude Electoral

La democracia es un abuso de la estadística: a menudo otorga el poder a quién no lo merece
Jorge Luis Borges (1978)

En 1881, el astrónomo Simon Newcomb notó que las páginas de los libros de tablas de logaritmos – para aquellos que aún recuerdan este tipo libros hoy sustituidos por las calculadoras científicas modernas – tenían un mayor desgaste al comienzo que al final del libro. Newcomb sospechó que en el mundo real las personas tenían mayor necesidad de consultar números menores que números mayores. Éste planteó el problema formal sobre la frecuencia con la que los dígitos de un número tomado al azar en el mundo real deberían observarse y propuso una ley para esta frecuencia. En particular, sugirió que el número 1 debería aparecer aproximadamente el 30% de las veces como primer dígito de un número tomado al azar, el número 2 debería aparecer aproximadamente el 17% y así sucesivamente. Curiosamente, Newcomb termina su artículo de dos páginas, titulado Note on the Frequency of Use of the Different Digits in Natural Numbers y publicado en una revista especializada de matemáticas, con una observación aparentemente inocua. Afirma que, probablemente, la comparación de esta frecuencia teórica con la que en realidad se observa en algunos casos del mundo real, debería ser indicativo del grado de “naturalidad” de los datos observados; alternativamente, sus conclusiones apuntaban a que la ausencia de esta frecuencia teórica podría señalar la existencia de datos deliberadamente manipulados, que contienen errores sistemáticos o que presentan cualquier tipo de alteración de su característica “natural”.
Este artículo estuvo condenado al olvido por casi 60 años. En 1938, un físico de la Compañía General Electric, Frank Benford, inició la extenuante labor de recolectar información de por lo menos 20 fuentes distintas tales como el área cubierta por diferentes ríos, pesos atómicos, números en los periódicos, direcciones, tasa de homicidios, etc., consolidando una base de datos de más de 20.000 registros; un esfuerzo notable para una época que no había visto nacer la era de la tecnología de información. Benford estudió cada una de las bases de datos, y la agregación de las mismas, encontrando una sorprendente conformidad de la frecuencia de los dígitos observados con la que sugería Newcomb. Su trabajo llamo la atención de la comunicada científica que vio en este ejercicio una regularidad empírica en busca de una explicación. Como en muchas ocasiones en las ciencias matemáticas, el descubrimiento no quedó asociado al nombre de la primera persona en llamar la atención sobre el mismo, sino a quien lo divulgó en el momento adecuado. Es así como la idea de que los dígitos de números tomados al azar en el mundo real deberían aparecer con las frecuencias que Newcomb sugirió, pasó a ser llamada la Ley de Benford.
El resultado hizo una carrera vertiginosa en la literatura académica como una regularidad empírica que se verificaba en muchas bases de datos derivadas de fenómenos tan diversos como encuestas, precios de acciones, reportes contables, pronósticos, financiación de campañas, elecciones, etc., a pesar de carecer de una explicación intuitiva, simple y satisfactoria para su natural cumplimiento en el mundo real (Véase Figura 1 en donde se analiza la frecuencia del primer dígito para el número de habitantes de todos los países del mundo). Una búsqueda rápida en sistemas especializados de publicaciones académicas arrojan más de 600 resultados asociados a la aplicación de la Ley de Benford. Con los años, ésta se volvió un referente de la forma como las observaciones de los dígitos de datos no manipulados (“naturales”) se deberían observar en el mundo real. No es esta regularidad empírica la única excepción en el mundo científico (por ejemplo, otra bien discutida en la literatura especializada es la ley de Zipf) pero quizás sí una con la mayor diversidad de aplicaciones.







En particular, en el contexto electoral, la Ley de Benford ha comenzado a utilizarse recientemente para detectar anomalías en el conteo electoral de un candidato en diferentes municipios o puestos de votación, en la totalidad de la votación o en la votación de un partido. Por ejemplo, al analizar el primer dígito (o utilizando la ley análoga para el segundo dígito) del conteo de votos de un candidato particular, desviaciones de la frecuencia observada de cada dígito con respecto a la Ley de Benford se interpretan como una anomalía en los datos. La interpretación de esta anomalía es, ciñéndose estrictamente al rigor científico, apenas una sospecha o alerta sobre la naturalidad de la votación (i.e., posible manipulación de los datos). Esta ley aplicada al contexto electoral es apenas un ejemplo del análisis cuantitativo moderno del fraude electoral, literatura que tiene origen en Sobyanin (1993) y su análisis de las elecciones en Rusia.
El análisis forense de las contiendas electorales, como es conocido en la actualidad, tiene como una de sus grandes herramientas el análisis digital del que la Ley de Benford es apenas un ejemplo. Otras herramientas son, por ejemplo, el análisis de dígitos consecutivos. Para ganar un poco de intuición sobre la esencia del análisis digital, considere el análisis de dígitos consecutivos de un número tomado al azar. Se sabe que bajo condiciones muy generales, los dos últimos dígitos de una muestra aleatoria de números tiene una frecuencia uniforme. Es decir, cualquier pareja de dígitos seguidos – incluidas parejas con dígitos repetidos – tiende a aparecer con la misma frecuencia que cualquier otra pareja. Sin embargo, la psicología experimental documenta la predisposición de los seres humanos, en experimentos de laboratorio, a evitar números repetidos cuando éstos son llamados a generar parejas de dígitos de forma aleatoria. Es decir, los seres humanos parecen no reconocer en los números repetidos el mismo grado de aleatoriedad que en números diferentes: si los números en una votación han sido manipulados usando cierta tipología frauduluenta, probablemente no se encontrará con la misma frecuencia dígitos repetidos, como lo dice la teoría, sino, por el contrario, un patrón más acorde al documentado en la literatura del comportamiento humano en psicología.
En un estudio realizado recientemente por la empresa Quantil | Matemáticas Aplicadas y la Universidad de los Andes, Diego Jara, Luis Felipe Parra, Alvaro Riascos y Mauricio Romero aplicaron una forma de análisis digital, la ley de Benford y una técnica de simulación de contiendas electorales – denominada genéricamente en estadística como aprendizaje supervisado – para estudiar algunas elecciones históricas, así como los recientes comicios electorales para definir el Congreso de la República. Los autores dejan claro que el análisis es apenas la aplicación de una técnica que abre las puertas en Colombia al estudio cuantitativo de las elecciones. La metodología como tal sólo pretende generar alertas sobre la posibilidad de fraude o, más precisamente, pretende dar soporte técnico a sospechas de la presencia de alguna anomalía en la votación de un partido, algunos municipios o el agregado, que podrían interpretarse como resultados atípicos a la luz de la teoría. Esta aproximación científica al problema de detección de fraude electoral ha sido utilizada para analizar elecciones en Estados Unidos, Méjico, Rusia, Bangladesh, Ecuador, Venezuela, Puerto Rico, Nicaragua, Armenia, Canadá, Suecia, y Nigeria. De otra parte, la aplicación específica de la Ley de Benford no deja ser polémica y sujeta a críticas científicamente serias. Existe una discusión interesante en la literatura académica sobre la idoneidad del análisis basado en la Ley de Benford para la detección de fraude electoral. Literatura que, por cierto, abre los ojos sobre la necesidad de pensar en el modus operandi mediante el cual en principio se configura el fraude. La metodología basada en aprendizaje supervisado es un primer paso en esa dirección y este estudio es apenas la puerta de entrada a una ciencia apenas en desarrollo.
En el caso colombiano, los autores investigan las elecciones presidenciales de 1922, 1970 y 2006, la elección de alcaldes de Cali del 2007 y las elecciones parlamentarias del 2010 para Cámara en el Valle del Cauca y para Cámara y Senado a nivel nacional. Cualquiera que sea la prevención natural sobre la capacidad de estas metodologías de detectar fraude, los resultados no puede dejar de llamar la atención.
En las elecciones de 1922, un estudio de Leopoldo Fergusson, James Robinson e Isaías Chaves, publicado en los documentos de trabajo del National Bureau of Economic Research en Estados Unidos, documentan mediante un análisis minucioso a nivel municipal la existencia de fraude a favor del conservador Pedro Nel Ospina derrotando así al candidato Liberal Benjamin Herrera. Interesantemente, la aplicación de un análisis digital usando la Ley de Benford en los municipios señalados por ese estudio como sospechosos de fraude, en efecto genera una alerta. Analizando otro caso, las elecciones de 1970 han sido señaladas frecuentemente por diferentes analistas como sospechosas. De hecho, no ha pasado desapercibido para los historiadores colombianos que, en la noche del 19 de abril, fecha de los comicios presidenciales, hasta el último boletín informativo daba como ganador al candidato de la ANAPO, el General Rojas Pinilla; de manera sorpresiva el presidente en ejercicio, Carlos Lleras Restrepo, suspendió la transmisión de información y en la madrugada del siguiente día se proclamaba a Dr. Misael Pastrana como ganador de las elecciones. Con o sin razón, tales elecciones se han catalogado como sospechosas y marcan un hito histórico al haber motivado la fundación del movimiento guerrillero M-19. El análisis digital de estas elecciones usando la Ley de Benford es apenas sugestivo de la existencia de anomalías (Figura 2). Al revisar el primer dígito del conteo de votos para las elecciones agregadas por municipio y separando la votación entre el Dr. Pastrana y el General Rojas Pinilla, se encuentra que tanto la votación agregada como la votación individual del Dr. Pastrana presentan anomalías. En contraste, cuando el análisis se enfoca en la votación de Rojas Pinilla, no se genera ninguna alerta de una anomalía.
De otra parte, la contienda electoral por la presidencia de la república en el 2006 no fue exactamente una elección atípica, por lo menos desde el punto de vista de denuncias de fraude. El análisis digital valida esta hipótesis y no genera ninguna sospecha (Figura 3). En contraste, las elecciones para la Alcaldía de Cali en el 2007 generan una sospecha de fraude en la votación agregada de los candidatos (agregando por puesto electoral).Cuando el análisis se enfoca en los dos principales contrincantes, el ganador y actual Alcalde, el Dr. Jorge Ivan Ospina y su principal contrincante, el Dr. Francisco Jose Lloreda, se encuentra que en la votación del primero se presenta una anomalía (Ley de Benford en el segundo dígito), mientras que la ley se satisface plenamente en el caso de la votación de Lloreda.




Finalmente, el análisis arrojó algunos resultados interesantes para las recientes elecciones a la Cámara en el Valle del Cauca y a la Cámara y Senado a nivel nacional. En el caso de la elecciones a la Cámara 2010 en el Valle del Cauca, la votación de los municipio del Norte del Valle es atípica, tanto en el sentido del análisis digital y como con la utilización de la metodología de análisis supervisado aplicada por los autores. Para las elecciones al Congreso a nivel nacional, Valle y Antioquia presentan anomalías (Figura 4), siendo éstos los dos departamentos con mayor número de reclamos por fraude ante la Registraduría.




Vale la pena repetir que el análisis propuesto no es de ninguna manera una demostración de la existencia de fraude (de hecho no es una condición ni necesaria ni suficiente). Incluso, no es evidente que la presencia de una anomalía sea necesariamente la consecuencia de algún tipo de manipulación perversa, en contraste con otro tipo de anomalías no intencionadas. Las metodologías propuestas son simplemente un apoyo y un mecanismo de generación de alertas que llaman la atención sobre posibles anomalías en la votación que, en caso de evidencia casuística, sugieren una investigación detallada, y que en algunos casos pueden ayudar a priorizar las investigaciones a seguir. El análisis forense de los resultados electorales no es muy distinto al análisis de un crimen en donde la prueba sólo se configura una vez se levanta todo tipo de información y evidencia sobre un caso, se elabora una teoría y se desechan otras. El análisis digital, así como otros tipos de análisis cuantitativos de las elecciones, son apenas parte de esta evidencia.

4 comentarios:

  1. Interesante entrada, y bienvenido el blog. Esto muestra que Galileo tenía razón: "las matemáticas son el alfabeto con el que Dios ha escrito el universo." Y aquí vemos de qué manera los políticos lo reescriben...

    ResponderEliminar
  2. Alvaro,
    Chévere el nuevo blog y también chévere la entrada con la que se inaugura.
    con respecto a ésta me parece que haces demasiado énfasis en que este tipo de evidencia sólo es sugestiva. Es cierto que lo es, pero sos muy cuidadoso y lo repetís mucho!
    Por otro lado me pareció interesante lo de los resultados de las elecciones del 70. En este país se habla mucho del "robo" de las elecciones en el último periodo del Frente Nacional pero nunca he visto ninguna investigación seria al respecto. Ahí puede haber una oportunidad para aportar al debate histórico político de este país. Un abrazo.

    ResponderEliminar
  3. No tengo clara la importancia de la interpretación mística de Galileo aunque no dudo de que hay algo muy profundo en las matemáticas que es sugestivo de alguna interpretación sobrenatural. La que sí me parece MUY importante e infinitamente difícil de entender para el común de las personas es esta del físico Eugene Wigner: “The simplicities of natural laws come through the complexities of the language we use for their expression”. Es difícil sobre estimar su significado para las matemáticas y ciencias aplicadas. En ese sentido la nota sobre fraude llama la atención sobre la importancia de abstraer, enriquecer el lenguaje formal y descriptivo para así detectar regularidades o la falta de las mismas.

    ResponderEliminar
  4. Para las elecciones de 1970 habría un análisis estadístico elemental previo: tomar los datos por departamentos del último boletín divulgado antes de suspender los datos, proyectar esos datos región por región (y si se puede, municipio por municipio) y comparar con los datos del resultado oficial final. En mi hipótesis, el resultado de esa comparación muestra que los resultados oficiales corresponden a lo que había que esperar: los datos de los sitios donde ganaba Rojas estaban ya completos (grandes ciudades)y faltaban por llegar los de los pueblos rurales, donde ganaba Pastrana. Si esto se confirma, se concluiría que esa noche no hubo fraude en la Registraduría, pero no se descartaría el fraude a favor de Pastrana, hecho desde temprano, en los pequeños municipios, y que podría ser el sugerido por los análisis de frecuencia de dígitos.

    ResponderEliminar