viernes, 21 de septiembre de 2012

Un Tour en Helicóptero por las Técnicas de Minería de Datos para la Detección de Transacciones Financieras Sospechosas


Las técnicas de minería de datos se dividen en dos grandes ramas. Los problemas de análisis supervisado y los no supervisados. En el primer caso los datos en consideración están marcados: existe una variable objetivo y se conoce sus valores. El problema en estos casos es descubrir qué tipo de relaciones existen entre las demás variables y la variable objetivo (marca). Un ejemplo típico es una base de datos de clientes deudores de una institución financiera para la cual se tiene las características socio demográficas de cada cliente y si el cliente ha sido cumplido o no (calidad crediticia). La variable objetivo en este caso es la calidad crediticia del cliente y la pregunta es si existe alguna relación entre los variables socios demográficos y la calidad crediticia del cliente. En los problemas no supervisados no está bien identificada la variable objetivo o simplemente no se tiene. Este sería el ejemplo más común en las bases de datos de transacciones financieras en la que se quiere detectar movimientos sospechosos. Con contadas excepciones, en estas bases de datos no está marcado qué es fraude, qué es sospechoso, etc. En estos casos el objetivo de las técnicas de minería de datos es detectar transacciones atípicas con respecto al grueso de las transacciones, donde la atipicidad puede definirse de muchísimas formas y la definición hace el mejor uso de la intuición y conocimiento del investigador (monto de transacciones, frecuencia, medio de pago, origen, fechas, etc.).  A continuación describimos algunas técnicas más útiles y avanzadas para definir y detectar transacciones sospechosas cuando no existen datos marcados. El caso en el que existen por lo menos algunos casos marcados, más no necesariamente todos, se conoce como un problema de análisis semi supervisado y se discute brevemente al final del documento.

Rankings de atipicidad basado en aglomeraciones (clusters)

En la primera etapa se utilizando todas las transacciones de un individuo y se van agrupando personas sucesivamente (jerárquica) hasta obtener un número de grupos que entre los individuos o transacciones del mismo grupo sean parecidos de acuerdo a algún criterio y que entre grupos sean lo más distintos posibles. Una vez hechos los grupos el objetivo es capturar la idea de que los datos atípicos son más difíciles de clasificar en algún grupo. Como el proceso es secuencial jerárquico (de muchos grupos a menos grupos) lo que se espera es que los datos atípicos se observen cuando un dato que inicialmente está en un grupo al pasar a otro, cambie significativamente las características del grupo al que pertenecía vs. al que ahora pertenece.

Ganancia en información o entropía relativa

Se estiman las distribuciones de muchas variables de interés (condicionales o no a otras variables) y se estima la variable correspondiente de toda la población (todos los individuos). Después se calcula la entropía relativa entre las distribuciones individuales y la distribución agregada (condicional o no). La entropía relativa es una forma de medir la distancia entre las distribuciones y es una medida de qué tanta información sobre la distribución agregada de una variable puede uno tener obtener cuando apenas conoce la distribución individual. Cuando esa ganancia en información es baja, se considera que la distribución es atípica.

Factores atípicos locales (Local outlier factor)

La idea de este método es mirar localmente las densidades de diferentes variables de interés. Casos en regiones con muy poca densidad se consideran atípicos.

Fronteras de atipicidad

Las técnicas anteriores arrojan muchos indicadores de atipicidad con repecto a diferentes variables. Una forma de visualizar estos indicadores es utilizando fronteras de atipicidad donde básicamente se grafica simultáneamente varios indicadores de atipicidad y se calcula la envolvente de los datos. Cuando un individuo o grupos de transacciones se salen de la frontera sugiere que hay una forma de atipicidad a lo largo de varias dimensiones (variables).

Aprendizaje activo secuencial

Las bases de datos transaccionales son en general muy grandes y el análisis de todas las transacciones resulta computacionalmente dispendioso y demorado. Esta técnica hace posible explorar una base de datos mediante muestras pequeñas que van siendo escogidas según el patrón que arrojen los resultados del análisis secuencial de las muestras. Básicamente de las primeras muestras se define el muestreo adecuado de la próxima muestra. Esto hace posible barrer bases de datos muy grandes con muchos menos recursos computacionales y de forma mucho más eficiente.

Reglas de asociación

Las reglas de asociación son una técnica que permite detectar comovimientos (dependencia) entre las variables estudiadas que ocurren con poca frecuencia. Es decir, identificar eventos que condicional a que ocurran, lo que puede ser en muy pocas ocasiones, ocurren simultáneamente con una alta probabilidad. Está técnica es útil para caracterizar los comportamiento atípicos que puedan haber sido identificados por la técnicas anteriores.

Coeficiente de máxima información (MIC)

Este es una técnica computacionalmente muy intensiva y representa el estado del arte en técnicas para la detección de relaciones de dependencia entre variables en bases de datos grandes. Intuitivamente, se basa en la observación de que si existe algún tipo de relación entre dos variables, entonces es posible hacer una malla del gráfico de dispersión (scatter plot) de las dos variables que encapsule en una celda específica esa relación. Esta técnica puede ser usada de la misma forma que las reglas de asociación con el fin de caracterizar los registros atípicos y hace parte de una familia más general de técnicas conocida como MINE (maximal information nonparametric exploration).

Problemas semi supervisados

En ocasiones muy especiales puede suceder que, por investigaciones anteriores o la acumulación de conocimiento factual sobre transacciones de lavado de activos o financiación de terrorismo, se tenga unos casos conocidos de transacciones comprobadamente ilícitas. En esto casos el resultado será una base de datos con unos pocos registros marcados y una gran mayoría que se desconoce como clasificarlos. En estas circunstancias se usan por lo menos dos técnicas importantes: (1). Auto aprendizaje: esta técnica consiste en utilizar un modelo de aprendizaje supervisado para construir un modelo de clasificación inicial. Con eso modelo se marca toda la base de datos. Después se agregan los datos marcados con probabilidad alta de ser sospechosos a los datos marcados originales. Se reestima el modelo y se repite este proceso en varias ocasiones hasta obtener una base de datos marcada que ha pasado por varias rondas de este procedimiento. (2). Aprendizaje no supervisado con restricciones: en esencia estos métodos consisten en complementar las técnicas anteriores de análisis no supervisado usando los registros marcados como restricciones que deben respetar los algoritmos de detección de datos atípicos.

Referencias

  • Torgo (2007).  Resource Bounded Fraud Detection
  • Jardine y Sibson (1971). Mathematical Taxonomy.
  • Breuning, M. Kriegel, H., NG, R,. y Sander, J (2000). LOF: Identifying density-based local outliers. 
  • Major y Riedinger (2002). EFD: A Hybrid Knowledge/Statistical – Based System for the Detection of Fraud.
  •  Deng, X., Roshan, J., Sudjianto, A., Wu, J. Active Learning via Sequential Design with Applications to Detection of Money Laundering.
  • Hastie, T., Tibhirani, R., y J. Friedman (2009). The Elements of Statistical Learning: Data Mining, Inference , and Prediction.
  • Reshef, D., Reshef, Y., Finucane, H., Grossman, Sh., McVean, G., Turnbaugh., Lander, E., Mitzenmacher, M., y P. Sabeti (2011). Detecting Novel Associations in Large Data Sets.
  • Zhu (2006). Semi supervised learning: Literature Review