Written by Alejandro Barros• 2 de octubre de 2020• 11:17 AM• Datos • Views: 18

El lado oscuro del Big Data

Hoy nos encontramos en la era de los datos y algoritmos, y en muchas áreas los procesos de toma de decisión han pasado desde lógicas manuales a métodos automáticos, todo esto basado en datos y su procesamiento. Es decir, las decisiones ya no son tomadas por personas, sino por modelos matemáticos, a los cuales les asignamos altos niveles de justicia y pocos sesgos.

Hace ya unos años que venimos escuchando los atributos del uso de datos en las políticas públicas, afirmación que comparto. Las políticas públicas, basadas en evidencia, se sustentan en un análisis de la situación que permite tomar mejores decisiones, incluso algunas sobre la base de procesos automáticos, por ejemplo, en la asignación de beneficios sociales, fiscalización y otros.

La mayoría de los estados de la región han adoptado medidas para usar de mejor forma los datos e información que residen en poder del estado y relegar a un segundo plano los “me tinca que…” o “yo creo que…”. Hasta aquí todo bien, sin embargo, el problema surge cuando analizamos adecuadamente las complicaciones que representa el uso de datos.

Así pues, hoy nos vemos enfrentados al uso de datos y algoritmos para múltiples procesos: análisis de riesgo de crédito, selección de personal y reconocimiento facial, entre otros.

En los últimos años, se han podido detectar diversas dificultades, por ejemplo, usos poco justos de datos, como lo demuestran Michael Kearns y Aaron Roth en su muy buen libro “The Ethical Algorithm”, al señalar que el sesgo de los datos y los problemas de privacidad han mostrado el lado B del uso del Big Data y el aprendizaje automático, lo que ha llevado, en muchos casos de modelos predictivos, a profundizar aún más algunas desigualdades.

Los datos que se utilizan para desarrollar dichos modelos y algoritmos frecuentemente corresponden a muestras sesgadas, ya sea por el muestreo que se utilizó, o bien, por procesos de simplificación, producto del volumen o la dificultad para obtenerlos. Por otro lado, también en muchas ocasiones esperamos que el resultado del algoritmo sea un número (ranking), lo cual es otra simplificación que lleva a resultados muy erróneos.

Cathy O’Neil, matemática de profesión que trabajó muchos años en sistemas de aprendizaje y recomendaciones de créditos hipotecarios, también pudo verlo con sus propios ojos. En su libro “Armas de Destrucción Matemática” describe muchos casos en los cuales estos algoritmos, asociados a procesos de decisión automáticos, perpetúan desigualdades.

Asimismo, va demostrando, a través de múltiples ejemplos, como el uso de estos sistemas reproduce muchos de los sesgos de nuestra sociedad, tales como rankings de universidades, sistemas de evaluación de riesgo de créditos hipotecarios, evaluación automática de profesores, sistemas de asignación de la fuerza policial o sistemas automáticos de preselección de personal.

La misma O’Neil plantea, además, que estos algoritmos se basan en dos principios: acceso a datos y definición de éxito. Sin embargo, casi siempre los datos referidos tienen sesgos y la definición de éxito es incompleta.

Cortesía del Escritorio de Alejandro Barros

Visited 18 times, 1 visit(s) today