Vivimos en la era del algoritmo. Muchas decisiones sobre nuestra actividad cotidiana (la cuota mensual que pagamos por un seguro médico, la selección de nuestro CV para una entrevista de trabajo, o la aceptación o rechazo de un crédito) no las toma ya un humano sino un modelo matemático. Y aunque, en teoría, esto debería conducir a una mayor igualdad ya que todo el mundo es juzgado en base a los mismos criterios, muchas veces ocurre lo contrario: los modelos son opacos, no están sujetos a regulación, con frecuencia están basados en hipótesis erróneas y refuerzan prácticas discriminatorias con los sectores más débiles de la sociedad. Esta marginación ha existido siempre, en la era digital simplemente se puede implementar de manera más eficiente e impersonal.
Las empresas de seguros usan complejos modelos para fijar la prima de un seguro en función de las características del solicitante: una persona más mayor pagará más seguro de salud, y un conductor con poca experiencia más seguro de automóvil. En ambos casos, la prima mayor está justificada por un mayor riesgo, estimado sobre datos anteriores de personas con características similares. Pero los datos también muestran que las personas de renta más baja tienen mayor riesgo de enfermedad, ¿es lícito cobrarles una prima más alta? Para el modelo matemático, “edad” ó “nivel de renta” son variables predictoras que se tratan por igual para afinar y mejorar la predicción. Sin embargo, la ética obliga a poner límites a la eficiencia de dichos algoritmos, y condiciona por ejemplo qué variables son susceptibles de ser utilizadas. Con frecuencia los modelos utilizan proxys: variables supuestamente correlacionadas con otras de las que no disponen de información suficiente. Por ejemplo, usar el código postal como proxy del nivel de renta. El abuso de esta práctica produce modelos estadísticos cuyos datos de aprendizaje son poco más que ruido, y conducen a predicciones erróneas. Cómo dicen en la jerga: si metes basura, sacas basura.