El Machine Learning o aprendizaje automático es una popular rama de la Inteligencia Artificial que se basa principalmente en el aprendizaje de modelos predictivos a partir de datos.
"Se trata de un campo que explora la construcción de modelos que puedan aprender y hacer predicciones de los datos que se le proporcionan", explica el investigador, Jonathan Ortigosa.
Concretamente, Ortigosa ha enfocado su trabajo en las tareas de clasificación automáticas: "en este campo se intenta usar una gran cantidad de datos para que los ordenadores sean capaces de aprender de ellos y realizar clasificaciones de forma automática, sin estar programados explícitamente para ello".
La investigación se ha centrado en dos situaciones problemáticas muy comunes en este campo, "que hoy en día son grandes retos de la comunidad científica, ya que aparecen constantemente en los problemas que abordan el aprendizaje automático", apunta.
Todo empezó con un trabajo relacionado con el denominado sentiment analysis. "Se trataba de un trabajo de caracterización de artículos de diversos blogs referentes a ciertos productos, para saber si los textos eran objetivos o subjetivos, si tenían valoraciones negativas o positivas etc…", explica. Pero los investigadores contaban con muy pocos artículos debidamente etiquetados para que el ordenador pudiera aprender modelos robustos.
Por ello, "tuvimos que crear algoritmos nuevos de aprendizaje que usasen grandes cantidades de datos sin etiquetar disponibles en Internet y una pequeña proporción de etiquetados y el resultado mejoró lo que ya existía", añade Ortigosa.
Esto llevó a preguntarse al autor del trabajo "cuál es el mínimo número de datos etiquetados necesarios para resolver problemas parecidos al anterior". Así, realizó un estudio teórico y matemático de este tema y analizó "cuál sería el mejor algoritmo semisupervisado que se podría proponer para un cierto número pequeño de datos etiquetados y cuál sería su error".
Con eso, calcularon qué error sería el menor que se podría conseguir con cualquier algoritmo que se propusiese para este tipo de problemas, es decir, "podemos saber si un determinado número de datos será suficiente para tener un tanto por ciento de aciertos. Entonces se puede estimar la bondad de la solución propuesta", concreta.
El otro problema que se propuso abordar es el desbalanceo de clase: "enseñar a un ordenador es muy parecido a como se enseña a los niños pequeños a diferenciar perros y gatos. Pero si se les enseñan muchos perros y un solo gato, puede que no entiendan bien la diferencia o saquen conclusiones erróneas", explica Ortigosa.
Sin embargo, en el aprendizaje automático, "una conclusión errónea del ordenador puede tener importantes consecuencias en una empresa". En este sentido, propusieron "una métrica para medir qué grado de desbalanceo, o diferencia en tipos de etiquetas, tienen los datos que se proporcionan para aprender el modelo. Ese grado está relacionado con el rendimiento de la solución que se puede proponer con esos datos, y por tanto, es crucial medirlo", añade.
El siguiente paso fue proponer métricas para evaluar si una solución propuesta para un problema de desbalanceo es buena o no. "Imagina que tenemos 1 animales, 999 perros y 1 gato. Si creamos una solución que diga que todo animal es un perro, tenemos un grado de acierto de 99,9%. El número es muy bueno, pero la solución no lo es. Esta métrica de evaluación se llama accuracy y se usa mucho en Machine Learning", afirma.
Para penalizar estos casos de soluciones "tontas", en esta investigación realizaron un estudio teórico "para poder realizar una serie de recomendaciones de qué métricas de evaluación son adecuadas en estos casos y así poder realizar una evaluación honrada y útil de las soluciones".
Según indica Ortigosa, además de la investigación aplicada a cada uno de los problemas, esto es, además de buscar la resolución práctica de los problemas, ha llevado a cabo una investigación teórica:
"He modelado matemáticamente ambos problemas para poder controlarlos, estudiarlos a fondo y extraer información que pueda ser usada para la propuesta de soluciones a problemas reales", explica el investigador.
"Los problemas reales son complejos, y aunque se está investigando mucho, se requiere un gran conocimiento teórico para que luego se sepa proponer soluciones mejores que las existentes", concluye.