Soluciones teóricas para dos problemas muy comunes en inteligencia artificial

Un estudio ha tratado de dar solución a dos problemas muy comunes en Machine Learning o aprendizaje automático.
Sonia Alfonso Sánchez
España
10.09.2019
Compartir:

El Machine Learning o aprendizaje automático es una popular rama de la Inteligencia Artificial que se basa principalmente en el aprendizaje de modelos predictivos a partir de datos.

"Se trata de un campo que explora la construcción de modelos que puedan aprender y hacer predicciones de los datos que se le proporcionan", explica el investigador, Jonathan Ortigosa.

Concretamente, Ortigosa ha enfocado su trabajo en las tareas de clasificación automáticas: "en este campo se intenta usar una gran cantidad de datos para que los ordenadores sean capaces de aprender de ellos y realizar clasificaciones de forma automática, sin estar programados explícitamente para ello".

La investigación se ha centrado en dos situaciones problemáticas muy comunes en este campo, "que hoy en día son grandes retos de la comunidad científica, ya que aparecen constantemente en los problemas que abordan el aprendizaje automático", apunta.

Todo empezó con un trabajo relacionado con el denominado sentiment analysis. "Se trataba de un trabajo de caracterización de artículos de diversos blogs referentes a ciertos productos, para saber si los textos eran objetivos o subjetivos, si tenían valoraciones negativas o positivas etc…", explica. Pero los investigadores contaban con muy pocos artículos debidamente etiquetados para que el ordenador pudiera aprender modelos robustos.

Por ello, "tuvimos que crear algoritmos nuevos de aprendizaje que usasen grandes cantidades de datos sin etiquetar disponibles en Internet y una pequeña proporción de etiquetados y el resultado mejoró lo que ya existía", añade Ortigosa.

Esto llevó a preguntarse al autor del trabajo "cuál es el mínimo número de datos etiquetados necesarios para resolver problemas parecidos al anterior". Así, realizó un estudio teórico y matemático de este tema y analizó "cuál sería el mejor algoritmo semisupervisado que se podría proponer para un cierto número pequeño de datos etiquetados y cuál sería su error".

Con eso, calcularon qué error sería el menor que se podría conseguir con cualquier algoritmo que se propusiese para este tipo de problemas, es decir, "podemos saber si un determinado número de datos será suficiente para tener un tanto por ciento de aciertos. Entonces se puede estimar la bondad de la solución propuesta", concreta.

El otro problema que se propuso abordar es el desbalanceo de clase: "enseñar a un ordenador es muy parecido a como se enseña a los niños pequeños a diferenciar perros y gatos. Pero si se les enseñan muchos perros y un solo gato, puede que no entiendan bien la diferencia o saquen conclusiones erróneas", explica Ortigosa.

Sin embargo, en el aprendizaje automático, "una conclusión errónea del ordenador puede tener importantes consecuencias en una empresa". En este sentido, propusieron "una métrica para medir qué grado de desbalanceo, o diferencia en tipos de etiquetas, tienen los datos que se proporcionan para aprender el modelo. Ese grado está relacionado con el rendimiento de la solución que se puede proponer con esos datos, y por tanto, es crucial medirlo", añade.

El siguiente paso fue proponer métricas para evaluar si una solución propuesta para un problema de desbalanceo es buena o no. "Imagina que tenemos 1 animales, 999 perros y 1 gato. Si creamos una solución que diga que todo animal es un perro, tenemos un grado de acierto de 99,9%. El número es muy bueno, pero la solución no lo es. Esta métrica de evaluación se llama accuracy y se usa mucho en Machine Learning", afirma.

Para penalizar estos casos de soluciones "tontas", en esta investigación realizaron un estudio teórico "para poder realizar una serie de recomendaciones de qué métricas de evaluación son adecuadas en estos casos y así poder realizar una evaluación honrada y útil de las soluciones".

Según indica Ortigosa, además de la investigación aplicada a cada uno de los problemas, esto es, además de buscar la resolución práctica de los problemas, ha llevado a cabo una investigación teórica:

"He modelado matemáticamente ambos problemas para poder controlarlos, estudiarlos a fondo y extraer información que pueda ser usada para la propuesta de soluciones a problemas reales", explica el investigador.

"Los problemas reales son complejos, y aunque se está investigando mucho, se requiere un gran conocimiento teórico para que luego se sepa proponer soluciones mejores que las existentes", concluye.

Noticias relacionadas
Fortnite regresa para iOS en la Unión Europea
Entretenimiento
Fortnite regresa para iOS en la Unión Europea
Inteligencia Artificial | ¿Qué es IA y cómo funciona?
Tecnología
Inteligencia Artificial | ¿Qué es IA y cómo funciona?
One Punch Man: World ya ha llegado
Entretenimiento
One Punch Man: World ya ha llegado
Los mejores monederos de criptomonedas en 2024
Criptomonedas
Los mejores monederos de criptomonedas en 2024

Te puede interesar

¿Qué es un robot industrial? Tipos | Toda la información necesaria
Gerard Bahamonde
SN 1987A: el telescopio Webb asombra con la supernova, semejante a un ojo cósmico
Santi Ramirez
Premio al Mejor Gestor Público al director gerente del Hospital Virgen del Rocío
Ana Mancheño
Foro de pacientes en Alicante
Comunicarjg
Los rusos lanzan al mercado un perro robot antitanque que posiblemente sea una farsa
Iñigo Martinez
Patarroyo publica la primera vacuna contra todas las variantes y mutaciones del Covid
Javier-Julio García Miravete
El fin de la mascarilla obligatoria en interiores llegará a España con la primavera
J. C. RUBIO
La raza de Ovinos Charollais es muy fértil, precoz y altamente productiva
VecoVet