Tres razones para apostar por el aprendizaje por refuerzo en el vehículo autónomo

Tres son las filosofías básicas usadas en Machine Learning para el entrenamiento de los algoritmos: el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje por refuerzo.

En el aprendizaje supervisado durante el entrenamiento ofrecemos al algoritmo ejemplos de entradas con la salida esperada y con base en esa información se ajustan los parámetros del algoritmo.

En el caso del aprendizaje no supervisado no ofrecemos ese concepto de respuesta correcta sino que el propio algoritmo, durante el entrenamiento, se va ajustando para ofrecernos descubrimientos del tipo de agrupaciones en clústeres homogéneos.

Finalmente, el aprendizaje por refuerzo actúa de forma que el algoritmo recibe alguna forma de premio o castigo ante lo que va haciendo y, conforme a eso, se va ajustando en búsqueda del premio mayor posible.

Cuando hablábamos del marco de tecnologías para el vehículo autónomo siguiendo la propuesta hecha por Saoshan Liu, Liyun Li, Shuan Wu y Jean-Luc Gaudiot en su libro ‘Creating autonomous vehicle systems’, teníamos un primer gran bloque dedicado a los algoritmos. Dentro de esos algoritmos, a su vez, distinguíamos entre la ‘sensación‘ y, en concreto, nos centramos mucho en localización, la percepción y la decisión.

Nos fijamos ahora en el último bloque, la decisión, donde son funciones básicas la planificación y el control del movimiento del vehículo. Estas funciones incluyen enrutamiento, predicción de tráfico, decisión de comportamiento, planificación del movimiento y realimentación.

Los mismos autores nos exponen que, tradicionalmente (si es que el término tradicional es aplicable a algo tan moderno como el vehículo autónomo), este problema se ha atacado como un problema de optimización con restricciones.

Sin embargo, los autores, aun reconociendo que todavía el estado del arte actual no es maduro, apuestan por el aprendizaje por refuerzo como el futuro de la planificación y el control del vehículo autónomo.

¿Cuáles son sus razones? Pues, nos aportan estas tres:

Los autores piensan que los escenarios a que se están sometiendo actualmente a los coches autónomos no son todo lo desafiantes que deberán ser cuando se generalice su uso. Se refieren a que se suelen usar por carreteras despejadas o entornos acotados y no tanto, por ejemplo, en entornos urbanos abiertos. Entienden que eso hace que los éxitos alcanzados hasta la fecha por los algoritmos de optimización no vayan ser generalizables o, al menos, no podemos estar seguros de ello.
Existen una multitud de datos disponibles, quizá explotables vía Big Data, pero que no han sido aprovechados hasta la fecha. Es más, no parecen existir mecanismos claros para que los algoritmos de optimización actuales puedan hacer uso de ellos y, sin embargo, los algoritmos de aprendizaje sí que los pueden aprovechar con relativa facilidad.
El aprendizaje por refuerzo, viendo en qué aciertan y en qué se equivocan, es la forma natural en que los conductores humanos aprenden, lo cual nos genera la expectativa de que es también la forma en que se debe enfocar el aprendizaje del vehículo.

Aparte de que los argumentos parecen bastante razonables, la autoridad y conocimiento que demuestran los autores a lo largo de todo el libro, me lleva a pensar que vale la pena atender a su apuesta y que, seguramente, en los próximos meses y años veremos un cada vez mayor uso del aprendizaje por refuerzo en el vehículo autónomo.