¿Qué es el aprendizaje por refuerzo? | ES PRO

Entre las subdivisiones más fascinantes de inteligencia artificial está reforzando el aprendizaje. Un subconjunto de aprendizaje automático (ML), la tecnología de aprendizaje por refuerzo se prueba ampliamente en juegos como Go, pero su desarrollo podría tener implicaciones más amplias para las industrias y las empresas.

Esta rama de la IA aspira a reflejar habilidades similares a las de los humanos e incluso ha superado estas ambiciones cuando se aplica en contextos de juego. Por ejemplo, pasó de un pie a otro con varios campeones del mundo en sus especialidades.

Ke Jie es un ejemplo de la historia reciente de un campeón mundial Go, que fue humillado por un sistema de aprendizaje de consolidación. El competidor chino ha dominado el juego desde 2014, pero fue derrotado tres veces en 2017 por un sistema desarrollado por Google. División DeepMind.

El año anterior, el sistema AlphaGo de DeepMind perdió 18 veces ante Lee Sedol en el cuarto de una serie de cinco juegos, aunque ganó los otros cuatro juegos. Lee entonces jubilado en 2019, citando el dominio de la IA y sugiriendo que «no se puede derrotar».

Aunque el aprendizaje por consolidación ha demostrado su eficacia en el campo de los juegos, esta tecnología también se puede utilizar en robótica y automatización. Por tanto, otros descubrimientos pueden tener implicaciones importantes para las empresas y la economía en general.

¿Qué es RL?

El aprendizaje por refuerzo (RL) es un método de entrenamiento de sistemas ML para encontrar su propia manera de resolver problemas complejos, en lugar de tomar decisiones basadas en las posibilidades preconfiguradas establecidas por un programador. Se utilizan refuerzos positivos y negativos, y las decisiones correctas conducen a recompensas, mientras que las decisiones negativas se penalizan. Aunque la gente normalmente considera las recompensas como un tratamiento con una determinada descripción, para los automóviles la recompensa es una evaluación positiva de una acción.

Además, RL no se basa en la participación humana durante el proceso de formación. En el aprendizaje automático clásico, utilizando lo que se conoce como aprendizaje supervisado, un algoritmo de aprendizaje automático recibe un conjunto de decisiones para elegir. Usando el juego Go como ejemplo, alguien que prepare el algoritmo podría darle una lista de tareas para hacer en un escenario dado, de la cual el programa podría elegir. El problema con este modelo es que el algoritmo se convierte entonces solo tan bueno como la programación humana, lo que significa que la máquina no puede aprender por sí sola.

El propósito del aprendizaje por refuerzo es entrenar el algoritmo para tomar decisiones secuenciales para lograr un objetivo final en el tiempo; el algoritmo aprenderá a tomar decisiones que logren el objetivo de la manera más eficiente usando el armado. Cuando se entrena mediante el aprendizaje por refuerzo, los sistemas de inteligencia artificial pueden atraer experiencias de más árboles de decisión que los humanos, lo que los hace mejores para resolver tareas complejas, al menos en entornos gamificados.

Aprendiendo a ganar

El aprendizaje por refuerzo comparte muchas similitudes con el aprendizaje supervisado en el aula. Aún se necesita un marco para establecer las reglas básicas, pero al agente de software nunca se le dice qué instrucciones seguir, ni se le proporciona una base de datos en la que basarlo. Este tipo de enfoque permite que un sistema cree su propio conjunto de datos a partir de sus acciones, construido mediante prueba y error, para determinar el camino más efectivo hacia una recompensa.

Todo esto se hace de forma secuencial: un agente de software tomará medidas en algún momento hasta que encuentre un estado por el que sea penalizado. Por ejemplo, una máquina virtual que abandona una carretera o un camino provocará un estado de error y devolverá el problema a su posición original. Para muchos procesos, realmente no necesitamos un sistema para aprender a tomar nuevas decisiones a medida que se desarrollan, sino más bien para refinar nuestras capacidades de procesamiento de datos, como es el caso de la tecnología de reconocimiento facial. Sin embargo, para algunos, el aprendizaje por refuerzo es, con mucho, la forma de desarrollo más beneficiosa.

Uno de los ejemplos más famosos es el caso DeepMind de Google, que utiliza un algoritmo Deep Q-Learning. Fue creado para maestro Atari Breakout, el clásico juego de arcade de los años 70, en el que los jugadores rompen ocho filas de bloques con una pelota y una paleta. Durante su desarrollo, al agente de software se le proporcionó solo la información que aparecía en la pantalla y se le asignó la tarea de maximizar la puntuación.

Como era de esperar, al principio el agente tuvo problemas para hacer frente al juego. Los investigadores descubrieron que no lograba atrapar los controles y constantemente fallaba la pelota con la paleta. Después de mucho ensayo y error, el agente finalmente se dio cuenta de que si inclinaba la pelota de modo que quedara atascada entre la capa superior y la pared superior, podría romper la mayor parte de la pared con solo un pequeño número de paletas. golpes. No solo eso, logró entender que cada vez que la pelota regresaba a la paleta, la eficiencia de carrera disminuía y la duración del juego aumentaba.

El agente basó sus decisiones en una red de políticas. Cada acción realizada por el agente fue registrada por la red, que también anota el resultado y qué se podría hacer de manera diferente para cambiar ese resultado. Por lo tanto, el agente puede predecir el resultado, también conocido como estado.

Problemas con el aprendizaje por refuerzo

El ejemplo anterior es útil para comprender los principios fundamentales del aprendizaje por refuerzo, pero los entornos de juego, sin importar cuán grandes sean, ofrecen solo posibilidades de aprendizaje limitadas y rara vez ofrecen algo significativo más allá de las pruebas simples.

El éxito no siempre se traduce fácilmente en casos de uso del mundo real, especialmente porque se basa en un sistema de recompensas y fracasos que a menudo son ambiguos en la realidad. Las tareas de un agente al resolver un cierto desafío dentro de unos parámetros limitados es una cosa, pero crear una simulación realista aplicable al uso diario es mucho más difícil.

Si tomamos el ejemplo de un sistema de vehículo autónomo, crear una simulación para aprender de él puede ser increíblemente difícil. La simulación no solo debe representar con precisión una carretera del mundo real y transmitir las diversas leyes y restricciones que rigen el uso del automóvil, sino que también debe tener en cuenta los cambios constantes en el volumen del tráfico, las acciones repentinas de otros conductores humanos (que pueden, respectivamente, no cumple con el código de circulación) y obstáculos aleatorios.

También hay una variedad de desafíos técnicos que limitan el potencial de este tipo de aprendizaje. Allí son ejemplos de sistemas que «olvidan» acciones, resultados y predicciones anteriores cuando se adquieren nuevos conocimientos. También ha habido problemas con las agencias que lograron con éxito un estado positivo deseado, pero haciéndolo de una manera ineficiente o indeseable. Por ejemplo, en 2018 Deepsense.ai trató de aprender un algoritmo para ejecutar, pero descubrió que el agente desarrolló una tendencia a saltar, ya que alcanzó su estado positivo futuro mucho más rápido.

¿El futuro del aprendizaje automático?

Los entornos de juego, sin importar cuán grandes sean, ofrecen una escala limitada para el aprendizaje automático y son realmente útiles solo para las pruebas. En el mundo real, hay una serie de aplicaciones que RL podría revolucionar, pero que requerirían que los agentes aprendan entornos mucho más complicados. Entonces, aunque podría acelerar el software automatizado para robótica y máquinas de fábrica, configuraciones de sistemas web o incluso en diagnósticos médicos, podría tomar algún tiempo antes de que se logre un progreso real.

Todavía estamos a distancia de una máquina que puede aprender como un ser humano, y el aprendizaje por refuerzo no es una tecnología fácil de implementar. Pero con el tiempo, esa podría ser la fuerza impulsora de la tecnología del futuro.

Rate this post

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio