Aprendizaje por refuerzo

1325 palabras 6 páginas
Máster en Ingeniería de Sistemas y de Control – Sistemas Inteligentes

Caso de estudio – Aprendizaje por refuerzo
Laberinto El problema del laberinto trata de enseñar a un robot a alcanzar la salida de un laberinto desconocido. Problema El problema del laberinto tiene múltiples variantes. Aquí se adopta un sencillo laberinto de 3x3 sin obstáculos en él, aunque la solución adoptada puede generalizarse a casos más complejos. 1 2 3

1

Salida

2

3

-1

+1

En el ejemplo propuesto hay 2 estados terminales, (3,2) y (3,3), que tienen asignadas respectivamente utilidades de -1 y +1, que también consideramos como sus recompensas. El robot sale del estado (1,1). El modelo de transición del sistema permite al robot desplazarse en
…ver más…
La opción más simple es asignarle un valor constante, aunque ellos implica que el robot siempre aprende a la misma velocidad. Una opción más elaborada es considerar que esta tasa cambiar con las experiencias. Por ejemplo el robot está más abierto al cambio (mayor valor del parámetro) en los instantes iniciales, pero menos cuando tiene más experiencia (menor valor del parámetro). Esto se puede lograr con una definición del factor como: con n el número de veces que se ha estado en el estado que se considera en la ecuación. Para el estado inicial fijamos que las utilidades de todos los estados son 0. Sólo hay recompensa observada para el último estado de la traza, en este caso (3,3). Para la traza 1 se tiene que la única actualización no trivial es: 1 3,3 ← 0 ∗ 1 0,9 ∗ 0 0 1 1 Los valores de la utilidad quedan: 1 2 3 de las

1

0

0

0

2

0

0

0

Máster en Ingeniería de Sistemas y de Control – Sistemas Inteligentes

Caso de estudio – Aprendizaje por refuerzo
3 0 0 1,0

Para la traza 2 se tiene que la única actualización no trivial es: 1 2,3 ← 0 ∗ 0 0,9 ∗ 1 0 0,45 2 Los valores de la utilidad quedan: 1 2 3

1

0

0

0

2

0

0

0,45

3

0

0

1,0

Para la traza 3 hay dos actualizaciones no triviales: 1 1,3 ← 0 ∗ 0 0,9 ∗ 0,45 3 1 2,3 ← 0,45 ∗ 0 0,9 ∗ 1 3 Los valores de la utilidad quedan: 1 2

0 0,45

0,135 0,6

3

1

0

0

0,135

2

0

0

0,6

Máster en Ingeniería de

Documentos relacionados

  • Aprendizaje significativo por david ausubel
    1301 palabras | 6 páginas
  • Refuerzo sonoro
    2102 palabras | 9 páginas
  • INFORMATICA Y LOS PARADIGMAS CONDUCTISTA, COGNITIVO, APRENDIZAJE POR DESCUBRIMIENTO Y CONSTRUCTIVA.
    3960 palabras | 16 páginas
  • Ejemplos de refuerzo positivo y negativo
    704 palabras | 3 páginas
  • ¿Por qué el nivel general de alerta y la atención selectiva son importantes para el aprendizaje?
    1413 palabras | 6 páginas
  • Aprendizaje por imitación
    609 palabras | 3 páginas
  • Aprendizajes esperados organizados por categorias
    5778 palabras | 24 páginas
  • Taller de refuerzo fisik
    861 palabras | 4 páginas
  • Resumen de aprendizaje por recepción y retención.
    1959 palabras | 8 páginas
  • ¿Por qué el nivel general de alerta y la atención selectiva son importantes para el aprendizaje?
    1162 palabras | 5 páginas