Etiqueta: Aprendizaje por refuerzo con tokens bifurcados