Etiqueta: Entrenamiento de aprendizaje por refuerzo OpenAI o4