Etiqueta: treinamento de aprendizagem por reforço OpenAI o4