الوسم: تقييم قدرة الاستدلال في نماذج اللغات الكبيرة