AI日报AI日报 – 2025-05-24(早)AGENTIF基准测试AI模型ASL-3安全等级Claude 4 OpusClaude 4行为与安全评估报告Sonnet 4SWE-bench Verified分数代码能力多模态多模态时序大模型ChatTS安全评估智能体