AI 日報AI日報 – 2025-05-24(朝刊)AGENTIFベンチマークテストAIモデルASL-3セキュリティレベルClaude 4の行動とセキュリティ評価レポートSonnet 4SWE-bench Verifiedスコアインテリジェントエージェントコード能力セキュリティ評価マルチモーダルマルチモーダル時系列大規模モデルChatTS