為何 SWE-bench Verified 不再衡量頂尖編碼能力 – OpenAI