為何 SWE-bench Verified 不再衡量前沿程式設計能力 – OpenAI