Devstral 2 สามารถทำคะแนนได้ถึง 72.2 เปอร์เซ็นต์บน SWE-bench Verified ซึ่งเป็นเกณฑ์มาตรฐานที่พยายามทดสอบว่าระบบ AI สามารถแก้ไขปัญหา GitHub จริงได้หรือไม่ คะแนนนี้ทำให้มันอยู่ในกลุ่มโมเดล open-weights ที่มีประสิทธิภาพสูงที่สุดในปัจจุบัน
นอกจากจะเปิดตัวโมเดล AI แล้ว Mistral ยังได้เปิดตัวแอปพลิเคชันพัฒนาใหม่ที่ชื่อว่า Mistral Vibe ซึ่งเป็น Command Line Interface (CLI) ที่คล้ายกับ Claude Code หรือ OpenAI Codex โดยช่วยให้นักพัฒนาสามารถโต้ตอบกับโมเดล Devstral ได้โดยตรงผ่าน Terminal
เครื่องมือ Mistral Vibe สามารถสแกนโครงสร้างไฟล์และสถานะ Git เพื่อรักษาบริบทของโปรเจกต์ทั้งหมด สร้างการเปลี่ยนแปลงในหลายไฟล์ และดำเนินการคำสั่ง Shell ได้อย่างอิสระ โดย Mistral ได้เผยแพร่ CLI นี้ภายใต้สัญญาอนุญาต Apache 2.0
แม้ว่าเราควรใช้วิจารณญาณในการเชื่อถือเกณฑ์มาตรฐาน AI แต่มีรายงานว่าบริษัท AI ยักษ์ใหญ่ให้ความสนใจอย่างใกล้ชิดกับประสิทธิภาพของโมเดลบน SWE-bench Verified ซึ่งนำเสนอโจทย์ปัญหาทางวิศวกรรมซอฟต์แวร์จริง 500 ข้อจาก GitHub โดย AI จะต้องอ่านคำอธิบายปัญหา นำทางใน Codebase และสร้างแพตช์ที่ทำงานได้และผ่านการทดสอบ
แม้ว่านักวิจัย AI บางคนตั้งข้อสังเกตว่าประมาณ 90 เปอร์เซ็นต์ของงานในเกณฑ์มาตรฐานเป็นการแก้ไขข้อบกพร่องที่ค่อนข้างง่ายที่วิศวกรผู้มีประสบการณ์สามารถทำได้ภายในหนึ่งชั่วโมง แต่ SWE-bench ก็ยังคงเป็นหนึ่งในไม่กี่วิธีมาตรฐานในการเปรียบเทียบโมเดล AI สำหรับการเขียนโค้ด
🏷️ หมวดหมู่: AI, Biz & IT, agentic AI, AI agents, AI coding, AI programming, Andrej Karpathy, ASML, machine learning, Mistral AI, open source, open weights, software engineering, SWE-bench, vibe coding
🔗 อ่านบทความฉบับเต็ม: Arstechnica
