Unsloth Data Recipes คืออะไรและช่วยสร้างชุดข้อมูลสำหรับ AI อย่างไร?

Unsloth Data Recipes คือเครื่องมือใน Unsloth Studio (Web UI สำหรับ Local AI) ที่ออกแบบมาเพื่อช่วยให้ผู้ใช้สามารถสร้าง สร้างใหม่ และแก้ไขชุดข้อมูล (Dataset) ได้อย่างง่ายดายผ่านหน้าจอผู้ใช้งานแบบเห็นภาพ (Visual Interface)

โดยเครื่องมือนี้มีกลไกสำคัญที่ช่วยในการสร้างชุดข้อมูลสำหรับ AI ดังนี้:

  1. ระบบ Workflow แบบ Node-Graph

Data Recipes ใช้การทำงานผ่าน Graph-node workflow ที่ช่วยให้คุณเปลี่ยนเอกสารดิบ เช่น PDF หรือไฟล์ CSV ให้กลายเป็นชุดข้อมูลที่พร้อมใช้งานหรือชุดข้อมูลสังเคราะห์ (Synthetic Datasets) โดยคุณสามารถสร้างชุดข้อมูลผ่านการเชื่อมต่อ “Blocks” ต่างๆ เข้าด้วยกันในหน้า Editor

  1. บล็อกพื้นฐานในการสร้างข้อมูล (Core Building Blocks)

เครื่องมือนี้มีบล็อกหลายประเภทที่ช่วยจัดการข้อมูลในแต่ละขั้นตอน:

  • Seed: ใช้สำหรับนำเข้าข้อมูลต้นฉบับจาก Hugging Face, ไฟล์ในเครื่อง หรือเอกสารที่ยังไม่มีโครงสร้าง (Unstructured documents) ซึ่งจะถูกแบ่งย่อยเป็นแถวข้อมูล* LLM + Models: คุณสามารถตั้งค่า Model Provider และ Config เพื่อใช้ LLM ในการเจนข้อมูล โดยรองรับทั้งแบบข้อความทั่วไป (Text), ข้อมูลที่มีโครงสร้าง (Structured JSON), โค้ด (Code) หรือแม้แต่ใช้เป็นตัวตัดสิน (LLM Judge) เพื่อประเมินคุณภาพ* Expression: ใช้การแปลงข้อมูลด้วย Jinja2 เพื่อปรับแต่งค่าโดยไม่ต้องเรียกใช้ LLM ช่วยประหยัดทรัพยากร* Validators: บล็อกสำหรับตรวจสอบความถูกต้อง เช่น การใช้ Linter ตรวจสอบโค้ด Python, SQL หรือ JavaScript เพื่อกรองข้อมูลที่ผิดพลาดออกจากชุดข้อมูลสุดท้าย* Samplers: สำหรับสร้างข้อมูลในคอลัมน์ที่เป็นหมวดหมู่ (Categories)
  1. การอ้างอิงและการใช้ข้อมูลซ้ำ (References)

แนวคิดหลักของ Data Recipes คือการสร้างค่าเพียงครั้งเดียวแล้วนำกลับมาใช้ใหม่ ได้ตลอด Workflow คุณสามารถนำค่าจากบล็อกก่อนหน้า (เช่น คอลัมน์จากไฟล์ CSV หรือผลลัพธ์จาก LLM) มาใช้ใน Prompt หรือขั้นตอนการตรวจสอบ (Validation) ถัดไปได้ทันที

  1. กระบวนการสร้างที่มีประสิทธิภาพ (Execution Flow)

เพื่อให้ได้ชุดข้อมูลที่มีคุณภาพ ระบบจึงมีขั้นตอนการทำงานที่ชัดเจน:

  1. Validate: คลิกเพื่อตรวจสอบการตั้งค่าและดักจับข้อผิดพลาดก่อนเริ่มรันจริง* Preview: รันตัวอย่างข้อมูลจำนวนน้อยเพื่อตรวจสอบความถูกต้องและปรับแต่ง Prompt หรือเงื่อนไขต่างๆ* Run: เมื่อพอใจกับผลลัพธ์แล้ว จึงสั่งรันเพื่อสร้างชุดข้อมูลฉบับเต็ม ซึ่งจะได้เป็น Local Dataset Artifact สำหรับนำไปใช้ Fine-tuning ต่อใน Studio หรืออัปโหลดไปยัง Hugging Face

นอกจากนี้ Unsloth Data Recipes ยังได้รับขุมพลังเบื้องหลังมาจาก NVIDIA NeMo Data Designer และรองรับการส่งออก/นำเข้า Recipe เพื่อแบ่งปันวิธีการสร้างชุดข้อมูลกับผู้ใช้อื่นในชุมชนได้อีกด้วย