วิธีใช้งาน Glue Data Classifier

ในขั้นตอนของการ Crawler ข้อมูล Schema จะถูกสร้างขึ้นมาโดยอัตโนมัติจากค่า default ของ glue เราสามารถนำค่าที่ได้ไปใช้งานต่อได้เลย หรือถ้าหากว่า schema ที่ได้นั้นไม่ตรงตามความต้องการของเรา เราสามารถใช้ Classifier ในการปรับแต่งให้ตรงกับความต้องการได้

Configuration Classifier

Step 1: เข้าไปยัง Glue

Step 2: เข้าไปยัง Classifier


Step 3: เลือก Add classifier

Step 4: Classifier name ตั้งชื่อเป็น csv_classifier

Step 5: Classifier type เลือกเป็น CSV

ตัวอย่างนี้เราจะสอนแบบง่ายๆด้วยการปรับ data type ให้เป็น type ที่เราต้องการ

Step 6: การตั้งค่าอื่นๆให้เลือกใช้ง่านค่า default

Step 7: Custom datatypes ให้เราใส่ data type ไปตามจำนวนของ column ที่มีในไฟล์ ซึ่งจากไฟล์ที่เราใช้จะมีทั้งหมด  8 column ดังนั้นเราจะใส่แบบนี้

STRING,STRING,STRING,STRING,STRING,STRING,STRING,STRING


Step 8: กด Create.

Configure crawler.

หลังจากเราสร้าง Classifier เสร็จเรียบร้อยแล้ว ก็ต้องเพิ่ม classifier ที่สร้างให้กับ crawler โดยเราได้ทำการ crawler ข้อมูลก่อนหน้ามาเก็บไว้โดยมี schema ดังนั้น


Step 1: เข้าไปยัง Crawler

Step 2: ไปยัง Tab Classifier

Step 3: เลือก Assign Classifiers

Step 4: จาก drop-down list เลือก classifier ตัวที่เราสร้าง

Step 5: กด Confirm.

Step 6: ทดสอบโดยการ Run crawler เพื่อสร้าง Table.

Step 7: ไปยัง Table ที่สร้างเพื่อดูผลลัพธ์



Summary

Data classifier เป็นอีกหนึ่งตัวช่วยเมื่อ built-in classifier ไม่ตอบโจทย์ต่อการใช้งานกับ data ของเรา ช่วยให้เราปรับแต่ schema ให้เป็นไปตามที่ต้องการได้มากขึ้น และเป็นเหมือนการ clean data ต้นทางไปในตัวด้วย

Aa

© 2023, All Rights Reserved, VulturePrime co., ltd.