ในขั้นตอนของการ Crawler ข้อมูล Schema จะถูกสร้างขึ้นมาโดยอัตโนมัติจากค่า default ของ glue เราสามารถนำค่าที่ได้ไปใช้งานต่อได้เลย หรือถ้าหากว่า schema ที่ได้นั้นไม่ตรงตามความต้องการของเรา เราสามารถใช้ Classifier ในการปรับแต่งให้ตรงกับความต้องการได้
Step 1: เข้าไปยัง Glue
Step 2: เข้าไปยัง Classifier
Step 3: เลือก Add classifier
Step 4: Classifier name ตั้งชื่อเป็น csv_classifier
Step 5: Classifier type เลือกเป็น CSV
ตัวอย่างนี้เราจะสอนแบบง่ายๆด้วยการปรับ data type ให้เป็น type ที่เราต้องการ
Step 6: การตั้งค่าอื่นๆให้เลือกใช้ง่านค่า default
Step 7: Custom datatypes ให้เราใส่ data type ไปตามจำนวนของ column ที่มีในไฟล์ ซึ่งจากไฟล์ที่เราใช้จะมีทั้งหมด 8 column ดังนั้นเราจะใส่แบบนี้
STRING,STRING,STRING,STRING,STRING,STRING,STRING,STRING
Step 8: กด Create.
หลังจากเราสร้าง Classifier เสร็จเรียบร้อยแล้ว ก็ต้องเพิ่ม classifier ที่สร้างให้กับ crawler โดยเราได้ทำการ crawler ข้อมูลก่อนหน้ามาเก็บไว้โดยมี schema ดังนั้น
Step 1: เข้าไปยัง Crawler
Step 2: ไปยัง Tab Classifier
Step 3: เลือก Assign Classifiers
Step 4: จาก drop-down list เลือก classifier ตัวที่เราสร้าง
Step 5: กด Confirm.
Step 6: ทดสอบโดยการ Run crawler เพื่อสร้าง Table.
Step 7: ไปยัง Table ที่สร้างเพื่อดูผลลัพธ์
Data classifier เป็นอีกหนึ่งตัวช่วยเมื่อ built-in classifier ไม่ตอบโจทย์ต่อการใช้งานกับ data ของเรา ช่วยให้เราปรับแต่ schema ให้เป็นไปตามที่ต้องการได้มากขึ้น และเป็นเหมือนการ clean data ต้นทางไปในตัวด้วย