Step 1: เข้าไปยัง customer_database ที่เราสร้างไว้ในหัวข้อที่ผ่านมา
Step 2: เลือก Add tables using crawler
Step 3: ที่หน้า Set crawler properties ในช่อง Name ตั้งชื่อ Crawler ว่า “customer_crawler“ แล้วกด Next
Step 4: เลือก Data Source ที่เราจะไป crawler data โดยกดที่ Add a data source
Step 5: เลือก Data source เป็น S3, Location of S3 data เลือก In this account, S3 path เลือก Browse ไปยัง my-glue-demo-data ที่สร้างสร้างไว้ในขึ้นตอนการสร้าง S3 bucket จากนั้นให้เติม path เพิ่มเพื่อระบุไปยัง csv folder ที่เราได้สร้างเอาไว้ ( s3://my-glue-demo-data/customer_database/csv/ )
Step 6: เลือก Add an S3 data source
Step 7: กด Next
Step 8: ในช่อง Existing IAM role เลือก glue_full_access ซึ่งเป็น role ที่เราได้สร้างไว้ก่อนหน้านี้ จากนั้นกด Next
Step 9: หน้า Set output and scheduling ที่ Target Database เลือก customer_database
Step 10: Table name prefix ใส่เป็น “customer_” เนื่องจากเรา table จะใช้ source folder ชื่อ table เลยทำให้อาจจะเกิดความไม่เป็นระเบียบได้ เราจึงเติม prefix เพื่อไม่ให้สับสน
Step 11: Crawler schedule ที่ Frequency เลือกเป็น On demand
Step 12: กด Next
Step 13: Review สิ่งที่เรา config ไปทั้งหมดแล้วกด Create crawler
Step 14: เราจะเข้ามาสู่ customer crawler ที่เราสร้างขึ้นมา
Step 15: ใน Crawler runs เลือก Run crawler เพื่อสั่งให้ crawler ทำงาน
Step 16: Crawler จะเปลี่ยน Status เป็น Running ให้รอจนเสร็จการทำงาน
Step 17: เลือกที่ Tables เพื่อเช็คว่า Table ได้ถูกสร้างขึ้นเรียบร้อย
Step 18: กดเข้าไปที่ Table ที่เราสร้างขึ้นมา และตรวจสอบผลลัพธ์ที่ได้
สิ่งที่เราได้จากการใช้ crawler สร้าง table ขึ้นมาก็คือ Schema ของข้อมูลจาก csv file ของเรา และ folder ที่เรากำหนดไว้จะถูกนำมาใช้ใช้เป็น Patition ที่ช่วยให้การ query ง่ายมากขึ้น
-------- Data Engineer Course ----------
DataSet -> Customer.csv
เริ่มต้นโปรเจค -> https://www.vultureprime.com/how-to/start-first-project-with-aws-glue
สร้าง bucket และ folder สำหรับจัดเก็บไฟล์ -> https://www.vultureprime.com/how-to/how-to-create-s3-folder-and-structure
สร้าง IAM Role -> https://www.vultureprime.com/how-to/how-to-create-iam-role
สร้าง Database ใน Data Catalog -> https://www.vultureprime.com/how-to/how-to-create-database-in-glue-catalog
สร้าง Table ใน Database โดยใช้ Crawler -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler
Transform data ด้วย Glue Job -> https://www.vultureprime.com/how-to/how-to-etl-with-glue
สร้าง Table จาก ETL result -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler-2