เราจะทำการสร้าง Table ข้อมูลที่ได้จากการทำ ETL ให้เข้าไปอยู่ใน Data catalog เพื่อเตรียมใช้งานในการ Query โดยใช้ Crawler
Step 1: เข้าไปที่หน้าของ Tables
Step 2: เลือก Add tables using crawler
Step 3: ตั้งชื่อ Crawler เป็น “customer_crawler_parquet“ แล้วกด Next
Step 4 เลือก Data Source เป็น S3 และเลือก folder parquet
(s3://my-glue-demo-data/customer_database/parquet/)
Step 5: กด Add an S3 data source
Step 6: เลือก Next
Step 7: ที่ Existing IAM role เลือก glue_full_access จากนั้นกด Next
Step 8: หน้า Set output and scheduling ที่ Target Database เลือก customer_database
Step 9: Table name prefix ใส่เป็น “customer_” เนื่องจากเรา table จะใช้ source folder ชื่อ table เลยทำให้อาจจะเกิดความไม่เป็นระเบียบได้ เราจึงเติม prefix เพื่อไม่ให้สับสน
Step 10: Crawler schedule ที่ Frequency เลือกเป็น On demand
Step 11: กด Next
Step 12: Review data ทั้งหมดที่ config แล้วกด Create crawler
Step 13: กด Run crawler
Step 14: รอจน Crawler ทำงานจนเสร็จ
Step 15: เข้าไปยังหน้า Table จะเห็นว่ามี Table customer_parquet ที่ถูกสร้างจาก Crawler Parquet
Step 16: เมื่อเปิดไปที่ Table customer_parquet และตรวจสอบ schema จะพบว่าเป็น data ที่เราได้ Transform ไปตาม Glue Job
จากที่เราทำมาทั้งหมด เราก็จะได้ table ที่พร้อมเอาไป query เพื่อใช้งานต่อแล้ว ซึ่ง data ที่ใช้สามารถใช้ Athena มา query เพื่อนำข้อมูลออกไปใช้งานต่อไปเลย และหากทุกคนสังเกตุดีๆ ทุกขั้นตอนของเราเป็นการทำแบบ Low-Code ทั้งหมด ผมเชื่อมาหลายๆคนที่เป็นมือใหม่สามารถทำตามได้ไม่ยาก หรือถ้าหากใครที่เป็นมือเก๋าก็สามารถปรับจูนตามความถนัดของตัวเองได้อีกหลากหลายเลยนะครับ
-------- Data Engineer Course ----------
DataSet -> Customer.csv
เริ่มต้นโปรเจค -> https://www.vultureprime.com/how-to/start-first-project-with-aws-glue
สร้าง bucket และ folder สำหรับจัดเก็บไฟล์ -> https://www.vultureprime.com/how-to/how-to-create-s3-folder-and-structure
สร้าง IAM Role -> https://www.vultureprime.com/how-to/how-to-create-iam-role
สร้าง Database ใน Data Catalog -> https://www.vultureprime.com/how-to/how-to-create-database-in-glue-catalog
สร้าง Table ใน Database โดยใช้ Crawler -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler
Transform data ด้วย Glue Job -> https://www.vultureprime.com/how-to/how-to-etl-with-glue
สร้าง Table จาก ETL result -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler-2