Step 1: เลือกที่ ETL Jobs กดเข้ามาเราจะเข้ามาที่ AWS Glue Studio
Step 2: เลือก Visual with source and target
Step 3: Source เลือกเป็น AWS Glue Data Catalog
Step 4: Target เลือกเป็น Amazon S3
Step 5: กด Create เพื่อเข้าหน้า Configuration
Step 6: ตั้งชื่อให้กับ Job โดยเปลี่ยนตรง Untitled job เราจะใช้ชื่อว่า “customer_etl_job“
Step 7: ใน Visual เลือก Data Catalog table
Step 8: เลือก Database (customer_database)และ Table (customer_csv) ที่เราสร้างไว้ก่อนหน้านี้
Step 9: เลือก ApplyMapping เพื่อเตรียม Transform
Step 10: ปรับ Key และ Data Type ให้อยู่ในแบบที่เราต้องการ
Step 11: เลือกที่ S3 bucket ที่เป็นปลายทางในการเก็บข้อมูล
Step 12: เลือก Format เป็น Parquet
Step 13: เลือก S3 Target Location เป็น folder parquet ที่เราสร้างไว้ ( s3://my-glue-demo-data/customer_database/parquet/ )
Step 14: ใน Tab Script คือ pyspark ที่ถูกสร้างขึ้มาจากที่เรา config ไว้ใน step ต่างๆก่อนหน้านี้
Step 15: ไปที่ Tab Job details
Step 16: เลือก IAM Role เป็น glue_full_access
Step 17: การตั้งค่าอื่นๆให้ใช้ค่า default ได้เลย
Step 18: เลื่อนลงมาตรง Advanced properties แล้ว expand ออกมา
Step 19: แก้ไข Script path เป็น folder /script ที่เราสร้างไว้ โดยการ Browse S3 ไปที่ folder
Step 20: กด Save เพื่อบันทึกการตั้งค่าทั้งหมด
Step 21: เลือกที่ Tab Runs
Step 22: กด Run job เพื่อสั่งให้ Job นี้ทำงาน
Step 23: รอให้ Job ทำงานเสร็จ
Step 24: เมื่อเข้าไป check ที่ folder parquet ใน S3 จะเจอไฟล์ที่เราทำ ETL ถูกจัดเก็บไว้
-------- Data Engineer Course ----------
DataSet -> Customer.csv
เริ่มต้นโปรเจค -> https://www.vultureprime.com/how-to/start-first-project-with-aws-glue
สร้าง bucket และ folder สำหรับจัดเก็บไฟล์ -> https://www.vultureprime.com/how-to/how-to-create-s3-folder-and-structure
สร้าง IAM Role -> https://www.vultureprime.com/how-to/how-to-create-iam-role
สร้าง Database ใน Data Catalog -> https://www.vultureprime.com/how-to/how-to-create-database-in-glue-catalog
สร้าง Table ใน Database โดยใช้ Crawler -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler
Transform data ด้วย Glue Job -> https://www.vultureprime.com/how-to/how-to-etl-with-glue
สร้าง Table จาก ETL result -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler-2