เราจะสร้าง bucket ชื่อว่า my-glue-demo-data
/customer_database/csv/year=2023/month=7/
เอาไว้เก็บ csv ไฟล์
/customer_database/parquet/
เก็บ parquet file หลังจากการ transform
/script
เก็บ ETL Script
โดยขั้นตอนการสร้างมีดังนี้
Step 1: เลือกที่ Create folder
Step 2: ใส่ชื่อ folder ใน folder name
Step 3: กด Create folder
Step 4: จะได้ folder ที่สร้างเสร็จแล้วอยู่ใน bucket
Step 5: ทำตาม Step 1 ถึง Step 4 ในการสร้าง folder ที่เหลือให้ครบถ้วน เราก็จะได้ folder ทั้งหมดตามนี้
Step 6: เข้าไปยัง folder customer_database/csv/year=2023/month=7/
Step 7: เลือก Upload เพื่อ upload file ที่เตรียมไว้
Step 8: เลือก Add files เพื่อเลือก file จากเครื่อง
Step 9: กด Upload แล้วรอจนเสร็จ จากนั้นกด Close เพื่อกลับมาหน้า bucket
จะเห็นว่าไฟล์ถูก upload มาไว้ที่ folder พร้อมที่จะใช้งานแล้ว
-------- Data Engineer Course ----------
DataSet -> Customer.csv
เริ่มต้นโปรเจค -> https://www.vultureprime.com/how-to/start-first-project-with-aws-glue
สร้าง bucket และ folder สำหรับจัดเก็บไฟล์ -> https://www.vultureprime.com/how-to/how-to-create-s3-folder-and-structure
สร้าง IAM Role -> https://www.vultureprime.com/how-to/how-to-create-iam-role
สร้าง Database ใน Data Catalog -> https://www.vultureprime.com/how-to/how-to-create-database-in-glue-catalog
สร้าง Table ใน Database โดยใช้ Crawler -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler
Transform data ด้วย Glue Job -> https://www.vultureprime.com/how-to/how-to-etl-with-glue
สร้าง Table จาก ETL result -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler-2