Data Engineer Basic Level Syllabus
ไม่ว่าจะเป็น Data engineer, Data Science, Data Analyst หรือ Machine learning Engineer ครบจบในที่เดียว ลงทะเบียนฟรี เริ่มเลย
ชื่อ
Data engineer Basic Level
ระดับ
Basic
จุดประสงค์
สามารถสร้าง Data pipeline โดยใช้การลงมือ Coding ให้น้อยที่สุด ผ่านการใช้งาน Tools ต่าง ๆ
เพื่อให้เกิดผลลัพธ์และประโยชน์ทางธุรกิจที่รวดเร็วที่สุด
ควรรู้อะไรมาก่อน
เข้าใจ SQL ในชุดคำสั่งพื้นฐาน SELECT, FROM, WHERE, JOIN, CREATE
เข้าใจ Stats พื้นฐานในเรื่องของการทำ Normalization
เข้าใจ Coding Datatype
คุณจะได้เรียนรู้อะไร
- ทำไมถึงต้องสร้าง Data pipeline [03/09/2023]
- การเริ่มต้นการใช้งาน AWS Cloud [12/08/2023]
- การเริ่มต้นการใช้งาน AWS S3 [12/08/2023]
- การเริ่มต้นการใช้งาน AWS Glue [12/08/2023]
- การเริ่มต้นการใช้งาน AWS Athena [19/08/2023]
- การเริ่มต้นการใช้งาน AWS Quicksight [19/08/2023]
- การเริ่มต้นการใช้งาน AWS IAM [12/08/2023]
- การออกแบบสิทธิในการเข้าถึง Data ของแต่ละผู้ใช้งาน [26/08/2023]
- การออกแบบ Data Lake [03/09/2023]
- การออกแบบ Data Pipeline [03/09/2023]
- การสร้าง Partition index เพื่อให้การค้นหามีประสิทธิภาพมากขึ้น และ ประหยัดมากยิ่งขึ้น [26/08/2023]
- การสร้าง ETL Automation เพื่อให้ข้อมูลใน Data Lake พร้อมสำหรับการใช้งานและอัพเดทตลอดเวลา
- การสร้าง Data Quality เพื่อตรวจสอบความถูกต้องของข้อมูลใน Data Lake
- การสร้าง Data Classifier เพื่อสร้าง Meta data ที่ถูกต้อง [26/08/2023]
- การจัดเก็บไฟล์ข้อมูลและการบีบอัดข้อมูลในรูปแบบต่าง ๆ [26/08/2023]
- การคำนวนค่าใช้จ่ายของ Data Pipeline [19/08/2023]
- ข้อจำกัดของการใช้งานเครื่องมือ
- กรณีศึกษาจากต่างประเทศ
- การสำรวจ, เตรียม และ ทำความสะอาด Data ที่มีขนาดไม่เกิน 100 ล้าน Records.
- การสร้าง Data Pipeline โดยใช้งาน AWS S3 ในหน้าที่ Data Lake, ใช้งาน AWS Glue ในหน้าที่ ETL, Data Catalog, Job scheduler และ Data Preparation,
AWS Athena ในหน้าที่ SQL Engine สำหรับการใช้งาน SQL เพื่อค้นหาข้อมูลใน Data Lake และ AWS Quicksight สำหรับการหน้าต่างแสดงผลข้อมูลจากผลลัพธ์ SQL
Tools
- AWS Glue
- AWS Athena
- AWS Quicksight
- AWS S3
- AWS IAM
DataSet ที่น่าสนใจ
New York Taxi Fare
Stack overflow Data
Retailrocket recommender system dataset
USA Housing Listings
Airbnb Amsterdam
Tokyo 2020 Olympic Summer Games
Brazilian E-Commerce Public Dataset by Olist
Financing Healthcare
Material
0.DataSet -> Customer.csv
1. เริ่มต้นโปรเจคแรกด้วย AWS Glue -> https://www.vultureprime.com/how-to/start-first-project-with-aws-glue
2. สร้าง bucket และ folder สำหรับจัดเก็บไฟล์ -> https://www.vultureprime.com/how-to/how-to-create-s3-folder-and-structure
3. สร้าง IAM Role -> https://www.vultureprime.com/how-to/how-to-create-iam-role
4. สร้าง Database ใน Data Catalog -> https://www.vultureprime.com/how-to/how-to-create-database-in-glue-catalog
5. สร้าง Table ใน Database โดยใช้ Crawler -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler
6. Transform data ด้วย Glue Job -> https://www.vultureprime.com/how-to/how-to-etl-with-glue
7. สร้าง Table จาก ETL result -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler-2
8. เริ่มต้นใช้งาน AWS Athena -> https://www.vultureprime.com/how-to/what-is-aws-athena
9. เริ่มต้นใช้งาน AWS Quicksight -> https://www.vultureprime.com/how-to/what-is-aws-quicksight
10. การคำนวนค่าใช้จ่ายของ Data Pipeline - Basic Level -> https://www.vultureprime.com/how-to/how-to-calcualte-etl-cost-basic-level
11. วิธีใช้าน Glue Data Partition (Part 1) -> https://www.vultureprime.com/how-to/how-to-use-glue-data-partition-part1
12. วิธีใช้งาน Glue Data Partition (Part2) -> https://www.vultureprime.com/how-to/how-to-choose-glue-data-partition-part2
13. วิธีเลือก Data Format สำหรับ Glue Catalog -> https://www.vultureprime.com/how-to/how-to-choose-data-format-for-glue-data-catalog
14. วิธีใช้งาน Glue Data Classifier -> https://www.vultureprime.com/how-to/how-to-create-glue-data-classifier
15. วิธีกำหนดสิทธิการเข้าถึงข้อมูลผ่าน Glue data crawler -> https://www.vultureprime.com/how-to/how-to-assign-glue-data-permission
16. ทำไมถึงต้องสร้าง Data pipeline -> https://www.vultureprime.com/how-to/why-we-need-to-build-data-pipeline
17. การออกแบบ Data pipeline -> https://www.vultureprime.com/how-to/how-to-design-data-pipeline
18. การออกแบบ Data lake -> https://www.vultureprime.com/how-to/how-to-design-data-lake
19.TBA
เวลาที่คาดว่าจะใช้
อาทิตย์ละ 15 ชั่วโมงทั้งหมด 4 อาทิตย์ ในการทำตามตัวอย่างและทำความเข้าใจทั้งหมด
15 ชั่วโมงสำหรับการลงมือปฏิบัติตามเอกสารการสอนทั้งหมด (Walk throgh all article)
License
เนื้อหาที่เผยแพร่ภายใต้ Program “เรียน Data Course ฟรี จาก VulturePrime” อยู่ภายใต้ License CC BY-SA 4.0
สามารถไปใช้งานต่อ, แชร์ หรือ ดัดแปลงได้ตามสะดวก โดยต้องแสดงแหล่งที่มา และ เนื้อหาที่นำไปใช้งานต่อหรือดัดแปลง
ต้องอยู่ภายใต้ License CC BY-SA 4.0 เท่านั้น
สำหรับอาจารย์มหาลัยหรือคุณครูอยากนำเนื้อหาไปเป็นส่วนหนึ่งในการสอนสามารถหลังไมค์มาได้เลย
พร้อมลงทะเบียนรึยัง
รับการแจ้งเตือน
สำหรับเนื้อหาใหม่, นัดหมาย workshop ครั้งถัดไป และข่าวสารเกี่ยวกับความรู้สาย Data ที่ไม่ควรพลาด
เริ่มต้นการเรียนรู้ของคุณได้เลย ไม่มีใครช้าเกินไป
เพียงแค่กรอกฟอร์มลงทะเบียนให้เสร็จสิ้นเท่านั้น