การออกแบบ Data pipeline

Data pipeline

การออกแบบ Data pipeline นั้นสามารถออกแบบโดยอ้างอิงจาก Framework หรือ Best practice ตัวใดตัวหนึ่งเพื่อเป็นจุดเริ่มต้นในการออกแบบ

โดยทั่วไปแล้วการออกแบบ Data Pipeline มีเรื่องที่ต้องคำนึงทั้งหมด 7 ข้อ ได้แก่

  1. Data sources
  2. Data formats
  3. Data cleansing
  4. Data transformation
  5. Data security
  6. Data governance
  7. Monitoring

1. Data sources

Data source หรือ แหล่งข้อมูล คือข้อมูลซึ่งอยู่ในแหล่งข้อมูลที่แตกต่างกัน เช่น ข้อมูลที่มาจาก Database, ข้อมูลที่มาจาก Data lake, ข้อมูลที่มาจาก Data warehouse หรือ ข้อมูลจาก Streaming ต่าง ๆ (Sensor) เป็นต้น

2. Data formats

Data format หรือ รูปแบบข้อมูล คือข้อมูลซึ่งถูกจัดเก็บด้วยเทคโนโลยีและ Algorithm ที่แตกต่างกัน เช่น CSV, JSON, Parquet, AVRO และ ORC เป็นต้น

3. Data cleansing

Data cleansing หรือ การทำความสะอาดข้อมูลคือการทำให้ข้อมูลที่ได้มานั้นมีความสมบูรณ์มากที่สุดและพร้อมใช้งานต่อในกระบวนการถัดไป

4. Data transformation

Data transformation หรือ การเปลี่ยนแปลงข้อมูลคือการทำให้ได้มาซึ่งข้อมูลใหม่ซึ่งอาจจะเป็นการเปลี่ยนแปลงข้อมูลเดิมหรืออาจจะเป็นการสร้างข้อมูลขึ้นมาเพื่อเพิ่มลงไปในชุดข้อมูลเดิม

5. Data security

Data security หรือ ความปลอดภัยของข้อมูลคือ วิธีป้องกันการเข้าถึงข้อมูลจากบุคคลที่ไม่ได้รับอนุญาต, วิธีการใช้งานข้อมูล หรือ การควบคุมข้อมูลที่สามารถเปิดเผยได้

6. Data governance

Data governance หรือ การกำกับข้อมูลคือ นโยบายในการบริหารข้อมูล เช่น ใครเป็นเจ้าของข้อมูล, ใครเป็นผู้อนุญาตให้สามารถเข้าถึงข้อมูลได้ หรือ ระยะเวลาในการจัดเก็บข้อมูล

7. Monitoring

Monitoring หรือ การเฝ้าติดตามคือ การเฝ้าติดตามประสิทธิภาพและความราบรื่นในส่วนของ Data pipeline เพื่อที่จะให้มั่นใจได้ว่า Data pipeline ที่ใช้งานอยู่นั้น มีประสิทธิภาพอยู่ในระดับที่น่าพอใจ

Aa

© 2023, All Rights Reserved, VulturePrime co., ltd.