หัวข้อนี้เราจะพาไปรู้จักกับ Data format ที่เป็นรูปแบบของ Output file ที่ผ่านการทำ ETL ผ่าน Glue Job และยังเป็น Data format ที่ควรรู้เมื่อต้องมีการทำงานที่เกียวข้องกับการ process data
JSON (JavaScript Object Notation) เป็นรูปแบบของ Text ที่สามารถอ่านออกและทำความเข้าใจได้ด้วยตาเปล่า นิยมใช้ในการแลกเปลี่ยนข้อมูลกันระหว่าง application โดยมี format อยู่ในรูปแบบ key-value และสำหรับประเภทข้อมูลที่ จัดเก็บได้ประกอบไปด้วย string, number, object, array, boolean และ null
CSV ( Comma-Separated Values ) หรือจะแปลง่ายๆว่า ไฟล์ที่มี Comma “ , “ เป็นตัวคั่นระหว่างข้อมูล เป็นการเก็บข้อมูลที่เป็น Row และ Column โดยใช้ Comma เป็นตัวคั่น นิยมใช้กับข้อมูลที่มีรูปแบบเป็นตารางเหมาะแก่การในไปใช้งานต่อในโปรแกรมจำพวก Excel หรือใช้ในการคำนวน
Avro เเก็บข้อมูลแบบ binary file ที่เป็น row-base โดยเป็นการเก็บ schema ของไฟล์ไว้เป็น JSON ในส่วนต้นของไฟล์ และ binary ในส่วนของ data ใช้ในการแลกเปลี่ยน data ระหว่าง file system และ programming process รองรับการเขียนข้อมูลที่มีความต่างจาก schema เดิม
ORC หรือ Apache ORC ย่อมาจาก Optimized Row Columnar ถูกออกแบบมาเพื่อประสิทธิภาพการทำงานของไฟล์ในรูปแบบ Row Column table
เป็น binary file แบบ column-base เป็นการเก็บข้อมูลแต่ละ column เรียงไปตาม disk block ส่งผลให้ไฟล์ถูกบีบอัดได้มากยิ่งขึ้น ลดทั้งขนาดและค่าใช้จ่ายในการ scan ไฟล์ได้อย่างมาก แต่สำหรับในการเปิดอ่านไฟล์จำเป็นต้องใช้ตัวช่วยอย่าง python หรือ apache spark ในการเปิดอ่าน