วิธีเลือก Data Format สำหรับ Glue Catalog

หัวข้อนี้เราจะพาไปรู้จักกับ Data format ที่เป็นรูปแบบของ Output file ที่ผ่านการทำ ETL ผ่าน Glue Job และยังเป็น Data format ที่ควรรู้เมื่อต้องมีการทำงานที่เกียวข้องกับการ process data

JSON

JSON (JavaScript Object Notation) เป็นรูปแบบของ Text ที่สามารถอ่านออกและทำความเข้าใจได้ด้วยตาเปล่า นิยมใช้ในการแลกเปลี่ยนข้อมูลกันระหว่าง application โดยมี format อยู่ในรูปแบบ key-value และสำหรับประเภทข้อมูลที่ จัดเก็บได้ประกอบไปด้วย string, number, object, array, boolean และ null

CSV

CSV ( Comma-Separated Values ) หรือจะแปลง่ายๆว่า ไฟล์ที่มี Comma “ , “ เป็นตัวคั่นระหว่างข้อมูล เป็นการเก็บข้อมูลที่เป็น Row และ Column โดยใช้ Comma เป็นตัวคั่น นิยมใช้กับข้อมูลที่มีรูปแบบเป็นตารางเหมาะแก่การในไปใช้งานต่อในโปรแกรมจำพวก Excel หรือใช้ในการคำนวน

Avro

Avro เเก็บข้อมูลแบบ binary file ที่เป็น row-base โดยเป็นการเก็บ schema ของไฟล์ไว้เป็น JSON ในส่วนต้นของไฟล์ และ binary ในส่วนของ data ใช้ในการแลกเปลี่ยน data ระหว่าง file system และ programming process รองรับการเขียนข้อมูลที่มีความต่างจาก schema เดิม

ORC

ORC หรือ Apache ORC ย่อมาจาก Optimized Row Columnar ถูกออกแบบมาเพื่อประสิทธิภาพการทำงานของไฟล์ในรูปแบบ Row Column table

Parquet

เป็น binary file แบบ column-base เป็นการเก็บข้อมูลแต่ละ column เรียงไปตาม disk block ส่งผลให้ไฟล์ถูกบีบอัดได้มากยิ่งขึ้น ลดทั้งขนาดและค่าใช้จ่ายในการ scan ไฟล์ได้อย่างมาก แต่สำหรับในการเปิดอ่านไฟล์จำเป็นต้องใช้ตัวช่วยอย่าง python หรือ apache spark ในการเปิดอ่าน

Aa

© 2023, All Rights Reserved, VulturePrime co., ltd.