วิธีสร้าง Glue table ด้วย Glue crawler

เราจะทำการสร้าง Table ข้อมูลที่ได้จากการทำ ETL ให้เข้าไปอยู่ใน Data catalog เพื่อเตรียมใช้งานในการ Query โดยใช้ Crawler

Step 1: เข้าไปที่หน้าของ Tables

Step 2: เลือก Add tables using crawler

Step 3: ตั้งชื่อ Crawler เป็น “customer_crawler_parquet“ แล้วกด Next

Step 4 เลือก Data Source เป็น S3 และเลือก folder parquet

(s3://my-glue-demo-data/customer_database/parquet/)

Step 5: กด Add an S3 data source

Step 6: เลือก Next

Step 7: ที่ Existing IAM role เลือก glue_full_access จากนั้นกด Next

Step 8: หน้า Set output and scheduling ที่ Target Database เลือก customer_database

Step 9: Table name prefix ใส่เป็น “customer_” เนื่องจากเรา table จะใช้ source folder ชื่อ table เลยทำให้อาจจะเกิดความไม่เป็นระเบียบได้ เราจึงเติม prefix เพื่อไม่ให้สับสน

Step 10: Crawler schedule ที่ Frequency เลือกเป็น On demand

Step 11: กด Next

Step 12: Review data ทั้งหมดที่ config แล้วกด Create crawler

Step 13: กด Run crawler

Step 14: รอจน Crawler ทำงานจนเสร็จ

Step 15: เข้าไปยังหน้า Table จะเห็นว่ามี Table customer_parquet ที่ถูกสร้างจาก Crawler Parquet

Step 16: เมื่อเปิดไปที่ Table customer_parquet และตรวจสอบ schema จะพบว่าเป็น data ที่เราได้ Transform ไปตาม Glue Job

Summary

จากที่เราทำมาทั้งหมด เราก็จะได้ table ที่พร้อมเอาไป query เพื่อใช้งานต่อแล้ว ซึ่ง data ที่ใช้สามารถใช้ Athena มา query เพื่อนำข้อมูลออกไปใช้งานต่อไปเลย และหากทุกคนสังเกตุดีๆ ทุกขั้นตอนของเราเป็นการทำแบบ Low-Code ทั้งหมด ผมเชื่อมาหลายๆคนที่เป็นมือใหม่สามารถทำตามได้ไม่ยาก หรือถ้าหากใครที่เป็นมือเก๋าก็สามารถปรับจูนตามความถนัดของตัวเองได้อีกหลากหลายเลยนะครับ


-------- Data Engineer Course ----------

ขั้นตอนที่จะทำทั้งหมดที่จะทำก็คือ

DataSet -> Customer.csv

เริ่มต้นโปรเจค -> https://www.vultureprime.com/how-to/start-first-project-with-aws-glue

สร้าง bucket และ folder สำหรับจัดเก็บไฟล์ -> https://www.vultureprime.com/how-to/how-to-create-s3-folder-and-structure

สร้าง IAM Role -> https://www.vultureprime.com/how-to/how-to-create-iam-role

สร้าง Database ใน Data Catalog -> https://www.vultureprime.com/how-to/how-to-create-database-in-glue-catalog

สร้าง Table ใน Database โดยใช้ Crawler -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler

Transform data ด้วย Glue Job -> https://www.vultureprime.com/how-to/how-to-etl-with-glue

สร้าง Table จาก ETL result -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler-2

Aa

© 2023, All Rights Reserved, VulturePrime co., ltd.