เริ่มต้น ETL ด้วย Glue Job

Step 1: เลือกที่ ETL Jobs กดเข้ามาเราจะเข้ามาที่ AWS Glue Studio

Step 2: เลือก Visual with source and target

Step 3: Source เลือกเป็น AWS Glue Data Catalog

Step 4: Target เลือกเป็น Amazon S3

Step 5: กด Create เพื่อเข้าหน้า Configuration

Step 6: ตั้งชื่อให้กับ Job โดยเปลี่ยนตรง Untitled job เราจะใช้ชื่อว่า “customer_etl_job“

Step 7: ใน Visual เลือก Data Catalog table

Step 8: เลือก Database (customer_database)และ Table (customer_csv) ที่เราสร้างไว้ก่อนหน้านี้

Step 9: เลือก ApplyMapping เพื่อเตรียม Transform

Step 10: ปรับ Key และ Data Type ให้อยู่ในแบบที่เราต้องการ

Step 11: เลือกที่ S3 bucket ที่เป็นปลายทางในการเก็บข้อมูล

Step 12: เลือก Format เป็น Parquet

Step 13: เลือก S3 Target Location เป็น folder parquet ที่เราสร้างไว้ ( s3://my-glue-demo-data/customer_database/parquet/ )

Step 14: ใน Tab Script คือ pyspark ที่ถูกสร้างขึ้มาจากที่เรา config ไว้ใน step ต่างๆก่อนหน้านี้

Step 15: ไปที่ Tab Job details

Step 16: เลือก IAM Role เป็น glue_full_access

Step 17: การตั้งค่าอื่นๆให้ใช้ค่า default ได้เลย

Step 18: เลื่อนลงมาตรง Advanced properties แล้ว expand ออกมา

Step 19: แก้ไข Script path เป็น folder /script ที่เราสร้างไว้ โดยการ Browse S3 ไปที่ folder

Step 20: กด Save เพื่อบันทึกการตั้งค่าทั้งหมด

Step 21: เลือกที่ Tab Runs

Step 22: กด Run job เพื่อสั่งให้ Job นี้ทำงาน

Step 23: รอให้ Job ทำงานเสร็จ

Step 24: เมื่อเข้าไป check ที่ folder parquet ใน S3 จะเจอไฟล์ที่เราทำ ETL ถูกจัดเก็บไว้

-------- Data Engineer Course ----------

ขั้นตอนที่จะทำทั้งหมดที่จะทำก็คือ

DataSet -> Customer.csv

เริ่มต้นโปรเจค -> https://www.vultureprime.com/how-to/start-first-project-with-aws-glue

สร้าง bucket และ folder สำหรับจัดเก็บไฟล์ -> https://www.vultureprime.com/how-to/how-to-create-s3-folder-and-structure

สร้าง IAM Role -> https://www.vultureprime.com/how-to/how-to-create-iam-role

สร้าง Database ใน Data Catalog -> https://www.vultureprime.com/how-to/how-to-create-database-in-glue-catalog

สร้าง Table ใน Database โดยใช้ Crawler -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler

Transform data ด้วย Glue Job -> https://www.vultureprime.com/how-to/how-to-etl-with-glue

สร้าง Table จาก ETL result -> https://www.vultureprime.com/how-to/how-to-create-table-with-glue-crawler-2

Aa

© 2023, All Rights Reserved, VulturePrime co., ltd.