เวลาที่มีคนมาปรึกษาว่าอยากจะลงมือสร้าง data pipeline จะเริ่มสร้างอย่างไร ส่วนใหญ่ผมมักจะชวนให้ลองทำ data pipeline แบบ minimal ขึ้นมาก่อน โดยการเขีย...
For further actions, you may consider blocking this person and/or reporting abuse
ดู 4 ข้อแรกแล้ว น่าสนใจครับ มีข้อสงสัยเล็กน้อย
ถ้าเรามี job ไม่ได้เยอะเท่าไหร่ก็จะ host กันไว้ที่เครื่องนั้นๆ เลยครับ แต่ส่วนใหญ่จะเป็นแยกเครื่องออกมาสัก 1 เครื่อง แต่จะเริ่มมีปัญหาตอนที่มี job มากขึ้นเรื่อยๆ แล้วมี dependency เกิดขึ้นระหว่าง job ตรงนี้เอา technology อื่น อย่างเช่น Airflow เข้ามาใช้น่าจะช่วยแก้ปัญหาได้ครับผม
มีค่าใช้จ่ายครับ ถ้าอยากใช้ฟรี ตอนนี้ผมนึกออกแค่ Heroku Scheduler
ถ้าใช้พวก cloud provider ก็อาจจะไม่ค่อยบ่อยได้ครับ 3 วันครั้งก็พอไหวอยู่ หรืออาทิตย์ละครั้ง แล้วค่อยๆ ปรับเอา แต่ถ้า host เองผมว่าช่วงแรกน่าจะบ่อยหน่อยครับ
ถ้าไปใช้ data warehouse แล้ว จะไปท่า distributed ซะเป็นส่วนใหญ่ครับ (ขนาดของข้อมูลใหญ่พอประมาณ ช่วยเรื่องประมวลผล แล้วก็กัน single point of failure) เรื่อง host นี่ไป host ที่ cloud provider ดีแล้วใช้เป็น managed service ครับ จะลดความปวดหัวไปได้เยอะ
นิยม NoSQL ครับ cost ต่ำสุดทำเป็น JSON แล้วจัดการเองอาจจะพอได้อยู่ครับ ผมเห็นส่วนใหญ่เค้าจะใช้ Apache Avro หรือไม่ก็ Protobuf ครับ ปกติผมจะเขียน script ง่ายๆ เช็ค column ถ้าเจอการเปลี่ยนแปลงก็แจ้งเตือนไรงี้ แต่ถ้าเป็นแนว Kafka ก็ใช้ schema registry ของมันเอง (Avro)
อันนี้ตอบลำบากเลยครับ เป็นแชร์ประสบการณ์ดีกว่า ผมอยู่ในสถานการณ์ที่ต้องคิดเรื่องนี้ คุยเรื่องนี้กับ business อยู่บ่อยๆ ส่วนใหญ่จะลงเอยด้วยปรับเป็น low priority เรื่องนี้ค่อนข้างยากถ้าฝั่ง business ไม่เข้าใจเรื่องพวกนี้ การคุยเรื่องพวกนี้ที่ผ่านมาถ้าผมอธิบายเริ่มจาก data pipeline ขึ้นไป drive business ก็ไม่ค่อย work เท่าไหร่ แต่ถ้าพูดคุยเรื่อง business โดยตรงเลย แล้วค่อยพูดถึง data ที่จำเป็นต้องมี ก็จะคุยง่ายขึ้น ทีนี้ก็จะคิดเรื่อง profit คิดเรื่อง cost กันต่อได้ครับ
ที่ผมคิด cost คร่าวๆ ก็ประมาณ technology อะไร? ใช้คนประมาณกี่คน? มี timeline เป็นอย่างไร นานแค่ไหน ถึงจุดไหนที่จะเริ่มเห็น data ไหลเข้ามา แล้วเค้าเริ่มเอาไปตั้งคำถามได้ จุดที่จะ turn to profit สำหรับผมคิดเมื่อ business ได้รู้อะไรใหม่ๆ จากข้อมูลที่ไหลเข้ามาครับ
ไม่แน่ใจว่าตอบคำถามบ้างไหม >_< ร่วมพูดคุยกันต่อได้นะครับ ขอบคุณครับบ~
ถ้าเป็น platform ของ google cloud สำหรับ data lineage มี service ไหนแนะนำไหมครับ
ของ GCP น่าจะชื่อ Cloud Data Fusion ครับ แต่ผมไม่เคยใช้นะ >_<
ส่วนถ้า open source ที่ผมรู้จักก็จะมี
เคยพยายามจะเซต Amundsen มาใช้ แต่ยังไม่ประสบความสำเร็จครับ ตอนนี้เลยใช้ Airflow เป็นหลัก ดูภาพรวมจาก ตัว DAG แล้วก็คอยอัพเดท metadata ต่างๆ พยายามทำ doc ให้เคลียร์ๆ ครับตอนนี้
ขอบคุณมากเลยครับ