DEV Community

Atsumi
Atsumi

Posted on

1

Data Catalog Tagについて調べた(2020/04/10)

調査の意図

  • カラムの統計値など、メタデータの拡充と管理がしたい
  • LyftのamundsenやLinkedinのdatahubのようなものはデカすぎるかつ、将来的にはGCPのData Catalogが同等の機能を有するので、できれば避けたい
    • コチラ に詳しくまとめられていた。ありがたい
  • data catalogのtagを使うと任意のメタデータを設定できそうなので調べてみる

Tag

  • 型ありのメタデータをテーブルやカラムに付与可能
  • tag templateを設定しないと付与できない

Tag template

  • templateを作った上で、tableもしくはcolumnに付与する
  • 複数のテンプレートを付与できる
  • テンプレートはあとでフィールド追加・削除可能
  • テンプレートはあとでREQUIRED制約を外すことが可能
    • 逆は不可能
  • 削除は、テンプレート付与済みのテーブル・カラムにも影響を与える
  • 設定した値は、catalogの対象テーブル上でのみ閲覧可能。グラフ化などもないので、可視化はかなり弱い
  • APIで操作可能

一旦の結論

  • Data Catalogを、LyftのamundsenやLinkedinのdatahubのような本格的なメタデータ管理として使うのはまだ難しそう。
  • Data Catalogにメタデータを集中しつつ、メタデータクローラーとビューアを簡易なもので別建てで作るのが妥当か

Top comments (0)

Heroku

This site is built on Heroku

Join the ranks of developers at Salesforce, Airbase, DEV, and more who deploy their mission critical applications on Heroku. Sign up today and launch your first app!

Get Started

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay