1.【开源项目】轻量元数据管理解决方案——Marquez
【开源项目】轻量元数据管理解决方案——Marquez
轻量级元数据管理解决方案——Marquez
Marquez,由WeWork开源的元数据管理工具,专为简化数据生态系统元数据的收集、聚合和可视化而设计。它提供了一个轻量级的出售源码网站元数据服务,帮助用户全面掌握数据集的购拉拉源码产生和消费情况,以及数据处理过程的可视化,并集中管理数据集的生命周期。
Marquez在持续发展中,当前标星数为1.5K,最新版本发布于三周前的0..1,主要使用Java和TS语言开发。部署方式与Java项目类似,Java源码搜索只需启动对应Web端服务和API服务。Marquez的血缘API简洁高效,便于建立数据血缘依赖关系,确保数据分析质量。换手板源码如需获取安装包、源代码及学习资料,可访问官网或使用大数据流动后台回复“Marquez”。
Marquez的LYJH公式源码安装流程简洁,通过命令行即可快速完成。启动命令如下:$ git clone github.com/MarquezProject/marquez && cd marquez$ ./docker/up.sh --seed,之后通过访问/OpenLineage/...", "schemaURL": "openlineage.io/spec/1-0..." }' 完成任务后,使用类似代码进行:$ curl -X POST /OpenLineage/...", "_schemaURL": "github.com/OpenLineage/...", "fields": [ { "name": "a", "type": "VARCHAR"}, { "name": "b", "type": "VARCHAR"} ] } } }], "producer": "github.com/OpenLineage/...", "schemaURL": "openlineage.io/spec/1-0..." }' 正常运行应接收到 CREATED的响应,并在页面上找到血缘展示。
Marquez不仅简化了元数据管理,还提供了标准的元数据采集方案,目前支持Spark、Airflow的表级别和列级别数据血缘收集,而Flink仅支持表级别的血缘收集。Marquez未来有望支持更多数据源,共同期待其发展。