跳到主要内容

2024-11 Data & AI

先从一张优秀的大数据领域全景图说起,这是 Alireza Sadeghi 在 24 年 2 月发布的开源数据工程领域的全景图,在 GitHub 上持续维护。这张图主要分为三层,底层为存储系统,中间层包括了数仓、数据集成、处理、计算和运维,上层为数据的监控、管理、分析和可视化。

大数据作为 AI 三驾马车之一,这张全景图中的每一层,都能或多或少地感知到 Data for AI 的趋势转向,其中一些项目,即是大数据领域的热门项目,也是 AI 领域的热门项目。 而 Table Format、Unity Catalog、Vector Storage 这些数据领域,可以说是在大模型时代下面向 AI 的新兴趋势。

open source

三年大数据技术项目 Top 20
#20222023Rank2024Rank
1
elastic/kibana
elastic/kibana
1
elastic/kibana
1
2
grafana/grafana
grafana/grafana
2
grafana/grafana
2
3
kubernetes/kubernetes
kubernetes/kubernetes
3
ClickHouse/ClickHouse
3increase/decrease1
4
ClickHouse/ClickHouse
ClickHouse/ClickHouse
4
apache/doris
4increase/decrease2
5
airbytehq/airbyte
airbytehq/airbyte
5
kubernetes/kubernetes
5increase/decrease2
6
cockroachdb/cockroach
apache/doris
6increase/decrease7
elastic/elasticsearch
6increase/decrease3
7
ray-project/ray
ray-project/ray
7
airbytehq/airbyte
7increase/decrease2
8
elastic/elasticsearch
cockroachdb/cockroach
8increase/decrease2
ceph/ceph
8increase/decrease3
9
ceph/ceph
elastic/elasticsearch
9increase/decrease1
apache/airflow
9increase/decrease1
10
apache/airflow
apache/airflow
10
metabase/metabase
10increase/decrease6
11
trinodb/trino
ceph/ceph
11increase/decrease2
ray-project/ray
11increase/decrease4
12
apache/spark
apache/spark
12
cockroachdb/cockroach
12increase/decrease4
13
apache/doris
trinodb/trino
13increase/decrease2
apache/spark
13increase/decrease1
14
apache/flink
supabase/supabase
14new
supabase/supabase
14
15
pingcap/tidb
yugabyte/yugabyte-db
15increase/decrease2
pola-rs/polars
15increase/decrease3
16
apache/beam
metabase/metabase
16new
dagster-io/dagster
16new
17
yugabyte/yugabyte-db
pingcap/tidb
17increase/decrease2
apache/kafka
17new
18
apache/superset
pola-rs/polars
18new
trinodb/trino
18increase/decrease5
19
apache/hudi
apache/hudi
19
milvus-io/milvus
19new
20
apache/pulsar
apache/beam
20increase/decrease4
opensearch-project/OpenSearch
20new

项目关联网络

下图选取了 10 个顶尖的大数据项目为种子节点,通过共同开发者向外寻找开源项目,构建一个项目关联网络,其中节点和边的过滤值都是 40。

Data4AI 项目关联网络

下图为 Open Source Data Engineering Landscape 2024 中的项目之间的关联生态网络,其中节点和边的过滤值都是 10。

Data Engineering Landscape 项目关联网络

项目发展趋势对比

1. Table Format

2.Search Engine

OpenSearch & ElasticSearch 贡献厂商对比

OpenSearch 2024 厂商贡献度 Top 100 分布

ElasticSearch 2024 厂商贡献度 Top 100 分布

3. Vector Storage

4. Metadata Management (Catalog)

5. Graph Database