算法落地会涉及到原始数据加工、原始数据采集、工作流调度和缓存等,以下是今年工程化涉及到的一些开源产品、
图数据库:
HugeGraph: 开源分布式图数据存,百度开源,分布式,存储引擎依赖于第三方
dgraph:开源分布式图数据库,存储引擎自身
JanusGraph:开源的分布式图数据库
Neo4j:单机数据库
数据同步:
DataX:离线数据同步工具/平台,基于xxl-job
Canal:实现解析binlog然后同步到其他地方
Otter: 基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库.
CanalX:基于 `Canal` 的数据感知服务框架. 可用于围绕数据库`Mysql`进行数据相关的各式业务开发, 并建立各式各样的服务平台。最基础的是更新到redis,和相关的业务进行松耦合
大数据相关:
Clickhouse:新崛起的OLAP分析工具
Kylin:开源的OLAP分析工具
Apache Doris 百度贡献的在孵化器的项目
向量化产品
Milvus:海量特征向量的近似最近邻搜索(ANNS)
Faiss:facebook向量化解方案
工作流调度引擎:
Oozie: Hadoop工作流调度
xxl-job:成熟的调度工具
easy scheduler:去中心化调用引擎
缓存系统:
pika:360开源兼容redis协议的存储