Github有趣项目集锦(持续更新中)

  1. dolphinscheduler是分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。
    https://github.com/apache/incubator-dolphinscheduler
    dolphinscheduler

  2. macOS 上实用、炫酷、实用提高工作的工具。
    https://github.com/nikitavoloboev/my-mac-os

  3. 用于处理结构化文本数据(日志、JSON、YAML 等)的命令行工具列表。
    https://github.com/dbohdan/structured-text-tools

  4. 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。解决了在文本识别模型处理后,对识别结果中个别词汇错误进行纠错。https://github.com/shibing624/pycorrector

  5. Linkis是一个打通了多个计算存储引擎如:Spark、TiSpark、Hive、Python和HBase等,对外提供统一REST/WebSocket/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。
    linkis
    Linkis基于微服务架构,提供了金融级多租户隔离、资源管控、权限隔离等企业级特性,支持统一变量、UDF、函数、用户资源文件管理,具备高并发、高性能、高可用的大数据作业/请求全生命周期管理能力。
    https://github.com/WeBankFinTech/Linkis

  6. 拼音首字母缩写翻译工具,作为首字母缩写初代使用者的90后,在网络上已经完全跟不上00后所用的语言,这就太可怕了。不过不要慌,现在有了首字母缩写释义器。
    https://github.com/itorr/nbnhhsh

  7. crawlab是基于 Go 的分布式爬虫管理平台。支持 Python、Node.js、Go、Java、PHP 等多种编程语言以及多种爬虫框架。
    https://github.com/crawlab-team/crawlab
    crawlab

  8. Koalas是专为使用pandas的数据科学家而设计,可以使用pandas API在spark上运行。
    https://github.com/databricks/koalas

猜你喜欢

转载自blog.csdn.net/weixin_42526352/article/details/105533943