Apache Arrow 3.0.0 发布,内存数据交换格式

Apache Arrow 3.0.0 发布了,该版本包含 2.0.0 发布以来修复的 678 个问题。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。

部分更新内容

  • [Python] 将 Combine_chunks 方法添加到 ChunkedArray
  • [Rust] [Parquet] 修复 ArrowReader 在某些时间戳类型上失败的问题
  • [R] 修复文件不存在时,read_feather 会在 R 中导致段错误的问题
  • [Rust] 不再需要缓冲区的内存对齐
  • [R] 修复 Arrow 不会释放未使用的内存的问题
  • [Python] 支持 MapType 和 StructType 以增强 PySpark 集成
  • [Rust] 添加对十进制数据类型的支持
  • [C++][Parquet] 实现 parquet::FileMetaData::Equals
  • [Python] 从支持列表中删除 Python 3.5
  • [Python] 在 PyArrow 中公开 GetRecordBatchReader API
  • [R] 为算术内核添加绑定
  • [Rust] 将其他数组类型移动到其自己的模块中

详细内容请查看更新公告

猜你喜欢

转载自www.oschina.net/news/128089/apache-arrow-3-0-0-released