[Spark版本更新]--Spark-2.3.2发布说明

2018-09-24 Apache spark又发布新版本了,看看发行说明:

sub-task

  • SPARK-24976 ] - 允许十进制类型转换null(特定于PyArrow 0.9.0)

bug

  • SPARK-23243 ] - 在RDD上随机广播+重新分区可能导致错误答案
  • SPARK-23618 ] - 建立图像时,docker-image-tool.sh失败
  • SPARK-23731 ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
  • SPARK-23732 ] - Spark Scala api Scaladoc中scala源代码的断开链接
  • SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
  • SPARK-24369 ] - 具有多个不同聚合时的错误
  • SPARK-24385 ] - Tridially -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
  • SPARK-24415 ] - 故障时阶段页面聚合执行程序指标错误
  • SPARK-24452 ] - long = int * int或long = int + int可能导致内存溢出。
  • SPARK-24468 ] - 当比例为负时,DecimalType“adjustPrecisionScale”可能会失败
  • SPARK-24495 ] - SortMergeJoin,重复键错误结果
  • SPARK-24506 ] - Spark.ui.filters未应用于/ sqlserver / url
  • SPARK-24530 ] - Sphinx无法正确呈现autodoc_docstring_signature(使用Python 2?)而pyspark.ml文档已被破坏
  • SPARK-24531 ] - 由于缺少2.2.0版本,HiveExternalCatalogVersionsSuite失败
  • SPARK-24535 ] - 修复Windows上SparkR中的java版本解析
  • SPARK-24536 ] - 使用无意义的LIMIT查询命中AssertionError
  • SPARK-24552 ] - 重试阶段时重复使用任务尝试次数
  • SPARK-24578 ] - 读取远程缓存块行为更改并导致超时问题
  • SPARK-24583 ] - InsertIntoDataSourceCommand中的架构类型错误
  • SPARK-24588 ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
  • SPARK-24589 ] - OutputCommitCoordinator可能允许重复提交
  • SPARK-24603 ] - Typo评论
  • SPARK-24613 ] - 使用UDF的缓存无法与后续的依赖缓存匹配
  • SPARK-24704 ] - DAG图表中的阶段顺序不正确
  • SPARK-24739 ] - PySpark不适用于Python 3.7.0
  • SPARK-24781 ] - 在过滤/排序中使用数据集中的引用可能不起作用。
  • SPARK- 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
  • SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
  • SPARK-24867 ] - 将AnalysisBarrier添加到DataFrameWriter
  • SPARK-24879 ] - 用于`partCol IN(NULL,....)的Hive分区过滤器下推中的NPE
  • SPARK-24889 ] - dataset.unpersist()不更新存储内存统计信息
  • SPARK-24891 ] - 修复HandleNullInputsForUDF规则
  • SPARK-24908 ] - [R]删除空格以使得快乐
  • SPARK-24909 ] - 当获取失败,执行程序丢失,丢失执行程序上的任务运行以及多个阶段尝试时,Spark调度程序可能会挂起
  • SPARK-24927 ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
  • SPARK-24934 ] - 由于缺少上/下限情况,内存中分区修剪中的复杂类型和二进制类型不起作用
  • SPARK-24948 ] - 由于权限检查,SHS错误地过滤了某些应用程序
  • SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
  • SPARK-24957 ] - 使用codegen,十进制算术可能导致错误的值
  • SPARK-24987 ] - Kafka缓存的消费者泄漏文件描述符
  • SPARK-25028 ] - 如果值为null,则AnalyzePartitionCommand因NPE失败
  • SPARK-25051 ] - 数据集的where子句给出了AnalysisException
  • SPARK-25076 ] - 不应从已停止的SparkSession中检索SQLConf
  • SPARK-25084 ] - 在多列上“分发”可能会导致代码问题
  • SPARK-25114 ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时,RecordBinaryComparator可能会返回错误的结果
  • SPARK-25124 ] - VectorSizeHint.size是错误的,打破了流媒体管道
  • SPARK-25144 ] - 由于检测到托管内存泄漏,数据集上的不同导致异常
  • SPARK-25164 ] - Parquet阅读器为每列构建一次完整的列列表
  • SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼写错误
  • SPARK-25231 ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
  • SPARK-25313 ] - 修复FileFormatWriter输出模式中的回归
  • SPARK-25330 ] - 将hadoop版本升级到2.7.7后的权限问题
  • SPARK-25357 ] - 向SparkPlanInfo添加元数据以将更多信息(如文件路径)转储到事件日志
  • SPARK-25368 ] - 不正确的约束推断返回错误的结果
  • SPARK-25371 ] - 没有输入列的矢量汇编程序导致不透明错误
  • SPARK-25402 ] - BooleanSimplification中的空值处理

new feature

  • SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件

story

  • SPARK-25234 ] - SparkR ::: parallelize不能正确处理整数溢出

improvement

  • SPARK-24455 ] - 修复TaskSchedulerImpl评论中的拼写错误
  • SPARK-24696 ] - ColumnPruning规则无法删除额外的Project
  • SPARK-25400 ] - 在schedulerIntegrationSuite中增加超时

test

  • SPARK-24502 ] - 片状测试:UnsafeRowSerializerSuite
  • SPARK-24521 ] - 修复CachedTableSuite中的无效测试
  • SPARK-24564 ] - 为RecordBinaryComparator添加测试套件

doc

  • SPARK-24507 ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
  • SPARK-25273 ] - 如何安装testthat v1.0.2

参考:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12343289

猜你喜欢

转载自blog.csdn.net/high2011/article/details/83017345