[Spark版本更新]--Spark-2.3.2发布说明

2018-09-24 Apache spark又发布新版本了，看看发行说明：

sub-task

[ SPARK-24976 ] - 允许十进制类型转换null（特定于PyArrow 0.9.0）

bug

[ SPARK-23243 ] - 在RDD上随机广播+重新分区可能导致错误答案
[ SPARK-23618 ] - 建立图像时，docker-image-tool.sh失败
[ SPARK-23731 ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
[ SPARK-23732 ] - Spark Scala api Scaladoc中scala源代码的断开链接
[ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
[ SPARK-24369 ] - 具有多个不同聚合时的错误
[ SPARK-24385 ] - Tridially -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
[ SPARK-24415 ] - 故障时阶段页面聚合执行程序指标错误
[ SPARK-24452 ] - long = int * int或long = int + int可能导致内存溢出。
[ SPARK-24468 ] - 当比例为负时，DecimalType“adjustPrecisionScale”可能会失败
[ SPARK-24495 ] - SortMergeJoin，重复键错误结果
[ SPARK-24506 ] - Spark.ui.filters未应用于/ sqlserver / url
[ SPARK-24530 ] - Sphinx无法正确呈现autodoc_docstring_signature（使用Python 2？）而pyspark.ml文档已被破坏
[ SPARK-24531 ] - 由于缺少2.2.0版本，HiveExternalCatalogVersionsSuite失败
[ SPARK-24535 ] - 修复Windows上SparkR中的java版本解析
[ SPARK-24536 ] - 使用无意义的LIMIT查询命中AssertionError
[ SPARK-24552 ] - 重试阶段时重复使用任务尝试次数
[ SPARK-24578 ] - 读取远程缓存块行为更改并导致超时问题
[ SPARK-24583 ] - InsertIntoDataSourceCommand中的架构类型错误
[ SPARK-24588 ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
[ SPARK-24589 ] - OutputCommitCoordinator可能允许重复提交
[ SPARK-24603 ] - Typo评论
[ SPARK-24613 ] - 使用UDF的缓存无法与后续的依赖缓存匹配
[ SPARK-24704 ] - DAG图表中的阶段顺序不正确
[ SPARK-24739 ] - PySpark不适用于Python 3.7.0
[ SPARK-24781 ] - 在过滤/排序中使用数据集中的引用可能不起作用。
[ SPARK- 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
[ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
[ SPARK-24867 ] - 将AnalysisBarrier添加到DataFrameWriter
[ SPARK-24879 ] - 用于`partCol IN（NULL，....）的Hive分区过滤器下推中的NPE
[ SPARK-24889 ] - dataset.unpersist（）不更新存储内存统计信息
[ SPARK-24891 ] - 修复HandleNullInputsForUDF规则
[ SPARK-24908 ] - [R]删除空格以使得快乐
[ SPARK-24909 ] - 当获取失败，执行程序丢失，丢失执行程序上的任务运行以及多个阶段尝试时，Spark调度程序可能会挂起
[ SPARK-24927 ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
[ SPARK-24934 ] - 由于缺少上/下限情况，内存中分区修剪中的复杂类型和二进制类型不起作用
[ SPARK-24948 ] - 由于权限检查，SHS错误地过滤了某些应用程序
[ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
[ SPARK-24957 ] - 使用codegen，十进制算术可能导致错误的值
[ SPARK-24987 ] - Kafka缓存的消费者泄漏文件描述符
[ SPARK-25028 ] - 如果值为null，则AnalyzePartitionCommand因NPE失败
[ SPARK-25051 ] - 数据集的where子句给出了AnalysisException
[ SPARK-25076 ] - 不应从已停止的SparkSession中检索SQLConf
[ SPARK-25084 ] - 在多列上“分发”可能会导致代码问题
[ SPARK-25114 ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时，RecordBinaryComparator可能会返回错误的结果
[ SPARK-25124 ] - VectorSizeHint.size是错误的，打破了流媒体管道
[ SPARK-25144 ] - 由于检测到托管内存泄漏，数据集上的不同导致异常
[ SPARK-25164 ] - Parquet阅读器为每列构建一次完整的列列表
[ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼写错误
[ SPARK-25231 ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
[ SPARK-25313 ] - 修复FileFormatWriter输出模式中的回归
[ SPARK-25330 ] - 将hadoop版本升级到2.7.7后的权限问题
[ SPARK-25357 ] - 向SparkPlanInfo添加元数据以将更多信息（如文件路径）转储到事件日志
[ SPARK-25368 ] - 不正确的约束推断返回错误的结果
[ SPARK-25371 ] - 没有输入列的矢量汇编程序导致不透明错误
[ SPARK-25402 ] - BooleanSimplification中的空值处理

new feature

[ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件

story

[ SPARK-25234 ] - SparkR ::: parallelize不能正确处理整数溢出

improvement

[ SPARK-24455 ] - 修复TaskSchedulerImpl评论中的拼写错误
[ SPARK-24696 ] - ColumnPruning规则无法删除额外的Project
[ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超时

test

[ SPARK-24502 ] - 片状测试：UnsafeRowSerializerSuite
[ SPARK-24521 ] - 修复CachedTableSuite中的无效测试
[ SPARK-24564 ] - 为RecordBinaryComparator添加测试套件

doc

[ SPARK-24507 ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
[ SPARK-25273 ] - 如何安装testthat v1.0.2

参考：https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12343289

[Spark版本更新]--Spark-2.3.2发布说明

sub-task

bug

new feature

story

improvement

test

doc

猜你喜欢