[Spark版本更新]--Spark-2.4.0 发布说明

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考：

Sub-task

[ SPARK-6236 ] - 支持大于2G的缓存块
[ SPARK-6237 ] - 支持上传块> 2GB作为流
[ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测
[ SPARK-11239 ] - 用于ML线性回归的PMML导出
[ SPARK-12850 ] - 支持桶修剪（对于分块表的谓词下推）
[ SPARK-14376 ] - 树木的spark.ml奇偶校验
[ SPARK-14540 ] - 在ClosureCleaner中支持Scala 2.12闭包和Java 8 lambda
[ SPARK-17091 ] - 将IN谓词转换为等效的Parquet过滤器
[ SPARK-19826 ] - 用于PIC的spark.ml Python API
[ SPARK-20114 ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan
[ SPARK- 21088] - CrossValidator，TrainValidationSplit应该在拟合时收集所有模型：Python API
[ SPARK-21898 ] - MLlib中KolmogorovSmirnovTest的特征奇偶校验
[ SPARK-22187 ] - 更新已保存状态的unsaferow格式，以便在state为null时设置超时
[ SPARK-22239 ] - 用户定义的窗口函数，带有pandas udf（无界窗口）
[ SPARK-22274 ] - 用户定义的聚合函数与pandas udf
[ SPARK-22362 ] - 为窗口聚合函数添加单元测试
[ SPARK-22624 ] - 由SPARK- 22614引入的曝光范围分区随机播放
[ SPARK-23011 ] - 支持具有组聚合熊猫UDF的替代功能表单
[ SPARK-23030 ] - 使用箭头使用toPandas（）集合减少内存消耗
[ SPARK-23046 ] - RFormula包含VectorSizeHint管道
[ SPARK-23096 ] - 将速率源迁移到v2
[ SPARK-23097 ] - 将文本套接字源迁移到v2
[ SPARK-23099 ] - 迁移foreach接收器
[ SPARK-23120 ] - 向PySpark添加PMML管道导出支持
[ SPARK-23203 ] - DataSourceV2应该使用不可变树。
[ SPARK-23323 ] - DataSourceV2应使用输出提交协调器。
[ SPARK-23325 ] - DataSourceV2读者应始终生成InternalRow。
[ SPARK-23341 ] - DataSourceOptions应处理路径和表名以避免混淆。
[ SPARK-23344 ] - 将KMeans distanceMeasure param添加到PySpark
[ SPARK-23352 ] - 在Pandas UDF中明确指定支持的类型
[ SPARK-23362 ] - 将Kafka 微量滴定源迁移至v2
[ SPARK-23380 ] - 使用Pandas DataFrame为toPandas / createDataFrame中的箭头回退添加一个conf
[ SPARK-23401 ] - 改进所有支持类型和不支持类型的测试用例
[ SPARK-23418 ] - 如果没有ReadSupportWithSchema，DataSourceV2不应允许userSpecifiedSchema
[ SPARK-23491 ] - 连续症状
[ SPARK-23503 ] - 连续执行应该对提交的时期进行排序
[ SPARK-23555 ] - 在PySpark中为Arrow添加BinaryType支持
[ SPARK-23559 ] - 将epoch ID添加到数据编写器工厂
[ SPARK-23577 ] - 支持文本数据源的行分隔符
[ SPARK-23581 ] - 添加GenerateUnsafeProjection的解释版本
[ SPARK-23582 ] - 将解释执行添加到StaticInvoke表达式
[ SPARK-23583 ] - 将解释执行添加到Invoke表达式
[ SPARK-23584 ] - 将解释执行添加到NewInstance表达式
[ SPARK-23585 ] - 为UnwrapOption表达式添加解释执行
[ SPARK-23586 ] - 为WrapOption表达式添加解释执行
[ SPARK-23587 ] - 为MapObjects表达式添加解释执行
[ SPARK-23588 ] - 为CatalystToExternalMap表达式添加解释执行
[ SPARK-23589 ] - 为ExternalMapToCatalyst表达式添加解释执行
[ SPARK-23590 ] - 为CreateExternalRow表达式添加解释执行
[ SPARK-23591 ] - 为EncodeUsingSerializer表达式添加解释执行
[ SPARK- 23592] - 为DecodeUsingSerializer表达式添加解释执行
[ SPARK-23593 ] - 为InitializeJavaBean表达式添加解释执行
[ SPARK-23594 ] - 为GetExternalRowField表达式添加解释执行
[ SPARK-23595 ] - 为ValidateExternalType表达式添加解释执行
[ SPARK-23596 ] - 修改数据集测试工具以包括解释执行
[ SPARK-23597 ] - 针对非解释表达式的Audit Spark SQL代码库
[ SPARK-23611 ] - 扩展ExpressionEvalHelper线束以测试故障
[ SPARK-23615 ] - 将maxDF参数添加到Python CountVectorizer
[ SPARK-23633 ] - 在sql-programming-guide中更新Pandas UDFs部分
[ SPARK-23687 ] - 添加MemoryStream
[ SPARK-23688 ] - 重构测试远离费率来源
[ SPARK-23690 ] - VectorAssembler应该有handleInvalid来处理具有空值的列
[ SPARK-23706 ] - spark.conf.get（value，default = None）应该在PySpark中产生None
[ SPARK-23711 ] - 向已解释的执行逻辑添加回退
[ SPARK- 23713] - 清理UnsafeWriter类
[ SPARK-23723 ] - json数据源的新编码选项
[ SPARK-23724 ] - 不同于UTF-8的字符集中jsons的自定义记录分隔符
[ SPARK-23727 ] - 支持DATE预测压下镶木地板
[ SPARK-23736 ] - 高阶函数：concat（array1，array2，...，arrayN）→数组
[ SPARK-23747 ] - 添加EpochCoordinator单元测试
[ SPARK-23748 ] - 支持从临时表中选择
[ SPARK-23762 ] - UTF8StringBuilder使用MemoryBlock
[ SPARK-23765 ] - 支持json数据源的行分隔符
[ SPARK-23783 ] - 为ML管道添加新的通用导出特性
[ SPARK-23807 ] - 添加Hadoop 3配置文件以及相关的POM修复程序
[ SPARK-23821 ] - 高阶函数：展平（x）→数组
[ SPARK-23826 ] - TestHiveSparkSession应设置默认会话
[ SPARK-23847 ] - 将asc_nulls_first，asc_nulls_last添加到PySpark
[ SPARK-23859 ] - 仪表改进的初始PR：UUID和日志记录级别
[ SPARK-23864 ] - 将不安全*复制方法添加到UnsafeWriter
[ SPARK-23870 ] - 将RFormula handleInvalid Param转发给VectorAssembler
[ SPARK-23871 ] - 为VectorAssembler handleInvalid添加python api
[ SPARK- 23900] - format_number udf应将用户指定的格式作为参数
[ SPARK-23902 ] - 在UDF之间的months_中提供一个选项以禁用舍入
[ SPARK-23903 ] - 添加对日期提取的支持
[ SPARK-23905 ] - 工作日添加UDF
[ SPARK-23908 ] - 高阶函数：transform（array <T>，function <T，U>）→array <U>
[ SPARK-23909 ] - 高阶函数：filter（array <T>，function <T，boolean>）→array <T>
[ SPARK-23911 ] - 高阶函数：aggregate（array <T>，initialState S，inputFunction <S，T，S>，outputFunction <S，R>）→R
[ SPARK-23912 ] - 高阶函数：array_distinct（x）→数组
[ SPARK-23913 ] - 高阶函数：array_intersect（x，y）→数组
[ SPARK-23914 ] - 高阶函数：array_union（x，y）→数组
[ SPARK-23915 ] - 高阶函数：array_except（x，y）→数组
[ SPARK-23916 ] - 高阶函数：array_join（x，delimiter，null_replacement）→varchar
[ SPARK-23917 ] - 高阶函数：array_max（x）→x
[ SPARK-23918 ] - 高阶函数：array_min（x）→x
[ SPARK-23919 ] - 高阶函数：array_position（x，element）→bigint
[ SPARK-23920 ] - 高阶函数：array_remove（x，element）→数组
[ SPARK-23921 ] - 高阶函数：array_sort（x）→数组
[ SPARK-23922 ] - 高阶函数：arrays_overlap（x，y）→布尔值
[ SPARK-23923 ] - 高阶函数：基数（x）→bigint
[ SPARK-23924 ] - 高阶函数：element_at
[ SPARK-23925 ] - 高阶函数：重复（元素，计数）→数组
[ SPARK-23926 ] - 高阶函数：反向（x）→数组
[ SPARK-23927 ] - 高阶函数：序列
[ SPARK-23928 ] - 高阶函数：shuffle（x）→数组
[ SPARK-23930 ] - 高阶函数：切片（x，开始，长度）→数组
[ SPARK-23931 ] - 高阶函数：array_zip（array1，array2 [，...]）→数组<row>
[ SPARK-23932 ] - 高阶函数：zip_with（数组<T>，数组<U>，函数<T，U，R>）→数组<R>
[ SPARK-23933 ] - 高阶函数：map（数组<K>，数组<V>）→map <K，V>
[ SPARK-23934 ] - 高阶函数：map_from_entries（array <row <K，V >>）→map <K，V>
[ SPARK-23936 ] - 高阶函数：map_concat（map1 <K，V>，map2 <K，V>，...，mapN <K，V>）→map <K，V>
[ SPARK-23942 ] - PySpark的collect不会触发QueryExecutionListener
[ SPARK-23990 ] - 仪器记录改进 - ML回归包
[ SPARK-24026 ] - 用于PIC的spark.ml Scala / Java API
[ SPARK-24038 ] - 重构连续写exec到自己的类
[ SPARK-24039 ] - 删除重启迭代器hack
[ SPARK-24040 ] - 支持单分区聚合
[ SPARK-24054 ] - 添加array_position函数/ element_at函数
[ SPARK-24069 ] - 添加array_max / array_min函数
[ SPARK-24070 ] - 用于Parquet 1.10.0升级的TPC-DS性能测试
[ SPARK-24071 ] - 木地板过滤器下推的微观基准
[ SPARK-24073 ] - DataSourceV2：将DataReaderFactory重命名为InputPartition。
[ SPARK-24115 ] - 改进spark.ml.tuning的仪器
[ SPARK-24119 ] - 将解释执行添加到SortPrefix表达式
[ SPARK-24132 ] - 用于分类的仪表改进
[ SPARK-24146 ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan：Python API
[ SPARK-24155 ] - 用于聚类的仪表改进
[ SPARK-24157 ] - 为流聚合和重复数据删除启用无数据微批
[ SPARK-24158 ] - 为流连接启用无数据微批量
[ SPARK-24159 ] - 为流式传输mapGroupswithState启用无数据微批量
[ SPARK-24185 ] - 增加拼合功能
[ SPARK-24186 ] - 添加array_reverse和concat
[ SPARK-24187 ] - 添加array_join
[ SPARK-24197 ] - 添加array_sort函数
[ SPARK-24198 ] - 添加切片功能
[ SPARK-24234 ] - 使用行缓冲区创建任务底部RDD
[ SPARK-24235 ] - 创建任务顶级RDD，将行发送到远程缓冲区
[ SPARK-24251 ] - DataSourceV2：添加AppendData逻辑运算
[ SPARK-24290 ] - 检测改进：使用数组类型添加logNamedValue
[ SPARK-24296 ] - 支持复制大于2 GB的块
[ SPARK-24297 ] - 将spark.maxRemoteBlockSizeFetchToMem的默认值更改为<2GB
[ SPARK-24307 ] - 支持从内存发送超过2GB的消息
[ SPARK-24310 ] - 频繁模式挖掘的仪器
[ SPARK-24324 ] - Pandas Grouped Map UserDefinedFunction混合列标签
[ SPARK-24325 ] - 测试Hadoop的LinesReader
[ SPARK-24331 ] - 添加arrays_overlap / array_repeat / map_entries
[ SPARK-24334 ] - ArrowPythonRunner中的竞争条件导致Arrow内存分配器的不正常关闭
[ SPARK-24386 ] - 实施连续加工合并（1）
[ SPARK-24418 ] - 升级到Scala 2.11.12
[ SPARK-24419 ] - 使用Scala 2.10.7将SBT升级到0.13.17
[ SPARK-24420 ] - 将ASM升级到6.x以支持JDK9 +
[ SPARK-24439 ] - 将距离测量添加到PySpark中的BisectingKMeans
[ SPARK-24478 ] - DataSourceV2应在物理计划转换时推送过滤器和投影
[ SPARK-24537 ] - 添加array_remove / array_zip / map_from_arrays / array_distinct
[ SPARK-24549 ] - 支持DecimalType下推到镶木地板数据源
[ SPARK-24624 ] - 无法混合矢量化和非矢量化UDF
[ SPARK-24638 ] - StringStartsWith支持下推
[ SPARK-24706 ] - 支持ByteType和ShortType下推到镶木地板
[ SPARK-24716 ] - 重构ParquetFilters
[ SPARK-24718 ] - 时间戳支持下推到镶木地板数据源
[ SPARK-24771 ] - 将AVRO版本从1.7.7升级到1.8.2
[ SPARK-24772 ] - 支持读取AVRO逻辑类型 - 日期
[ SPARK-24773 ] - 支持读取AVRO逻辑类型 - 具有不同精度的时间戳
[ SPARK-24774 ] - 支持读取AVRO逻辑类型 - 十进制
[ SPARK-24776 ] - AVRO单元测试：使用SQLTestUtils和Replace弃用方法
[ SPARK-24777 ] - 为AVRO添加写入基准
[ SPARK-24800 ] - 重构Avro串行器和解串器
[ SPARK-24805 ] - 默认情况下，不要忽略没有.avro扩展名的文件
[ SPARK-24810 ] - 修复AvroSuite中资源文件的路径
[ SPARK- 24811] - 添加函数`from_avro`和`to_avro`
[ SPARK-24836 ] - 新选项 - ignoreExtension
[ SPARK-24854 ] - 将所有选项收集到AvroOptions中
[ SPARK-24876 ] - 简化架构序列化
[ SPARK-24881 ] - 新选项 - 压缩和压缩级别
[ SPARK-24883 ] - 删除隐式类AvroDataFrameWriter / AvroDataFrameReader
[ SPARK-24887 ] - 在Spark util中使用SerializableConfiguration
[ SPARK-24924 ] - 为内置Avro数据源添加映射
[ SPARK-24967 ] - 使用internal.Logging代替记录
[ SPARK-24971 ] - 删除SupportsDeprecatedScanRow
[ SPARK-24976 ] - 允许十进制类型转换无（特定于PyArrow 0.9.0）
[ SPARK-24990 ] - 合并ReadSupport和ReadSupportWithSchema
[ SPARK-24991 ] - 在DataSourceWriter中使用InternalRow
[ SPARK-25002 ] - Avro：修改输出记录名称空间
[ SPARK-25007 ] - 将array_intersect / array_except / array_union / array_shuffle添加到SparkR
[ SPARK-25029 ] - Scala 2.12问题：TaskNotSerializable和Janino“两个非抽象方法......”错误
[ SPARK-25044 ] - 在Scala 2.12中将LMF闭包原语args的地址转换为Object
[ SPARK-25047 ] - 在BucketedRandomProjectionLSHModel的反序列化中无法将SerializedLambda分配给scala.Function1
[ SPARK-25068 ] - 高阶函数：存在（数组<T>，函数<T，布尔值>）→布尔值
[ SPARK-25099 ] - 在测试套件中生成Avro二进制文件
[ SPARK-25104 ] - 验证用户指定的输出模式
[ SPARK-25127 ] - DataSourceV2：删除SupportsPushDownCatalystFilters
[ SPARK-25133 ] - Documentaion：AVRO数据源指南
[ SPARK-25160 ] - 删除sql配置spark.sql.avro.outputTimestampType
[ SPARK-25179 ] - 记录需要Pyarrow 0.10的功能
[ SPARK-25207 ] - 读取Parquet时滤波器下推的不区分大小写字段分辨率
[ SPARK-25256 ] - 计划2.12中Hive测试中的不匹配错误
[ SPARK-25298 ] - Scala 2.12的spark-tools构建失败
[ SPARK-25304 ] - 为Scala 2.12启用HiveSparkSubmitSuite SPARK-8489测试
[ SPARK-25320 ] - ML，图2.4 QA：API：二进制不兼容的更改
[ SPARK-25321 ] - ML，图2.4 QA：API：新的Scala API，docs
[ SPARK-25324 ] - ML 2.4 QA：API：Java兼容性，文档
[ SPARK-25328 ] - 添加一个示例，将两列作为组聚合pandas UDF中的分组键
[ SPARK-25337 ] - HiveExternalCatalogVersionsSuite + Scala 2.12 = NoSuchMethodError：org.apache.spark.sql.execution.datasources.FileFormat。$ init $（Lorg / apache / spark / sql / execution / datasources / FileFormat;）
[ SPARK-25460 ] - DataSourceV2：结构化流媒体不尊重SessionConfigSupport
[ SPARK-25601 ] - 为SQL语句注册Grouped聚合UDF向量化UDF
[ SPARK-25690 ] - 分析器规则“HandleNullInputsForUDF”不稳定，可以无限应用
[ SPARK-25718 ] - 检测Avro架构中的递归引用并抛出异常
[ SPARK-25842 ] - 弃用SPARK-21608中引入的API

Bug

[ SPARK-6951 ] - 如果事件日志目录很大，则历史服务器启动缓慢
[ SPARK-10878 ] - 通过Ivy解决Maven坐标时的竞争条件
[ SPARK-15125 ] - CSV数据源将输入中的空引用字符串识别为空。
[ SPARK-15750 ] - 在pyspark中未指定numPartitions时，构造FPGrowth失败
[ SPARK-16451 ] - 当“SaslException：GSS启动失败”被击中时，Spark-shell / pyspark应该正常完成
[ SPARK-17088 ] - 当sharesHadoopClasses为false时，IsolatedClientLoader无法加载Hive客户端
[ SPARK-17147 ] - Spark Streaming Kafka 0.10 Consumer无法处理非连续偏移（即Log Compaction）
[ SPARK-17166 ] - 转换为数据源表后，CTAS丢失了表属性。
[ SPARK-17756 ] - 使用带有DStream.transform的笛卡儿时的java.lang.ClassCastException
[ SPARK-17916 ] - 无论nullValue选项是什么，CSV数据源都将空字符串视为空
[ SPARK-18371 ] - Spark Streaming backpressure bug - 生成一个包含大量记录的批处理
[ SPARK-18630 ] - PySpark ML内存泄漏
[ SPARK-19181 ] - 当average executorDeserializeTime太短时，SparkListenerSuite.local指标失败。
[ SPARK-19185 ] - 窗口化时与CachedKafkaConsumers的ConcurrentModificationExceptions
[ SPARK-19613 ] - 片状测试：StateStoreRDDSuite
[ SPARK-20947 ] - PySpark管道实现中的编码/解码问题
[ SPARK-21168 ] - KafkaRDD应该始终设置kafka clientId。
[ SPARK-21402 ] - 修复结构反序列化的java数组
[ SPARK-21479 ] - 当条件位于其中一个连接列上时，外部连接过滤器下推空值提供表
[ SPARK-21525 ] - ReceiverSupervisorImpl在写入WAL时似乎忽略了错误代码
[ SPARK-21673 ] - 未正确设置Spark本地目录
[ SPARK-21685 ] - 在pyspark中由_setDefault触发的scala变换器中的Params设置
[ SPARK-21743 ] - 最高限制不应导致内存泄漏
[ SPARK-21811 ] - 查找DateType，StringType和NumericType组合的最广泛常见类型时的不一致
[ SPARK-21896 ] - 当窗口函数嵌套在聚合函数内时，Stack Overflow
[ SPARK-21945 ] - pyspark --py-files在纱线客户端模式下不起作用
[ SPARK-22151 ] - 未正确从spark.yarn.appMasterEnv中拾取PYTHONPATH
[ SPARK-22279 ] - 默认打开spark.sql.hive.convertMetastoreOrc
[ SPARK-22297 ] - Flaky测试：BlockManagerSuite“Shuffle registration timeout和maxAttempts conf”
[ SPARK-22357 ] - SparkContext.binaryFiles忽略minPartitions参数
[ SPARK-22371 ] - dag-scheduler-event-loop线程因错误而停止尝试访问垃圾回收累加器5605982
[ SPARK-22384 ] - 在Cast中包含属性时优化分区修剪
[ SPARK-22430 ] - 使用Roxygen 6.0.1构建R docs时出现未知标记警告
[ SPARK-22577 ] - 执行程序页面黑名单状态应使用TaskSet级别黑名单进行更新
[ SPARK-22676 ] - 当spark.sql.hive.verifyPartitionPath = true时，避免迭代所有分区路径
[ SPARK-22713 ] - 由TaskMemoryManager中的内存争用和内存泄漏引起的OOM
[ SPARK-22809 ] - pyspark对带点的进口很敏感
[ SPARK-22949 ] - 降低TrainValidationSplit的内存要求
[ SPARK-22968 ] - java.lang.IllegalStateException：没有分区kssh-2的当前分配
[ SPARK-22974 ] - CountVectorModel不会将属性附加到输出列
[ SPARK-23004 ] - 结构化流引发“llegalStateException：在已经提交或中止后无法删除”
[ SPARK-23007 ] - 为基于文件的数据源添加模式演化测试套件
[ SPARK-23020 ] - 重新启用Flaky Test：org.apache.spark.launcher.SparkLauncherSuite.testInProcessLauncher
[ SPARK-23028 ] - 将主分支版本转换为2.4.0-SNAPSHOT
[ SPARK-23038 ] - 更新docker / spark-test（JDK / OS）
[ SPARK-23042 ] - 使用OneHotEncoderModel对MultilayerPerceptronClassifier中的标签进行编码
[ SPARK-23044 ] - 合并脚本在将jiras分配给非贡献者时有错误
[ SPARK-23059 ] - 使用与视图相关的方法用法纠正一些不当行为
[ SPARK-23088 ] - 历史记录服务器未显示不完整/正在运行的应用程序
[ SPARK-23094 ] - 当存在错误记录并且失败时，Json读者选择错误的编码
[ SPARK-23152 ] - org.apache.spark.ml.classification.Classifier中的保护条件无效
[ SPARK- 23173] - from_json可以为标记为不可为空的字段生成空值
[ SPARK-23189 ] - 反映执行者选项卡上的阶段级别黑名单
[ SPARK-23200 ] - 从检查点重新启动时重置配置
[ SPARK- 23240] - 当pyspark.daemon产生伪造的stdout时，PythonWorkerFactory发出无用的消息
[ SPARK-23243 ] - 在RDD上随机播放+重新分区可能导致错误答案
[ SPARK-23271 ] - 空白DataFrame保存后，Parquet输出仅包含“_SUCCESS”文件
[ SPARK-23288 ] - 结构化流式传输中写入记录的数量不正确
[ SPARK-23291 ] - SparkR：substr：在SparkR数据帧中，当位置大于1时，“substr”中的起始和结束位置参数给出错误的结果
[ SPARK-23306 ] - TaskMemoryManager中的竞争条件
[ SPARK-23340 ] - 将Apache ORC升级到1.4.3
[ SPARK-23355 ] - convertMetastore不应忽略表属性
[ SPARK-23361 ] - 如果在应用提交后7天内发生驱动程序重启失败
[ SPARK-23365 ] - 在落后任务中失败的DynamicAllocation可能导致挂起的火花作业
[ SPARK-23377 ] - Bucketizer具有多列持久性错误
[ SPARK-23394 ] - 存储信息的缓存分区不考虑复制（但sc.getRDDStorageInfo确实如此）
[ SPARK-23405 ] - 当一张小桌子半连接一张大桌子时，任务将挂断
[ SPARK-23406 ] - 流媒体自连接不起作用
[ SPARK-23408 ] - 片状测试：StreamingOuterJoinSuite.left外部早期状态排除在右侧
[ SPARK-23415 ] - BufferHolderSparkSubmitSuite是片状的
[ SPARK-23416 ] - Flaky测试：KafkaSourceStressForDontFailOnDataLossSuite.stress测试failOnDataLoss = false
[ SPARK-23417 ] - pyspark测试给出错误的sbt指令
[ SPARK-23425 ] - 使用通配符使用的hdfs文件路径的加载数据无法正常工作
[ SPARK-23433 ] - java.lang.IllegalStateException：阶段的多个活动taskSet
[ SPARK-23434 ] - Spark不应警告“元数据目录”以获取HDFS文件路径
[ SPARK-23436 ] - 不正确的日期列分区发现中的推断
[ SPARK-23438 ] - 当驱动程序崩溃时，DStreams可能会在启用WAL时丢失块
[ SPARK-23449 ] - 在Docker上下文中，额外的java选项会丢失顺序
[ SPARK-23457 ] - 首先为ParquetFileFormat注册任务完成侦听器
[ SPARK-23459 ] - 在分区列中指定未知列时改进错误消息
[ SPARK-23461 ] - 小插曲应包括某些ML模型的模型预测
[ SPARK-23462 ] - 改进`StructType`中的错误消息
[ SPARK-23476 ] - Spark无法在本地模式下启动并启用身份验证
[ SPARK-23486 ] - LookupFunctions不应多次检查相同的函数名称
[ SPARK-23489 ] - 片状测试：HiveExternalCatalogVersionsSuite
[ SPARK-23490 ] - 使用CreateTable中的现有表检查storage.locationUri
[ SPARK-23496 ] - 合并分区的位置可能会因输入分区的顺序而严重偏斜
[ SPARK- 23508] - BlockManagerId中的blockManagerIdCache可能会导致oom
[ SPARK-23514 ] - 用spark.sessionState.newHadoopConf（）替换spark.sparkContext.hadoopConfiguration
[ SPARK-23522 ] - pyspark应该始终使用sys.exit而不是退出
[ SPARK-23523 ] - 规则OptimizeMetadataOnlyQuery导致的结果不正确
[ SPARK-23524 ] - 不应检查大型本地随机块是否存在损坏。
[ SPARK-23525 ] - ALTER TABLE CHANGE COLUMN不适用于外部蜂巢表
[ SPARK-23547 ] - 在Hive会话关闭时清除.pipeout文件
[ SPARK-23549 ] - 将timestamp与日期进行比较时，Spark SQL意外行为
[ SPARK-23551 ] - 从`orc-mapreduce中排除`hadoop-mapreduce-client-core`依赖项
[ SPARK-23569 ] - pandas_udf不适用于带类型注释的python函数
[ SPARK-23570 ] - 在HiveExternalCatalogVersionsSuite中添加Spark-2.3
[ SPARK-23574 ] - 数据源V2扫描中的SinglePartition
[ SPARK- 23598] - WholeStageCodegen可能导致IllegalAccessError调用追加HashAggregateExec
[ SPARK-23599 ] - UUID（）表达式过于不确定
[ SPARK- 23602] - PrintToStderr在解释模式下的行为应相同
[ SPARK-23608 ] - SHS需要attachSparkUI和detachSparkUI函数之间的同步
[ SPARK-23614 ] - 使用缓存时，Union会产生不正确的结果
[ SPARK-23618 ] - 建立图像时，docker-image-tool.sh失败
[ SPARK-23620 ] - 使用br标签拆分线程转储线
[ SPARK-23623 ] - 避免在CachedKafkaConsumer中同时使用缓存的KafkaConsumer（kafka-0-10-sql）
[ SPARK-23630 ] - Spark-on-YARN缺少hadoop配置的用户自定义
[ SPARK-23635 ] - Spark执行器env变量被同名AM env变量覆盖
[ SPARK-23637 ] - 如果同一个执行者被多次杀死，纱线可能会分配更多资源。
[ SPARK-23639 ] - 使用代理用户时，SparkSQL CLI无法与Kerberized Metastore通信
[ SPARK-23640 ] - Hadoop配置可能会覆盖spark配置
[ SPARK-23649 ] - 某些UTF-8字符上的CSV架构推断失败
[ SPARK-23658 ] - InProcessAppHandle在getLogger中使用了错误的类
[ SPARK-23660 ] - 当应用程序很小时，Yarn在群集模式下抛出异常
[ SPARK-23666 ] - 带有UDF的不确定列名
[ SPARK-23670 ] - sparkUI中SparkPlanGraphWrapper的内存泄漏
[ SPARK-23671 ] - SHS忽略了重播线程的数量
[ SPARK-23679 ] - 在YARN上运行时，uiWebUrl显示不正确的URL
[ SPARK-23680 ] - entrypoint.sh不接受任意UID，作为错误返回
[ SPARK-23697 ] - Spark 1.x的累加器不再适用于Spark 2.x.
[ SPARK-23698 ] - Spark代码在Python 3中包含许多未定义的名称
[ SPARK-23729 ] - 全局解析会破坏文件/档案的远程命名
[ SPARK-23731 ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
[ SPARK-23732 ] - Spark Scala api Scaladoc中scala源代码的断开链接
[ SPARK-23743 ] - IsolatedClientLoader.isSharedClass对`slf4j`关键字返回一个未缩进的结果
[ SPARK-23754 ] - Python UDF中的StopIterator异常导致部分结果
[ SPARK-23759 ] - 无法将Spark UI绑定到特定主机名/ IP
[ SPARK-23760 ] - CodegenContext.withSubExprEliminationExprs应正确保存/恢复CSE状态
[ SPARK-23775 ] - Flaky测试：DataFrameRangeSuite
[ SPARK-23778 ] - SparkContext.emptyRDD混淆了SparkContext.union
[ SPARK-23780 ] - 无法将googleVis库与新SparkR一起使用
[ SPARK-23785 ] - LauncherBackend在设置状态之前不检查连接状态
[ SPARK-23786 ] - CSV架构验证 - 不检查列名称
[ SPARK-23787 ] - SparkSubmitSuite ::“如果纱线不支持则下载远程资源”在Hadoop 2.9上失败
[ SPARK-23788 ] - StreamingQuerySuite中的竞争条件
[ SPARK-23794 ] - UUID（）应该是有状态的
[ SPARK-23799 ] - [CBO] FilterEstimation.evaluateInSet在空表的情况下产生零除数，并带有分析的统计数据
[ SPARK-23802 ] - PropagateEmptyRelation可以使查询计划处于未解决状态
[ SPARK-23806 ] - 广播。与动态分配一起使用时，unpersist可能会导致致命异常
[ SPARK-23808 ] - 测试火花会话应设置默认会话
[ SPARK-23809 ] - 应该通过getOrCreate设置Active SparkSession
[ SPARK-23815 ] - Spark编写器动态分区覆盖模式无法在多级分区上写入输出
[ SPARK-23816 ] - 杀死推测任务时的FetchFailedException
[ SPARK-23823 ] - ResolveReferences失去了正确的来源
[ SPARK-23825 ] - [K8s] Spark pod应该请求内存+ memoryOverhead作为资源
[ SPARK-23827 ] - StreamingJoinExec应确保输入数据被分区为特定数量的分区
[ SPARK-23834 ] - Flaky测试：LauncherServerSuite.testAppHandleDisconnect
[ SPARK-23835 ] - 当Dataset.as将列从可空类型转换为非可空类型时，null双打将以静默方式转换为-1
[ SPARK-23850 ] - 默认情况下，我们不应该从UI编辑用户名|用户| url
[ SPARK-23852 ] - Parquet MR错误可导致错误的SQL结果
[ SPARK-23853 ] - 跳过需要在PySpark中构建的hive支持的doctests
[ SPARK-23857 ] - 在mesos集群模式下，spark submit要求keytab在本地文件系统上可用。
[ SPARK-23868 ] - 修复literals.sql.out中的scala.MatchError
[ SPARK-23882 ] - 是否支持UTF8StringSuite.writeToOutputStreamUnderflow（）？
[ SPARK-23888 ] - 推测任务不应该在已经运行另一次尝试的给定主机上运行
[ SPARK-23893 ] - long = int * int可能溢出
[ SPARK-23941 ] - 特定火花应用名称上的Mesos任务失败
[ SPARK-23951 ] - 使用ExprValue中的java分类并简化一堆内容
[ SPARK-23971 ] - 不应在测试套件中泄漏Spark会话
[ SPARK-23975 ] - 允许群集将双数组作为输入要素
[ SPARK-23976 ] - UTF8String.concat（）或ByteArray.concat（）可能会分配更短的结构。
[ SPARK-23986 ] - 加入后使用过多avg聚合时出现CompileException
[ SPARK-23989 ] - 使用`SortShuffleWriter`时，数据将被覆盖
[ SPARK-23991 ] - allocateBlocksToBatch时数据丢失
[ SPARK-23997 ] - 可配置的最大桶数
[ SPARK-24002 ] - 由org.apache.parquet.io.api.Binary $ ByteBufferBackedBinary.getBytes引起的任务不可序列化
[ SPARK-24007 ] - FloatType和DoubleType的EqualNullSafe可能会由codegen生成错误的结果。
[ SPARK-24012 ] - 联盟地图和其他兼容专栏
[ SPARK-24013 ] - ApproximatePercentile在排序输入上停止研磨。
[ SPARK-24021 ] - 修复BlacklistTracker的updateBlacklistForFetchFailure中的错误
[ SPARK-24022 ] - Flaky测试：SparkContextSuite
[ SPARK-24033 ] - 在Spark 2.3中破坏了LAG窗口功能
[ SPARK-24043 ] - 如果表达式树包含非确定性表达式，则InterpretedPredicate.eval失败
[ SPARK-24050 ] - StreamingQuery在某些情况下不计算输入/处理速率
[ SPARK-24056 ] - 在结构化流媒体的Kafka源中使消费者创建变得懒惰
[ SPARK-24061 ] - 连续处理不支持[SS] TypedFilter
[ SPARK-24062 ] - 无法在ThriftServer中使用SASL加密
[ SPARK-24068 ] - CSV架构推断不适用于压缩文件
[ SPARK-24076 ] - 当shuffle.partition = 8192时性能非常糟糕
[ SPARK-24085 ] - 标量子查询错误
[ SPARK-24104 ] - SQLAppStatusListener会覆盖onDriverAccumUpdates上的指标而不是更新它们
[ SPARK-24107 ] - ChunkedByteBuffer.writeFully方法未重置限制值
[ SPARK-24108 ] - ChunkedByteBuffer.writeFully方法未重置限制值
[ SPARK-24110 ] - 避免在ThriftServer中调用UGI loginUserFromKeytab
[ SPARK-24123 ] - 修复一个片状测试`DateTimeUtilsSuite.monthsBetween`
[ SPARK-24133 ] - 读取包含大字符串的Parquet文件可能会因java.lang.ArrayIndexOutOfBoundsException而失败
[ SPARK-24137 ] - [K8s]在emptydir卷中挂载临时目录
[ SPARK-24141 ] - 修复CoarseGrainedSchedulerBackend.killExecutors中的错误
[ SPARK-24143 ] - 将mapstatus转换为（blockId，size）对时过滤空块
[ SPARK-24151 ] - CURRENT_DATE，CURRENT_TIMESTAMP在启用caseSensitive时错误地解析为列名
[ SPARK-24165 ] - when（）中的UDF。否则（）引发NullPointerException
[ SPARK-24166 ] - InMemoryTableScanExec不应在执行者端访问SQLConf
[ SPARK-24167 ] - ParquetFilters不应在执行方访问SQLConf
[ SPARK-24168 ] - WindowExec不应在执行方访问SQLConf
[ SPARK-24169 ] - JsonToStructs不应在执行者端访问SQLConf
[ SPARK-24190 ] - JSON写入中不需要lineSep
[ SPARK-24195 ] - sc.addFile for local：/ path已损坏
[ SPARK-24214 ] - StreamingRelationV2 / StreamingExecutionRelation / ContinuousExecutionRelation.toJSON不应该失败
[ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
[ SPARK-24228 ] - 修复棉绒错误
[ SPARK-24230 ] - Parquet 1.10升级在矢量化阅读器中出错
[ SPARK-24241 ] - 使用0执行程序启用动态资源分配时，请勿快速失败
[ SPARK-24255 ] - 在SparkR描述中需要Java 8
[ SPARK-24257 ] - LongToUnsafeRowMap计算新的大小可能是错误的
[ SPARK-24259 ] - Arrow的ArrayWriter产生错误的输出
[ SPARK-24263 ] - 关于openjdk的SparkR java check break
[ SPARK-24276 ] - semanticHash（）在语义上返回相同的IS IN的不同值
[ SPARK- 24294] - 在BroadcastExchangeExec中的OOM时抛出SparkException
[ SPARK-24300 ] - ml.cluster.LDASuite中的generateLDAData没有正确设置种子
[ SPARK-24309 ] - AsyncEventQueue应该处理来自监听器的中断
[ SPARK-24313 ] - 集合函数解释执行不适用于复杂类型
[ SPARK-24319 ] - 运行示例无法打印使用情况
[ SPARK-24322 ] - 将Apache ORC升级到1.4.4
[ SPARK-24341 ] - 来自谓词子查询的Codegen编译错误
[ SPARK-24348 ] - “element_at”表达式中的scala.MatchError
[ SPARK-24350 ] - “array_position”函数中的ClassCastException
[ SPARK-24351 ] - offsetLog / commitLog purge thresholdBatchId应使用当前提交的纪元计算，但不能用CP模式中的currentBatchId计算
[ SPARK-24364 ] - globbing后删除文件可能会使StructuredStreaming作业失败
[ SPARK-24368 ] - 片状测试：org.apache.spark.sql.execution.datasources.csv.UnivocityParserSuite
[ SPARK-24369 ] - 具有多个不同聚合时的错误
[ SPARK-24373 ] - “重新分析计划后，当分析的计划不同时，”df.cache（）df.count（）“不再急切地缓存数据
[ SPARK-24377 ] - 使--py-files在非pyspark应用程序中工作
[ SPARK-24380 ] - 在mesos群集调度程序中引用/转义参数
[ SPARK-24384 ] - 带有.py文件的spark-submit --py文件在上下文初始化之前无法在客户端模式下工作
[ SPARK-24385 ] - Tridially -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
[ SPARK-24391 ] - from_json应该支持基元数组，更常见的是所有JSON
[ SPARK-24414 ] - 阶段页面未显示失败时的所有任务尝试
[ SPARK-24415 ] - 故障时阶段页面聚合执行程序指标错误
[ SPARK-24416 ] - 更新spark.blacklist.killBlacklistedExecutors的配置定义
[ SPARK-24446 ] - 带有特殊字符的库路径会在YARN上打破Spark
[ SPARK-24452 ] - long = int * int或long = int + int可能导致溢出。
[ SPARK-24453 ] - 修复从无数据批处理中的故障中恢复的错误
[ SPARK-24466 ] - TextSocketMicroBatchReader不再适用于nc实用程序
[ SPARK-24468 ] - 当比例为负时，DecimalType“adjustPrecisionScale”可能会失败
[ SPARK-24488 ] - 当发电机多次混叠时，分析器抛出
[ SPARK-24495 ] - SortMergeJoin，重复键错误结果
[ SPARK-24500 ] - 尝试使用Stream of Children执行Union计划时出现UnsupportedOperationException
[ SPARK-24506 ] - Spark.ui.filters未应用于/ sqlserver / url
[ SPARK-24520 ] - 链接中的双括号
[ SPARK-24526 ] - 构建目录中的空格导致构建/ mvn脚本失败
[ SPARK-24530 ] - Sphinx无法正确呈现autodoc_docstring_signature（使用Python 2？）而pyspark.ml文档已被破坏
[ SPARK-24531 ] - 由于缺少2.2.0版本，HiveExternalCatalogVersionsSuite失败
[ SPARK-24535 ] - 修复Windows上SparkR中的java版本解析
[ SPARK-24536 ] - 使用无意义的LIMIT查询命中AssertionError
[ SPARK-24548 ] - SPARK中的JavaPairRDD到数据集<Row>会产生不明确的结果
[ SPARK-24552 ] - 重试阶段时重复使用任务尝试次数
[ SPARK-24553 ] - 作业UI重定向导致http 302错误
[ SPARK-24556 ] - 当子分区为RangePartitioning时，ReusedExchange也应该重写输出分区
[ SPARK-24563 ] - 允许在没有Hive的情况下运行PySpark shell
[ SPARK-24569 ] - 具有输出类型Option [Boolean]的Spark Aggregator创建Row类型的列
[ SPARK-24573 ] - 影响构建的SBT Java checkstyle
[ SPARK-24578 ] - 读取远程缓存块行为更改并导致超时问题
[ SPARK-24583 ] - InsertIntoDataSourceCommand中的架构类型错误
[ SPARK-24588 ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
[ SPARK-24589 ] - OutputCommitCoordinator可能允许重复提交
[ SPARK-24594 ] - 介绍YARN执行程序分配问题的指标
[ SPARK-24598 ] - SPARK SQL：数据类型溢出条件给出了错误的结果
[ SPARK-24603 ] - Typo评论
[ SPARK-24610 ] - 针对小文件打破的wholeTextFiles
[ SPARK-24613 ] - 使用UDF的缓存无法与后续的依赖缓存匹配
[ SPARK-24633 ] - arrays_zip函数的代码生成器错误地分割输入处理
[ SPARK-24645 ] - 启用csvColumnPruning并仅扫描分区时跳过解析
[ SPARK-24648 ] - SQLMetrics计数器不是线程安全的
[ SPARK-24653 ] - 片状测试“JoinSuite.test SortMergeJoin（带溢出）”
[ SPARK-24659 ] - GenericArrayData.equals应该尊重元素类型的差异
[ SPARK-24660 ] - 下载日志时SHS未显示错误
[ SPARK-24676 ] - 禁用csvColumnPruning时，解析数据中的项目所需数据
[ SPARK-24677 ] - TaskSetManager不会为旧阶段尝试更新successfulTaskDurations
[ SPARK-24681 ] - 当嵌套列名包含'：'时，无法从表创建视图
[ SPARK-24694 ] - 集成测试只传递一个app参数
[ SPARK-24698 ] - 在Pyspark的ML中，Identifiable的UID有20个随机字符，而不是文档中提到的12个。
[ SPARK-24699 ] - 水印/追加模式应与Trigger.Once配合使用
[ SPARK-24704 ] - DAG图表中的阶段顺序不正确
[ SPARK-24705 ] - 启用Spark.sql.adaptive.enabled = true并启用自联接查询
[ SPARK-24711 ] - 集成测试不适用于exclude / include标记
[ SPARK-24713 ] - 如果消耗了数百个主题，那么火花流kafka OOM的AppMatser
[ SPARK-24715 ] - sbt build带来了错误的jline版本
[ SPARK-24717 ] - 在HDFSBackedStateStoreProvider中拆分min保留内存状态的内存
[ SPARK-24721 ] - 无法在带有数据源的过滤器中使用带有文字输入的PythonUDF
[ SPARK-24734 ] - 修复了包含阵列类型的ConcatNull。
[ SPARK-24739 ] - PySpark不适用于Python 3.7.0
[ SPARK-24742 ] - 字段元数据在hashCode方法中引发NullPointerException
[ SPARK-24743 ] - 更新JavaDirectKafkaWordCount示例以支持Kafka的新API
[ SPARK-24749 ] - 无法使用named_struct过滤数组<struct>
[ SPARK-24754 ] - Minhash整数溢出
[ SPARK-24755 ] - 执行程序丢失可能导致任务无法重新提交
[ SPARK-24781 ] - 在过滤/排序中使用数据集中的引用可能不起作用。
[ SPARK-24787 ] - 由于事件记录的hsync缓慢，事件以惊人的速度被丢弃
[ SPARK-24788 ] - 在UnresolvedAttribute分组时，RelationalGroupedDataset.toString会抛出错误
[ SPARK-24804 ] - DatasetSuite的标题中有重复的单词
[ SPARK- 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
[ SPARK-24812 ] - 表格描述中的上次访问时间无效
[ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
[ SPARK-24829 ] - 在Spark Thrift Server中，CAST AS FLOAT与spark-shell或spark-sql不一致
[ SPARK-24846 ] - 稳定表达能量化
[ SPARK-24850 ] - 查询计划字符串表示在具有递归缓存数据集的查询上呈指数增长
[ SPARK-24870 ] - 如果SQL中有大小写字母，则缓存无法正常工作
[ SPARK-24873 ] - 增加切换以屏蔽与纱线的频繁交互报告
[ SPARK-24878 ] - 修复包含null的基本类型的数组类型的反向函数。
[ SPARK-24879 ] - 用于`partCol IN（NULL，....）的Hive分区过滤器下推中的NPE
[ SPARK-24880 ] - 修复spark-kubernetes-integration-tests的组ID
[ SPARK-24889 ] - dataset.unpersist（）不更新存储内存统计信息
[ SPARK-24891 ] - 修复HandleNullInputsForUDF规则
[ SPARK-24895 ] - Spark 2.4.0由于文件名不匹配，快照工件已破坏元数据
[ SPARK-24896 ] - Uuid表达式应该在流式查询下的每次执行中产生不同的值
[ SPARK-24908 ] - [R]删除空格以使得快乐
[ SPARK-24909 ] - 当获取失败，执行程序丢失，丢失执行程序上的任务运行以及多个阶段尝试时，Spark调度程序可能会挂起
[ SPARK-24911 ] - SHOW CREATE TABLE删除嵌套列名称的转义
[ SPARK-24919 ] - sparkContext.hadoopConfiguration的Scala linter规则
[ SPARK-24927 ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
[ SPARK-24934 ] - 由于缺少上/下限情况，内存中分区修剪中的复杂类型和二进制类型不起作用
[ SPARK-24937 ] - 数据源分区表应加载空的静态分区
[ SPARK-24948 ] - 由于权限检查，SHS错误地过滤了某些应用程序
[ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
[ SPARK-24957 ] - 使用codegen，十进制算术可能导致错误的值
[ SPARK-24963 ] - 如果集成测试在名称空间中运行而不是默认值，则集成测试将失败
[ SPARK-24966 ] - 修复设置操作的优先规则。
[ SPARK-24972 ] - PivotFirst无法处理复杂类型的枢轴列
[ SPARK-24981 ] - 当用户程序未调用SparkContext stop（）时，ShutdownHook超时导致作业失败
[ SPARK-24987 ] - Kafka缓存的消费者泄漏文件描述符
[ SPARK-24997 ] - 支持MINUS ALL
[ SPARK-25004 ] - 添加spark.executor.pyspark.memory配置以设置resource.RLIMIT_AS
[ SPARK-25005 ] - 结构化流媒体不支持kafka事务（使用中止和标记创建空偏移）
[ SPARK-25009 ] - 独立群集模式应用程序提交无效
[ SPARK-25010 ] - Rand / Randn应为流式查询中的每次执行生成不同的值
[ SPARK-25011 ] - 在fpm.py中将PrefixSpan添加到__all__
[ SPARK-25019 ] - 发布的spark sql pom不排除正常版本的orc-core
[ SPARK-25021 ] - 为Kubernetes添加spark.executor.pyspark.memory支持
[ SPARK-25028 ] - 如果值为null，则AnalyzePartitionCommand因NPE失败
[ SPARK-25031 ] - 无法正确打印MapType架构
[ SPARK-25033 ] - Bump Apache commons。{httpclient，httpcore}
[ SPARK-25036 ] - Scala 2.12问题：与sbt的编译错误
[ SPARK-25041 ] - 在scala-2.12中找不到sbt的genjavadoc-plugin_0.10
[ SPARK-25046 ] - Alter View可以执行“ALTER VIEW ... AS INSERT INTO”之类的sql
[ SPARK-25058 ] - 使用Block.isEmpty / nonEmpty检查代码是否为空。
[ SPARK-25072 ] - PySpark自定义Row类可以给出额外的参数
[ SPARK-25076 ] - 不应从已停止的SparkSession中检索SQLConf
[ SPARK-25081 ] - ShuffleExternalSorter中的嵌套溢出可能会访问已释放的内存页面
[ SPARK-25084 ] - 在多列上“分发”可能会导致代码问题
[ SPARK-25090 ] - 使用CrossValidator时的java.lang.ClassCastException
[ SPARK-25092 ] - 在nonExcludableRules列表中添加RewriteExceptAll，RewriteIntersectAll和RewriteCorrelatedScalarSubquery
[ SPARK-25096 ] - 如果施法可强制作用，则放松可空性。
[ SPARK-25114 ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时，RecordBinaryComparator可能会返回错误的结果
[ SPARK-25116 ] - 终止Kafka测试时修复“退出代码1”错误
[ SPARK-25124 ] - VectorSizeHint.size是错误的，打破了流媒体管道
[ SPARK-25126 ] - 避免为所有orc文件创建OrcFile.Reader
[ SPARK-25132 ] - 从Parquet读取时不区分大小写的字段分辨率
[ SPARK-25134 ] - 检查标题的Csv列修剪会引发错误的错误
[ SPARK-25137 ] - 从Mac终端启动spark-shell时的NumberFormatException`
[ SPARK-25149 ] - 如果vertexID> MaxInt，则个性化PageRank会引发错误
[ SPARK-25159 ] - json模式推断应该只触发一个作业
[ SPARK-25161 ] - 修复了屏障执行模式故障处理中的几个错误
[ SPARK-25163 ] - 片状测试：oasutil.collection.ExternalAppendOnlyMapSuite.spilling with compression
[ SPARK-25164 ] - Parquet阅读器为每列构建一次完整的列列表
[ SPARK-25167 ] - R sql测试的小修复（在开发环境中失败的测试）
[ SPARK-25174 ] - 当从RM取消注册时，ApplicationMaster会暂停，并具有极大的诊断消息
[ SPARK-25175 ] - 如果ORC原生阅读器存在歧义，则场分辨率应该失败
[ SPARK-25176 ] - Kryo无法序列化参数化类型层次结构
[ SPARK-25181 ] - 块管理器主从线程池无限制
[ SPARK-25183 ] - Spark HiveServer2使用JVM注册shutdown hook，而不是ShutdownHookManager; 竞争条件可能会出现
[ SPARK-25204 ] - 率源测试是不稳定的
[ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼写错误
[ SPARK-25206 ] - 当Hive Metastore模式和镶木地板模式处于不同的字母情况时，会返回错误的记录
[ SPARK-25214 ] - 当“failOnDataLoss”为“false”时，Kafka v2源可能会返回重复记录
[ SPARK-25218 ] - TransportServer和SocketAuthHelper中潜在的资源泄漏
[ SPARK-25221 ] - [DEPLOY]一致的尾随空格处理conf值
[ SPARK-25231 ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
[ SPARK-25237 ] - 选择具有限制的数据源表时，FileScanRdd的inputMetrics错误
[ SPARK-25240 ] - ALTER TABLE RECOVER PARTITIONS中的死锁
[ SPARK-25264 ] - 修复传递给PythonRunner和RRunner的逗号描述的参数
[ SPARK-25266 ] - 修复屏障执行模式下的内存泄漏
[ SPARK-25268 ] - runParallelPersonalizedPageRank抛出序列化异常
[ SPARK-25278 ] - 视图并集的输出行度量值乘以它们的出现次数
[ SPARK-25283 ] - 在UnionRDD陷入僵局
[ SPARK-25288 ] - 卡夫卡交易测试很不稳定
[ SPARK-25289 ] - 空集合中的ChiSqSelector max
[ SPARK-25291 ] - 执行程序内存测试的片段性（SecretsTestSuite）
[ SPARK-25295 ] - 如果之前的提交不是干净关闭，则Pod在客户端模式下命名冲突。
[ SPARK-25306 ] - 避免使用倾斜的滤镜树来加速ORC中的“createFilter”
[ SPARK-25307 ] - ArraySort函数可能在代码生成阶段返回错误。
[ SPARK-25308 ] - ArrayContains函数可能会在代码生成阶段返回错误。
[ SPARK-25310 ] - ArraysOverlap可能抛出CompileException
[ SPARK-25313 ] - 修复FileFormatWriter输出模式中的回归
[ SPARK-25314 ] - 无效的PythonUDF - 需要来自多个子节点的属性 - 处于“on”连接条件
[ SPARK- 25317] - MemoryBlock性能回归
[ SPARK-25330 ] - 将hadoop版本升级到2.7.7后的权限问题
[ SPARK-25352 ] - 当限制数量大于topKSortFallbackThreshold时，执行有序全局限制
[ SPARK-25357 ] - 向SparkPlanInfo添加元数据以将更多信息（如文件路径）转储到事件日志
[ SPARK-25363 ] - 如果在where子句中使用嵌套列，则模式修剪不起作用
[ SPARK-25368 ] - 不正确的约束推断返回错误的结果
[ SPARK-25371 ] - 没有输入列的矢量汇编程序导致不透明错误
[ SPARK-25387 ] - 格式错误的CSV会导致NPE
[ SPARK-25389 ] - INSERT OVERWRITE DIRECTORY STORED AS应防止重复字段
[ SPARK-25398 ] - 比较不相关类型的小错误
[ SPARK-25399 ] - 从微连续流的连续处理中重用执行线程可能导致正确性问题
[ SPARK-25402 ] - BooleanSimplification中的空值处理
[ SPARK-25406 ] - Parquet架构修剪测试套件中的withSQLConf方法的错误使用掩盖了测试失败
[ SPARK-25416 ] - 当右表达式被隐式下调时，ArrayPosition函数可能返回不正确的结果。
[ SPARK-25417 ] - 当右表达式被隐式向下转换时，ArrayContains函数可能返回不正确的结果
[ SPARK-25425 ] - 额外选项必须覆盖会话选项
[ SPARK-25427 ] - 添加BloomFilter创建测试用例
[ SPARK-25431 ] - 修复功能示例并统一示例结果的格式。
[ SPARK-25438 ] - 修复FilterPushdownBenchmark以使用相同的内存假设
[ SPARK-25439 ] - TPCHQuerySuite customer.c_nationkey应该是bigint而不是string
[ SPARK-25443 ] - 修复在docker中使用发布脚本构建文档时出现的问题
[ SPARK-25450 ] - PushProjectThroughUnion规则对每个Union子项中的项目表达式使用相同的exprId，导致常量传播中的错误
[ SPARK-25471 ] - 使用Pandas 0.23+修复Python 3.6的测试
[ SPARK-25495 ] - FetchedData.reset不会重置_nextOffsetInFetchedData和_offsetAfterPoll
[ SPARK-25502 ] - 当页码超过reatinedTask大小时，[Spark作业历史]空页面
[ SPARK-25503 ] - [Spark作业历史]阶段页面中的总任务消息不明确
[ SPARK-25505 ] - Pivot中分组列的输出顺序与输入顺序不同
[ SPARK-25509 ] - 在Windows中无法启用SHS V2，因为不支持POSIX权限。
[ SPARK-25519 ] - 当隐式降低右表达式时，ArrayRemove函数可能返回错误的结果。
[ SPARK-25521 ] - 插入命令Job时，作业ID显示为空。
[ SPARK-25522 ] - 改进elementAt函数输入参数的类型提升
[ SPARK-25533 ] - 当作业失败时，JobUI中已完成作业的消息不一致，与spark2.2相比
[ SPARK-25536 ] - executorSource.METRIC读取Executor.scala Line444中的错误记录
[ SPARK-25538 ] - distinct（）后的行数不正确
[ SPARK-25542 ] - 片状测试：OpenHashMapSuite
[ SPARK-25543 ] - 在K8s模式下以DEBUG级别混淆日志消息。
[ SPARK-25546 ] - RDDInfo在初始化之前使用SparkEnv
[ SPARK-25568 ] - 无法更新一个累加器时，继续更新剩余的累加器
[ SPARK-25570 ] - 在HiveExternalCatalogVersionsSuite中将2.3.1替换为2.3.2
[ SPARK-25572 ] - Java 10上的CRAN上的SparkR测试失败
[ SPARK-25578 ] - 更新到Scala 2.12.7
[ SPARK-25579 ] - 如果需要，则在推送的ORC谓词中使用带引号的属性名称
[ SPARK-25591 ] - 具有多个PythonUDF的PySpark累加器
[ SPARK-25602 ] - SparkPlan.getByteArrayRdd在不需要时不应使用输入
[ SPARK-25636 ] - 当连接到主站时出错时，spark-submit会吞下失败原因
[ SPARK-25644 ] - 修复java foreachBatch API
[ SPARK-25646 ] - docker-image-tool.sh不适用于开发人员构建
[ SPARK-25660 ] - 无法使用反斜杠作为CSV字段分隔符
[ SPARK-25669 ] - 仅在存在时检查CSV标头
[ SPARK-25671 ] - 在Jenkins Test中构建外部/ spark-ganglia-lgpl
[ SPARK-25674 ] - 如果记录一次增加1个以上，则字节数可能很少更新
[ SPARK-25677 ] - 在JDBC中配置zstd压缩抛出IllegalArgumentException异常
[ SPARK-25697 ] - 当正在进行zstd压缩时，应用程序在UI中抛出错误
[ SPARK-25704 ] - 由于配置默认配置错误，> 2GB块的复制失败
[ SPARK-25708 ] - 没有GROUP BY的情况意味着全球汇总
[ SPARK-25714 ] - 优化器规则BooleanSimplification中的空处理
[ SPARK-25726 ] - Flaky测试：SaveIntoDataSourceCommandSuite .simpleString被编辑
[ SPARK-25727 ] - 在InMemoryRelation中makeCopy失败
[ SPARK-25738 ] - 如果hdfs conf包含端口，则LOAD DATA INPATH不起作用
[ SPARK-25741 ] - 在Web UI中无法正确呈现长URL
[ SPARK-25768 ] - 期望Hive UDAF的常量参数不起作用
[ SPARK-25793 ] - 在BisectingKMeans中加载模型错误
[ SPARK-25795 ] - 修复CSV SparkR SQL示例
[ SPARK-25797 ] - 通过2.1创建的视图无法通过2.2+读取
[ SPARK-25801 ] - pandas_udf grouped_map失败，输入数据帧超过255列
[ SPARK-25803 ] - docker-image-tool.sh的-n选项会导致忽略其他选项
[ SPARK-25816 ] - 功能无法正确解析列
[ SPARK-25822 ] - 在释放Python工作者时修复竞争条件
[ SPARK-25832 ] - 删除新添加的地图相关功能
[ SPARK-25835 ] - 在k8s集成测试中传播scala 2.12配置文件
[ SPARK-25840 ] - 由于缺少LICENSE-binary，`make-distribution.sh`不会失败
[ SPARK-25854 ] - mvn帮助程序脚本总是退出w / 1，导致mvn构建失败

New Feature(新特性)

[ SPARK-10697 ] - 关联规则挖掘中的提升计算
[ SPARK-14682 ] - 为spark.ml GBT提供evaluateEachIteration方法或等效方法
[ SPARK-15064 ] - StopWordsRemover中的语言环境支持
[ SPARK-15784 ] - 为spark.ml添加Power Iteration Clustering
[ SPARK-19480 ] - SQL中的高阶函数
[ SPARK-21274 ] - 实施除外全部和全部交叉
[ SPARK-22119 ] - 向KMeans添加余弦距离
[ SPARK-22880 ] - 如果数据库支持，则添加级联jdbc截断选项（PostgreSQL和Oracle）
[ SPARK-23010 ] - 将Kubernetes后端的集成测试添加到apache / spark存储库中
[ SPARK-23146 ] - 支持Kubernetes集群后端的客户端模式
[ SPARK-23235 ] - 将执行程序Threaddump添加到api
[ SPARK-23541 ] - 允许Kafka源读取比主题分区数更大的并行度的数据
[ SPARK-23751 ] - 在pyspark.ml中的Kolmogorov-Smirnoff测试Python API
[ SPARK-23846 ] - 用于CSV数据源的模式推断的samplingRatio
[ SPARK-23856 ] - Spark jdbc setQueryTimeout选项
[ SPARK-23948 ] - 在submitMissingTasks中触发mapstage的作业监听器
[ SPARK-23984 ] - K8S的PySpark绑定
[ SPARK-24027 ] - 通过from_json支持MapType（StringType，DataType）作为根类型
[ SPARK-24193 ] - 在TakeOrderedAndProjectExec中，当限制数量很大时按磁盘排序
[ SPARK-24231 ] - Python API：为spark.ml GBT提供evaluateEachIteration方法或等效方法
[ SPARK-24232 ] - 允许将kubernetes的秘密称为env变量
[ SPARK-24288 ] - 启用防止谓词下推
[ SPARK-24371 ] - 在Scala和Java的DataFrame API中添加了isInCollection。
[ SPARK-24372 ] - 创建用于准备RC的脚本
[ SPARK-24396 ] - 为python添加结构化流ForeachWriter
[ SPARK-24397 ] - 在Python中添加TaskContext.getLocalProperties
[ SPARK-24411 ] - 为`isInCollection`添加本机Java测试
[ SPARK-24412 ] - 在`isin`和`isInCollection` API中添加有关自动类型转换的文档
[ SPARK-24433 ] - K8S的R结合
[ SPARK-24435 ] - 支持用户提供的YAML，可以与k8s pod描述合并
[ SPARK- 24465] - LSHModel应该支持结构化流转换
[ SPARK-24479 ] - 在Spark Conf中注册StreamingQueryListener
[ SPARK-24499 ] - 将sql-programming-guide.html的页面拆分为多个单独的页面
[ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件
[ SPARK-24662 ] - 结构化流媒体应支持LIMIT
[ SPARK-24730 ] - 添加策略以在流式查询具有多个水印时选择max作为全局水印
[ SPARK-24768 ] - 具有内置的AVRO数据源实现
[ SPARK-24795 ] - 实施屏障执行模式
[ SPARK-24802 ] - 优化规则排除
[ SPARK-24817 ] - 实施BarrierTaskContext.barrier（）
[ SPARK-24819 ] - 在提交作业时没有足够的插槽启动障碍阶段时失败
[ SPARK-24820 ] - 提交的作业在屏障阶段包含PartitionPruningRDD时失败
[ SPARK-24821 ] - 在屏障阶段的所有分区的子集上提交作业计算时快速失败
[ SPARK-24822 ] - Python支持屏障执行模式
[ SPARK-24918 ] - Executor Plugin API
[ SPARK-25468 ] - 突出显示历史记录服务器中的当前页面索引

Story

[ SPARK-24124 ] - Spark历史服务器应该创建spark.history.store.path并正确设置权限
[ SPARK-24852 ] - 让spark.ml培训使用更新的`Instrumentation` API。
[ SPARK-25234 ] - SparkR ::: parallelize不能正确处理整数溢出
[ SPARK-25248 ] - Spark 2.4的审计障碍API
[ SPARK-25345 ] - 从ImageSchema弃用readImages API
[ SPARK-25347 ] - doc站点中的文档图像数据源

Improvement(改进)

[ SPARK-3159 ] - 检查可还原的DecisionTree
[ SPARK-4502 ] - Spark SQL从Parquet中读取不必要的嵌套字段
[ SPARK-7132 ] - 将验证设置添加到spark.ml GBT
[ SPARK-9312 ] - OneVsRest模型不提供rawPrediction
[ SPARK-11630 ] - ClosureCleaner错误地警告基于类的闭包
[ SPARK-13343 ] - 未提交的投机任务不应标记为成功
[ SPARK-14712 ] - spark.ml LogisticRegressionModel.toString应该总结模型
[ SPARK-15009 ] - PySpark CountVectorizerModel应该能够从词汇表中构建
[ SPARK-16406 ] - 大量列的参考分辨率应该更快
[ SPARK- 16501] - 在UI和命令行上公开spark.mesos.secret
[ SPARK-16617 ] - 升级到Avro 1.8.x.
[ SPARK-16630 ] - 如果执行程序无法在其上启动，则将节点列入黑名单。
[ SPARK-18057 ] - 将结构化流媒体kafka从0.10.0.1更新为2.0.0
[ SPARK-18230 ] - 当用户不存在时，MatrixFactorizationModel.recommendProducts会抛出NoSuchElement异常
[ SPARK-19018 ] - spark csv writer charset支持
[ SPARK-19602 ] - 无法使用表单的完全限定列名进行查询（<DBNAME>。<TABLENAME>。<COLUMNNAME>）
[ SPARK-19724 ] - 使用现有的默认位置创建托管表应该抛出异常
[ SPARK- 19947] - RFormulaModel总是在使用NULL或看不见的标签转换数据时抛出异常
[ SPARK- 20087] - 将TaskKilled发送到onTaskEnd侦听器时包含accumulators / taskMetrics
[ SPARK-20168 ] - 启用kinesis以从时间戳指定的初始位置开始流
[ SPARK-20538 ] - Dataset.reduce运算符应该使用withNewExecutionId（作为foreach或foreachPartition）
[ SPARK-20659 ] - 删除StorageStatus，或将其设为私有。
[ SPARK-20937 ] - 在Spark SQL，DataFrames和Datasets Guide中描述spark.sql.parquet.writeLegacyFormat属性
[ SPARK-21318 ] - `lookupFunction`抛出的异常消息不明确。
[ SPARK-21351 ] - 根据优化逻辑计划中儿童的输出更新可空性
[ SPARK-21590 ] - 结构化流媒体窗口开始时间应支持负值以调整时区
[ SPARK-21687 ] - Spark SQL应为Hive分区设置createTime
[ SPARK-21741 ] - 基于DataFrame的多变量摘要生成器的Python API
[ SPARK-21783 ] - 默认打开ORC过滤器下推
[ SPARK-21860 ] - 在'HeapMemoryAllocator`中改进堆内存的内存重用
[ SPARK-21960 ] - Spark Streaming动态分配应尊重spark.executor.instances
[ SPARK-22068 ] - 减少putIteratorAsValues和putIteratorAsBytes之间的重复代码
[ SPARK-22144 ] - ExchangeCoordinator不会组合0大小的预洗牌的分区
[ SPARK-22210 ] - 在线LDA variationalTopicInference应使用随机种子来保持稳定行为
[ SPARK-22219 ] - Refector“spark.sql.codegen.comments”
[ SPARK-22269 ] - 应该在Jenkins中运行Java样式检查
[ SPARK-22666 ] - 图像格式的Spark数据源
[ SPARK-22683 ] - DynamicAllocation通过分配几乎不会使用的容器来浪费资源
[ SPARK-22751 ] - 改进ML RandomForest shuffle性能
[ SPARK-22814 ] - JDBC支持日期/时间戳类型为partitionColumn
[ SPARK-22839 ] - 重构Kubernetes代码，用于配置驱动程序/执行程序窗格以使用一致且更清晰的抽象
[ SPARK-22856 ] - 为codegen输出和可空性添加包装器
[ SPARK-22941 ] - 允许SparkSubmit抛出异常而不是退出/打印错误。
[ SPARK-22959 ] - 在PySpark中为守护程序和工作程序选择模块的配置
[ SPARK-23024 ] - 关于表单内容的Spark ui需要有隐藏和显示功能，当表记录非常多时。
[ SPARK-23031 ] - 合并脚本应允许任意受让人
[ SPARK-23034 ] - 在UI中显示“HiveTableScan”节点的表名
[ SPARK-23040 ] - 如果指定了聚合器或订购，则BlockStoreShuffleReader的返回Iterator不可中断
[ SPARK-23043 ] - 将json4s-jackson升级到3.5.3
[ SPARK-23085 ] - mllib.linalg.Vectors.sparse的 API奇偶校验
[ SPARK-23159 ] - 更新Cloudpickle以匹配版本0.4.3
[ SPARK-23161 ] - 向Python GBTClassifier添加缺少的API
[ SPARK-23162 ] - PySpark ML LinearRegressionSummary缺少r2adj
[ SPARK-23166 ] - 将maxDF参数添加到CountVectorizer
[ SPARK-23167 ] - 从v1.4更新TPCDS查询到v2.7（最新）
[ SPARK-23174 ] - 修复pep8到最新的官方版本
[ SPARK-23188 ] - 使矢量化columar阅读器批量大小可配置
[ SPARK-23202 ] - 在DataSourceWriter中添加新API：onDataWriterCommit
[ SPARK-23217 ] - 将余弦距离度量添加到ClusteringEvaluator
[ SPARK-23228 ] - 能够跟踪Python在JVM中创建SparkSession
[ SPARK-23247 ] - 在扫描数据源中结合不安全操作和统计操作
[ SPARK-23253 ] - 只有在没有现有索引文件时才写入随机索引文件
[ SPARK-23259 ] - 清除hive外部目录周围的遗留代码
[ SPARK-23285 ] - 允许spark.executor.cores为小数
[ SPARK-23295 ] - 在make-distribution.sh中生成版本时排除Waring消息
[ SPARK-23303 ] - 改进数据源v2关系的解释结果
[ SPARK-23318 ] - FP-growth：WARN FPGrowth：不缓存输入数据
[ SPARK-23336 ] - 将snappy-java升级到1.1.7.1
[ SPARK-23359 ] - 在Scala的StructType中添加'fieldNames'的别名'names'
[ SPARK-23366 ] - 改进ReadAheadInputStream中的热读取路径
[ SPARK-23372 ] - 在镶木地板中写入空结构在执行期间失败。它应该在分析过程中提前失败。
[ SPARK-23375 ] - 优化程序应删除不需要的排序
[ SPARK-23378 ] - 将setCurrentDatabase从HiveExternalCatalog移至HiveClientImpl
[ SPARK-23379 ] - 如果当前数据库名称相同，则删除冗余的Metastore访问
[ SPARK-23382 ] - 关于表单内容的Spark Streaming ui需要有隐藏和显示功能，当表记录非常多时。
[ SPARK-23383 ] - 在检测到错误选项时，应在退出时使用
[ SPARK-23389 ] - 当shuffle依赖项指定聚合，并且`dependency.mapSideCombine = false`时，我们应该能够使用序列化排序。
[ SPARK-23412 ] - 向BisectingKMeans添加余弦距离测量
[ SPARK-23424 ] - 在评论中添加codegenStageId
[ SPARK-23445 ] - ColumnStat重构
[ SPARK-23447 ] - Literal的清理codegen模板
[ SPARK-23455 ] - ML中的默认参数应单独保存
[ SPARK-23456 ] - 默认启用`native` ORC实现
[ SPARK-23466 ] - 通过GenerateUnsafeProjection删除生成的Java代码中的冗余空值检查
[ SPARK-23500 ] - named_structs上的过滤器可以推送到扫描中
[ SPARK-23510 ] - 支持从Hive 2.2和Hive 2.3 Metastore读取数据
[ SPARK-23518 ] - 当用户只想读取和存储数据帧时，避免使用Metastore
[ SPARK-23528 ] - 将数字添加到ClusteringSummary
[ SPARK-23529 ] - 指定主机路径卷并在Kubernetes中的Spark驱动程序和执行程序窗格中装入卷
[ SPARK-23538 ] - 简化https客户端的SSL配置
[ SPARK-23550 ] - 清除Utils对象中未使用/冗余的方法
[ SPARK-23553 ] - 测试不应采用`spark.sql.sources.default`的默认值
[ SPARK-23562 ] - RFormula handleInvalid应处理非字符串列中的无效值。
[ SPARK-23564 ] - 关于左反连接的优化逻辑计划应进一步优化
[ SPARK-23565 ] - 改进了查询源数量变化时的错误消息
[ SPARK-23568 ] - 如果可用，Silhouette应从元数据中获取要素数量
[ SPARK-23572 ] - 更新security.md以涵盖新功能
[ SPARK-23573 ] - 创建linter规则以防止在SQL模块中滥用SparkContext.hadoopConfiguration
[ SPARK-23604 ] - ParquetInteroperabilityTest时间戳测试应该使用Statistics.hasNonNullValue
[ SPARK-23624 ] - 修改方法pushFilters的文档
[ SPARK-23627 ] - 在DataSet中提供isEmpty（）函数
[ SPARK-23628 ] - WholeStageCodegen可以生成包含太多参数的方法
[ SPARK-23644 ] - 带代理的SHS不显示应用程序
[ SPARK-23645 ] - 无法使用关键字参数调用pandas_udf
[ SPARK-23654 ] - 将jets3t剪切为spark-core的依赖项
[ SPARK-23656 ] - 在大端平台上不执行XXH64Suite.testKnownByteArrayInputs（）中的断言
[ SPARK-23672 ] - 文档支持返回Arrow UDF中的列表
[ SPARK-23675 ] - 标题添加火花徽标，使用火花徽标图像
[ SPARK-23683 ] - FileCommitProtocol.instantiate需要3-arg构造函数进行动态分区覆盖
[ SPARK-23691 ] - 尽可能在PySpark测试中使用sql_conf util
[ SPARK-23695 ] - PySpark的Kinesis测试在其jar丢失但启用时出现混乱错误消息
[ SPARK-23699 ] - 当禁用箭头回退时，PySpark应该引发相同的错误
[ SPARK-23700 ] - 清理未使用的进口产品
[ SPARK-23708 ] - ShutdownHookManager.addShutdownHook的评论错误
[ SPARK-23769 ] - 删除不必要的scalastyle检查禁用
[ SPARK-23770 ] - 在SparkR中显示repartitionByRange
[ SPARK-23772 ] - 在JSON模式推断期间提供忽略所有空值列或空映射/数组的选项
[ SPARK-23776 ] - 当缺少组件时，pyspark-sql测试应显示构建说明
[ SPARK-23803 ] - 支持铲斗修剪以优化对柱状柱的过滤
[ SPARK-23820 ] - 允许在日志中记录长形式的呼叫站点
[ SPARK-23822 ] - 改进Parquet模式不匹配的错误消息
[ SPARK-23828 ] - PySpark StringIndexerModel应该有标签的构造函数
[ SPARK-23830 ] - 当Spark应用程序是Scala类而不是对象时，集群部署模式下的YARN上的Spark失败并显示NullPointerException
[ SPARK- 23838] - SparkUI：在SQL选项卡中显示为“已完成”的SQL查询
[ SPARK-23841 ] - NodeIdCache应该取消最后一个缓存的nodeIdsForInstances
[ SPARK-23861 ] - 使用和不使用orderBy子句澄清默认窗口框架边界的行为
[ SPARK-23867 ] - 日志消息中的com.codahale.metrics.Counter输出没有toString方法
[ SPARK-23873 ] - 在解释的LambdaVariable中使用访问器
[ SPARK-23874 ] - 将apache / arrow升级到0.10.0
[ SPARK- 23875] - 为ArrayData创建IndexedSeq包装器
[ SPARK-23877 ] - 仅元数据查询不会降低过滤条件
[ SPARK-23880 ] - 表缓存应该是懒惰的，不要触发任何作业
[ SPARK-23892 ] - 改进覆盖率并修复与UTF8String相关的套件中的lint错误
[ SPARK-23896 ] - 改进PartitioningAwareFileIndex
[ SPARK-23944 ] - 将Param集函数添加到LSHModel类型
[ SPARK-23947 ] - 为哈希类添加hashUTF8String便捷方法
[ SPARK-23956 ] - 在AM注册中使用有效的RPC端口
[ SPARK-23957 ] - 子查询中的排序是多余的，可以删除
[ SPARK-23960 ] - Mark HashAggregateExec.bufVars为瞬态
[ SPARK-23962 ] - 来自SQLMetricsTestUtils.currentExecutionIds的Flaky测试
[ SPARK-23963 ] - 随着列数的增加，基于文本的Hive表的查询速度不成比例地增长
[ SPARK-23966 ] - 在公共接口中重构所有检查点文件写入逻辑
[ SPARK-23972 ] - 升级至Parquet 1.10
[ SPARK-23973 ] - 删除连续排序
[ SPARK-23979 ] - MultiAlias不应该是CodegenFallback
[ SPARK-24003 ] - 添加支持以App Id和/或Executor Id提供spark.executor.extraJavaOptions
[ SPARK-24005 ] - 删除Scala并行集合的使用
[ SPARK-24014 ] - 将onStreamingStarted方法添加到StreamingListener
[ SPARK-24017 ] - 将ExternalCatalog重构为接口
[ SPARK-24024 ] - 修复GLM中的偏差计算以处理拐角情况
[ SPARK-24029 ] - 在侦听套接字上设置“重用地址”标志
[ SPARK-24035 ] - Pivot的SQL语法
[ SPARK-24057 ] - 将实际数据类型放入AssertionError消息中
[ SPARK-24058 ] - ML中的默认参数应单独保存：Python API
[ SPARK-24072 ] - 清楚地定义推送过滤器
[ SPARK-24083 ] - 未捕获异常的诊断消息应包括堆栈跟踪
[ SPARK-24094 ] - 更改v2流媒体源的描述字符串以反映更改
[ SPARK-24111 ] - 在TPCDSQueryBenchmark中添加TPCDS v2.7（最新）查询
[ SPARK-24117 ] - 统一getSizePerRow
[ SPARK-24121 ] - 用于处理表达式codegen中的表达式代码生成的API
[ SPARK-24126 ] - PySpark测试在/ tmp中留下了大量垃圾
[ SPARK-24127 ] - 支持连续模式的文本套接字源
[ SPARK- 24128] - 在隐式笛卡尔积错误信息中提及spark.sql.crossJoin.enabled
[ SPARK-24129 ] - 添加选项以将--build-arg传递给docker-image-tool.sh
[ SPARK-24131 ] - 将majorMinorVersion API添加到PySpark以确定Spark版本
[ SPARK-24136 ] - 如果记录可用，MemoryStreamDataReader.next应该跳过睡眠状态
[ SPARK-24149 ] - HDFS联合中的自动命名空间发现
[ SPARK-24156 ] - 启用无数据微批次以获得更加热切的流式清理
[ SPARK-24160 ] - 如果收到零大小的块，ShuffleBlockFetcherIterator将失败
[ SPARK-24161 ] - 在结构化流媒体上启用调试包功能
[ SPARK-24172 ] - 我们不应多次将操作员下推应用于数据源v2
[ SPARK-24181 ] - 用于编写已排序数据的更好的错误消息
[ SPARK-24182 ] - 在AM失败时改善客户端模式的错误消息
[ SPARK-24188 ] - / api / v1 /版本无效
[ SPARK-24204 ] - 验证Json / Orc / ParquetFileFormat中的写入模式
[ SPARK-24206 ] - 改进用于读取和下推的DataSource基准代码
[ SPARK-24209 ] - 0配置SHS中的Knox网关支持
[ SPARK-24215 ] - 对DataFrame API实施热切评估
[ SPARK-24242 ] - RangeExec应具有正确的outputOrdering
[ SPARK-24244 ] - 仅解析所需的CSV文件列
[ SPARK-24246 ] - 通过在可用时设置原因来改进AnalysisException
[ SPARK-24248 ] - [K8S]使用Kubernetes群集作为pod状态的后备存储
[ SPARK-24250 ] - 支持访问SQLConf内部任务
[ SPARK-24262 ] - 修复UDF错误消息中的拼写错误
[ SPARK-24268 ] - 错误消息中的DataType不一致
[ SPARK-24275 ] - 修改InputPartition中的文档注释
[ SPARK-24277 ] - SQL模块中的代码清理：HadoopMapReduceCommitProtocol / FileFormatWriter
[ SPARK-24303 ] - 将cloudpickle更新为v0.4.4
[ SPARK-24305 ] - 避免在新集合表达式中序列化私有字段
[ SPARK-24308 ] - 处理DataReaderFactory到InputPartition在左侧类中重命名
[ SPARK-24312 ] - Hive Metastore Client 2.3升级到2.3.3
[ SPARK-24321 ] - 从Divide / Remainder中提取公共代码到基本特征
[ SPARK-24326 ] - 在mesos集群模式下为app jar添加local：// scheme支持
[ SPARK-24327 ] - 根据JDBC解析的模式验证并规范化分区列名称
[ SPARK-24329 ] - 在解析CSV文件之前删除注释过滤
[ SPARK-24330 ] - 使用DataWriter（V2）在FileFormatWriter中重构ExecuteWriteTask
[ SPARK-24332 ] - 将读取'spark.network.timeout'的位置修复为毫秒
[ SPARK-24337 ] - 改进无效SQL conf值的错误消息
[ SPARK-24339 ] - spark sql无法在transform / map / reduce查询中修剪列
[ SPARK-24356 ] - 由FileSegmentManagedBuffer管理的File.path中的重复字符串
[ SPARK-24361 ] - 波兰语代码块操作API
[ SPARK-24365 ] - 添加数据源写入基准
[ SPARK-24366 ] - 改进Catalyst类型转换器的错误消息
[ SPARK-24367 ] - Parquet：使用JOB_SUMMARY_LEVEL而不是弃用标志ENABLE_JOB_SUMMARY
[ SPARK-24381 ] - 改进NOT IN子查询的单元测试覆盖率
[ SPARK-24408 ] - 将abs函数移动到math_funcs组
[ SPARK-24423 ] - 为JDBC源添加新选项`query`
[ SPARK-24424 ] - 支持GROUPING SET的ANSI-SQL兼容语法
[ SPARK-24428 ] - 删除未使用的代码并修复K8s模块中的任何相关文档
[ SPARK-24441 ] - 在HDFSBackedStateStoreProvider中显示状态的总估计大小
[ SPARK-24454 ] - ml.image没有明确定义__all__
[ SPARK-24455 ] - 修复TaskSchedulerImpl评论中的拼写错误
[ SPARK-24470 ] - RestSubmissionClient可以抵抗404和非json响应
[ SPARK-24477 ] - 默认情况下，在pyspark.ml下导入子模块
[ SPARK-24485 ] - 在HDFSBackedStateStoreProvider中测量和记录文件系统操作所用的时间
[ SPARK-24490 ] - 在Web UI中使用WebUI.addStaticHandler
[ SPARK-24505 ] - 将codegen中的字符串转换为块：Cast和BoundAttribute
[ SPARK-24518 ] - 使用Hadoop凭据提供程序API存储密码
[ SPARK-24519 ] - MapStatus有2000个硬编码
[ SPARK-24525 ] - 提供限制MemorySink内存使用的选项
[ SPARK-24534 ] - 如果没有传递spark cmd，请添加绕过entrypoint.sh脚本的方法
[ SPARK-24543 ] - 支持任何DataType作为from_json模式的DDL字符串
[ SPARK-24547 ] - Spark on K8s docker-image-tool.sh改进
[ SPARK-24551 ] - 为Secrets添加集成测试
[ SPARK-24555 ] - KNans / BiKM / GMM / AFT / NB中的logNumExamples
[ SPARK-24557 ] - ClusteringEvaluator支持数组输入
[ SPARK-24558 ] - 当保存cacheBlock的执行程序为IDLE时，驱动程序在日志中输出错误的信息。显示的超时值不是按配置值。
[ SPARK-24565 ] - 在结构化流中添加API，以将每个微量分片的输出行公开为DataFrame
[ SPARK-24566 ] - 修复spark.storage.blockManagerSlaveTimeoutMs默认配置
[ SPARK-24571 ] - 支持具有Char类型值的文字
[ SPARK- 24574] - 改进sql组件的array_contains函数来处理Column类型
[ SPARK-24575 ] - 禁止在WHERE和HAVING子句中使用窗口表达式
[ SPARK-24576 ] - 将Apache ORC升级到1.5.2
[ SPARK-24596 ] - 非级联缓存失效
[ SPARK-24605 ] - size（null）应返回null
[ SPARK-24609 ] - PySpark / SparkR doc没有很好地解释RandomForestClassifier.featureSubsetStrategy
[ SPARK-24614 ] - PySpark - 修复tests.py上的SyntaxWarning
[ SPARK-24626 ] - 在Analyze Table命令中并行化大小计算
[ SPARK-24635 ] - 删除Blocks类
[ SPARK-24636 ] - 为array_join函数输入数组强制
[ SPARK-24637 ] - 向dropwizard指标添加有关状态和水印的指标
[ SPARK-24646 ] - 支持通配符'*'表示spark.yarn.dist.forceDownloadSchemes
[ SPARK-24658 ] - 删除ANTLR错误的解决方法
[ SPARK-24665 ] - 在PySpark中添加SQLConf来管理所有sql配置
[ SPARK-24673 ] - scala sql函数from_utc_timestamp第二个参数可能是Column而不是String
[ SPARK-24675 ] - 重命名表：验证新位置的存在
[ SPARK-24678 ] - 我们应首先使用'PROCESS_LOCAL'进行Spark-Streaming
[ SPARK-24683 ] - SparkLauncher.NO_RESOURCE不适用于Java应用程序
[ SPARK-24685 ] - 调整发行脚本以构建旧版本的所有版本
[ SPARK-24688 ] - 澄清关于LabeledPoint的评论（标签，功能）对而不是（功能，标签）
[ SPARK-24691 ] - 在FileFormat中添加新的API`supportDataType`
[ SPARK-24692 ] - 改进FilterPushdownBenchmark
[ SPARK-24696 ] - ColumnPruning规则无法删除额外的Project
[ SPARK-24697 ] - 修复流式查询进度中报告的起始偏移量
[ SPARK-24709 ] - 从JSON字符串文字中推断模式
[ SPARK-24722 ] - 用于旋转的基于列的API
[ SPARK-24727 ] - CodeGenerator中的缓存100太小，无法进行流式传输
[ SPARK-24732 ] - 在MapTypes之间键入强制。
[ SPARK-24737 ] - 在StructTypes之间键入强制。
[ SPARK-24747 ] - 使spark.ml.util.Instrumentation类更加灵活
[ SPARK-24757 ] - 改进广播超时的错误消息
[ SPARK-24759 ] - 无广播散列连接的重新排序键
[ SPARK-24761 ] - 检查配置参数的可修改性
[ SPARK-24763 ] - 从流聚合中的值中删除冗余密钥数据
[ SPARK-24782 ] - 简化表达式中的conf访问
[ SPARK-24785 ] - 确保REPL打印Spark UI信息，然后打印欢迎消息
[ SPARK-24790 ] - 允许在数据透视表中使用复杂的聚合表达式
[ SPARK-24801 ] - spark.network.sasl.SaslEncryption中的空byte []数组$ EncryptedMessage会浪费大量内存
[ SPARK-24807 ] - 两次添加文件/罐子：输出警告并添加注释
[ SPARK-24849 ] - 将StructType转换为DDL字符串
[ SPARK-24858 ] - 避免不必要的镶木地板页脚读取
[ SPARK-24860 ] - 每次写入操作公开动态分区覆盖
[ SPARK-24865 ] - 删除AnalysisBarrier
[ SPARK-24868 ] - 在Python中添加序列函数
[ SPARK-24871 ] - 重构Concat和MapConcat以避免为每一行创建连锁对象。
[ SPARK-24890 ] - 当`trueValue`和`falseValue`相同时，短路`if`条件
[ SPARK-24893 ] - 如果所有输出都是语义等价的，则删除整个Case
[ SPARK-24926 ] - 确保在所有网络配置（驱动程序和执行程序）中始终使用numCores
[ SPARK-24929 ] - 合并脚本吞下KeyboardInterrupt
[ SPARK-24940 ] - SQL查询的合并和重新分区提示
[ SPARK-24943 ] - 将SQL结构转换为StructType
[ SPARK-24945 ] - 切换到uniVocity> = 2.7.2
[ SPARK-24951 ] - 表值函数应抛出AnalysisException而不是IllegalArgumentException
[ SPARK-24952 ] - 支持Avro数据源的LZMA2压缩
[ SPARK-24954 ] - 如果在启用动态资源分配的情况下运行障碍阶段，则在作业提交时快速失败
[ SPARK-24956 ] - 将maven从3.3.9升级到3.5.4
[ SPARK-24959 ] - 不要为空架构调用CSV / JSON解析器
[ SPARK- 24960] - k8s：显式公开驱动程序容器上的端口
[ SPARK-24962 ] - 重构CodeGenerator.createUnsafeArray
[ SPARK-24978 ] - 添加spark.sql.fast.hash.aggregate.row.max.capacity以配置快速聚合的容量。
[ SPARK-24979 ] - 添加AnalysisHelper＃resolveOperatorsUp
[ SPARK-24982 ] - UDAF解析不应抛出java.lang.AssertionError
[ SPARK-24992 ] - 火花应随机选择纱线局部方向
[ SPARK-24993 ] - 让Avro再次快速
[ SPARK-24996 ] - 使用DSL简化DeclarativeAggregate
[ SPARK-24999 ] - 减少不必要的“新”内存操作
[ SPARK-25001 ] - 修复构建杂项警告
[ SPARK-25018 ] - 在`merge_spark_pr.py`中使用`Co-Authored-By` git预告片
[ SPARK-25025 ] - 删除INTERSECT / EXCEPT中isAll的默认值
[ SPARK-25043 ] - spark-sql应该在启动时打印appId和master
[ SPARK-25045 ] - 使`RDDBarrier.mapParititions`类似于`RDD.mapPartitions`
[ SPARK-25069 ] - 使用UnsafeAlignedOffset使8字节项的整个记录对齐，如在UnsafeExternalSorter中使用的那样
[ SPARK-25073 ] - 关于纱线任务的Spark-submit：当yarn.nodemanager.resource.memory-mb和/或yarn.scheduler.maximum-allocation-mb不足时，Spark总是报告错误请求以调整yarn.scheduler 。最大分配-MB
[ SPARK-25077 ] - 在WindowExec中删除未使用的变量
[ SPARK-25088 ] - Rest Server默认和doc更新
[ SPARK-25093 ] - CodeFormatter可以避免一次又一次地创建正则表达式对象
[ SPARK-25105 ] - 导入所有pyspark.sql.functions也应该带上PandasUDFType
[ SPARK-25108 ] - Dataset.show（）为Unicode字符生成不正确的填充
[ SPARK-25111 ] - 增加kinesis客户端/生产者lib版本和aws-sdk以匹配
[ SPARK-25113 ] - 当任何生成的方法的字节码大小超过HugeMethodLimit时，向CodeGenerator添加日志记录
[ SPARK-25115 ] - 当使用由> 1 ByteBuffer支持的ByteBuf时，消除额外的内存复制。
[ SPARK-25117 ] - 在R中添加EXEPT ALL和INTERSECT ALL支持。
[ SPARK-25122 ] - 支持的重复数据删除等于代码
[ SPARK-25140 ] - 当UnsafeProjection.create回退到解释模式时，添加可选的日志记录
[ SPARK-25142 ] - 当Python worker无法在`_load_from_socket`中打开套接字时添加错误消息。
[ SPARK-25170 ] - 在文档中添加任务度量标准描述
[ SPARK-25178 ] - 直接发送keyXchema / valueSchema的StructType对象，用于xxxHashMapGenerator
[ SPARK-25208 ] - 为DecimalType松开Cast.forceNullable。
[ SPARK- 25209] - 针对DataFrames的Dataset.apply进行优化
[ SPARK-25212 ] - 在ConvertToLocalRelation中支持过滤器
[ SPARK-25228 ] - 添加执行程序CPU时间度量标准
[ SPARK-25233 ] - 当使用带背压的kafka direct API时，为用户提供为每批次指定固定最小消息的选项
[ SPARK-25235 ] - 合并Scala 2.11和2.12分支中的REPL代码
[ SPARK-25241 ] - 读取/写入CSV文件时可配置的空值
[ SPARK-25252 ] - 支持to_json中任何类型的数组
[ SPARK-25253 ] - 重构pyspark连接和身份验证
[ SPARK-25260 ] - 修复SchemaConverters.toAvroType中的命名空间处理
[ SPARK-25275 ] - 要求轮子中的成员运行'su'（在dockerfiles中）
[ SPARK-25286 ] - 删除危险的parmap
[ SPARK-25287 ] - 在merge_spark_pr.py中预先检查JIRA_USERNAME和JIRA_PASSWORD
[ SPARK-25300 ] - 统一配置参数`spark.shuffle.service.enabled`
[ SPARK-25318 ] - 在获取或阶段重试期间包装输入流时添加异常处理以响应损坏的块
[ SPARK-25335 ] - 如果已安装在系统中，则跳过Zip下载
[ SPARK-25375 ] - 重新启用合格烫发。UDFSuite中的函数检查
[ SPARK- 25384] - Clarify fromJsonForceNullableSchema将在Spark 3.0中删除
[ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超时
[ SPARK-25445 ] - 使用Spark 2.4发布scala 2.12版本
[ SPARK-25469 ] - Concat，Reverse和ElementAt的Eval方法应该只使用一次模式匹配
[ SPARK-25639 ] - 添加有关foreachBatch的文档和多个水印策略
[ SPARK-25754 ] - 更改MathJax的CDN
[ SPARK-25859 ] - 为PrefixSpan添加scala / java / python示例和doc

Test

[ SPARK-16139 ] - 审计泄漏线程的测试
[ SPARK-22882 ] - StructuredStreaming的ML测试：spark.ml.classification
[ SPARK-22883 ] - StructuredStreaming的ML测试：spark.ml.feature，AM
[ SPARK-22884 ] - StructuredStreaming的ML测试：spark.ml.clustering
[ SPARK-22885 ] - StructuredStreaming的ML测试：spark.ml.tuning
[ SPARK-22886 ] - StructuredStreaming的ML测试：spark.ml.recommendation
[ SPARK-22915 ] - 结构化流的ML测试：spark.ml.feature，NZ
[ SPARK-23169 ] - 对lint -r脚本和.lintr配置的更改运行lintr
[ SPARK-23392 ] - 为图像功能添加一些测试用例
[ SPARK-23849 ] - 测试json模式推断的samplingRatio选项
[ SPARK-23881 ] - 片状测试：JobCancellationSuite。“shuffle reader的可中断迭代器”
[ SPARK-24044 ] - 从unittest模块中明确打印出跳过的测试
[ SPARK-24502 ] - 片状测试：UnsafeRowSerializerSuite
[ SPARK-24521 ] - 修复CachedTableSuite中的无效测试
[ SPARK-24562 ] - 允许在SQLQueryTestSuite中使用多个配置运行相同的测试
[ SPARK-24564 ] - 为RecordBinaryComparator添加测试套件
[ SPARK-24740 ] - PySpark测试未通过NumPy 0.14.x +
[ SPARK-24840 ] - 不要使用虚拟过滤器来打开/关闭codegen
[ SPARK-24861 ] - 在RateSourceSuite中创建更正的临时目录
[ SPARK-24886 ] - 增加Jenkins的构建时间
[ SPARK-25141 ] - 修改高阶函数的测试以检查绑定方法。
[ SPARK-25184 ] - Flaky测试：FlatMapGroupsWithState“流处理时间超时”
[ SPARK-25238 ] - Lint-Python：升级到当前版本的pycodestyle失败
[ SPARK-25249 ] - 为OpenHashMap添加单元测试
[ SPARK-25267 ] - 在sql / core和sql / hive的测试用例中禁用ConvertToLocalRelation
[ SPARK-25290 ] - BytesToBytesMapOnHeapSuite randomizedStressTest可能导致OutOfMemoryError
[ SPARK-25296 ] - 创建ExplainSuite
[ SPARK-25422 ] - 片状测试：org.apache.spark.DistributedSuite.caching在磁盘上，已复制（encryption = on）（以复制为流）
[ SPARK-25453 ] - OracleIntegrationSuite IllegalArgumentException：时间戳格式必须为yyyy-mm-dd hh：mm：ss [.fffffffff]
[ SPARK-25456 ] - PythonForeachWriterSuite失败
[ SPARK-25673 ] - 删除Travis CI，启用Java lint检查
[ SPARK-25736 ] - 添加测试以验证多列计数的行为
[ SPARK-25805 ] - 片状测试：DataFrameSuite.SPARK-25159单元测试失败

Wish

[ SPARK-23131 ] - 在序列化GLR模型期间，Kryo引发了StackOverflow
[ SPARK-25258 ] - 将kryo软件包升级到4.0.2版

Task

[ SPARK-20220 ] - 在调度文档中添加thrift调度池配置
[ SPARK-23092 ] - 将MemoryStream迁移到DataSource V2
[ SPARK-23451 ] - 弃用KMeans computeCost
[ SPARK-23501 ] - 重构AllStagesPage以避免冗余代码
[ SPARK-23533 ] - 添加对更改ContinuousDataReader的startOffset的支持
[ SPARK-23601 ] - 从发行版中删除.md5文件
[ SPARK-24392 ] - 将pandas_udf标记为实验
[ SPARK-24533 ] - typesafe已经重新命名为lightbend。将build / mvn端点从downloads.typesafe.com更改为downloads.lightbend.com
[ SPARK-24654 ] - 更新，修复LICENSE和NOTICE，并专门针对源与二进制
[ SPARK-25063 ] - 将类KnowNotNull重命名为KnownNotNull
[ SPARK-25095 ] - 对BarrierTaskContext的Python支持
[ SPARK-25213 ] - DataSourceV2似乎不会产生不安全的行
[ SPARK-25336 ] - 恢复SPARK-24863和SPARK-24748
[ SPARK-25836 ] - （暂时）禁用kubernetes-integration-tests的自动构建/测试

Dependency upgrade

[ SPARK-20395 ] - 将Scala更新为2.11.11，将锌更新为0.3.15
[ SPARK-23509 ] - 将公共网络从2.2升级到3.1

Request

[ SPARK-21607 ] - dropTempView函数可以像dropTempView一样添加一个参数（viewName：String，dropSelfOnly：Boolean）

Umberlla

[ SPARK-14220 ] - 针对Scala 2.12构建和测试Spark
[ SPARK-23899 ] - 内置SQL函数改进
[ SPARK-24090 ] - Spark 2.4的Kubernetes后端热门列表
[ SPARK-25319 ] - Spark MLlib，GraphX 2.4 QA伞
[ SPARK-25419 ] - 镶木地板谓词下推式改进

Documention

[ SPARK-21261 ] - SparkSQL regexpExpressions示例
[ SPARK-23231 ] - 为用户指南添加字符串索引器排序文档（也适用于RFormula指南）
[ SPARK-23254 ] - 为DataFrame多变量摘要添加用户指南条目
[ SPARK-23256 ] - 将columnSchema方法添加到PySpark图像阅读器
[ SPARK-23329 ] - 使用三角函数的参数和返回值更新函数描述
[ SPARK-23566 ] - 争论名称修复
[ SPARK-23642 ] - 用于LongAccumulator的isZero scaladoc描述了错误的方法
[ SPARK-23792 ] - 日期时间功能的文档改进
[ SPARK-24134 ] - 文档“Tuning Spark”中缺少一个完整的句号
[ SPARK-24191 ] - Spark ML示例中用于Power Iteration Clustering的Scala示例代码
[ SPARK-24224 ] - spark.ml中Power Iteration Clustering的Java示例代码
[ SPARK-24378 ] - spark 2.3.0中date_trunc函数的错误示例
[ SPARK-24444 ] - 改进pandas_udf GROUPED_MAP文档以解释列分配
[ SPARK-24507 ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
[ SPARK-24628 ] - docs / mllib-data-types.md中示例代码的错别字
[ SPARK-25082 ] - Spark函数expm1的文档不完整
[ SPARK-25273 ] - 如何安装testthat v1.0.2
[ SPARK-25583 ] - 在文档中添加新添加的与历史服务器相关的配置
[ SPARK-25656 ] - 添加有关如何使用Parquet / ORC库选项的示例部分

[Spark版本更新]--Spark-2.4.0 发布说明

Bug

New Feature(新特性)

Story

Improvement(改进)

Test

Wish

Task

Dependency upgrade

Request

Umberlla

Documention

猜你喜欢