spark连接hive的两种方式

在pom中添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or
分类: 其他 发布时间: 01-09 23:20 阅读次数: 0

spark:Exception in connection from /192.168.40.56:46550 java.io.IOException:Connection reset by peer

错误日志如下 网上百度了很多 没解决 最后发现是自己代码问题 去掉coalesce就好了或是把分区数调大一点 原因如下:
分类: 其他 发布时间: 01-09 23:20 阅读次数: 0

spark 常用算子总结

https://blog.csdn.net/fortuna_i/article/details/81170565 链接 https://blog.csdn.net/u013013024/article/details/73498508 sparkUI详解
分类: 其他 发布时间: 01-09 23:19 阅读次数: 0

scala数据如: 14,2,,3,,,23 查找出值为null值的字段 填充固定的数字

package emg.branchs.test import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession /** * @Auther: sss * @Date: 2018/12/19 17:34 * @Description: 数据如: 14,2,,3,,,23 查找出值为null值的字段 填充固定的数字 */ object RepuaceNull { def main
分类: 其他 发布时间: 01-09 23:19 阅读次数: 0

按照当前日期的前一小时读取hdfs采坑记 Calendar.HOUR_OF_DAY

只读到23点的数据 读不到00点 看代码发现是这里写错了 //获取前一个小时 24小时制Calendar.HOUR_OF_DAY def getFrontHour(): String = { var dateFormat: SimpleDateFormat = new SimpleDateFormat("HH") var cal: Calendar = Calendar.getInstance() cal.add(Calendar.HOUR_OF_DAY,
分类: 其他 发布时间: 01-09 23:19 阅读次数: 0

获取当前时间前一小时(比如hdfs目录就是按照年月日小时来分级的)

直接调这个方法就可以 package emg.util import java.text.SimpleDateFormat import java.util.{Calendar, Date} /** * @Auther: sss * @Date: 2018/12/26 18:15 * @Description: */ object Time { def main(args: Array[String]): Unit = { val calendar: Cal
分类: 其他 发布时间: 01-09 23:19 阅读次数: 0

在hive中的模糊查询,删除表,删除不符合条件的数据

1.模糊查询 类似: 在MYSQL里面我们可以这样的执行SQL select a.Community,a.PID,b.spidertime,b.comm,b.showings,b.room from lianjia_list a ,RentHouse_lianjia b where a.site = 7 and b.city='北京' and b.comm like %a.Community%; 不行我们可以这样 select a.Community,a.PID,b.spiderti
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

将hive模糊查询结果写入分区表中

需求:只保留表1中12月27号的数据 其他日期的都不要 然后将结果又放回表1 最开始我是这种思路 : ~设置开启动态分区开关   set hive.exec.dynamic.partition=true; ~严格模式   set hive.exec.dynamic.partition.mode=strict; # strict/nonstrict   默认为strict, 对于分区表, 若插入语句没有指定至少一个静态分区字段, 则执行失败 就是得指定 partition(ds) ps:ds是分
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

使用Sqoop从PostgreSQL向Hive中迁移数据遇到的问题

postgreSQL的界面 跟mysql不同之处就是,多了一个 2 ,这也是导致数据迁移错误原因 1.数据库名称 2.schema 3.表名 PostgreSQL中的对象属于三层模型,即database->schema->table。PostgreSQL中一般包含多个database,每个database包含多个schema,schema下包含多个表。因此使用sqoop抽取数据时有时需要指定表是属于哪个schema。 解决方案:在代码最后指定--schema -- --schema 上图2的
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

爬虫 处理封禁的常用方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。 本文假定读者已经了解如何用代码来抓取一个远程的URL,并具备表单如何提交及JavaScript在浏览器如何运行的机制。想更多了解网络数据采集基础知识,可以参考文后的资料。 在采集网站的时会遇到一些比数据显示
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

Linux TOP命令按内存占用排序和按CPU占用排序

先输入top 然后 按P – 以 CPU 占用率大小的顺序排列进程列表 按M – 以内存占用率大小的顺序排列进程列表 top命令是Linux下常用的性能分析工具,比如cpu、内存的使用,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。 top显示系统当前的进程和其他状况,是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止. 比较准确的说,top命令提供了实时的对系统处理器的状态监视。它将显示系统中CP
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

前端笔记-基础笔记

// 关闭移动端浏览器 if(navigator.userAgent.toLowerCase().match(/MicroMessenger/i) == 'micromessenger'){ WeixinJSBridge.call('closeWindow') }else{ if(navigator.userAgent.indexOf('Android') > -1 || navigator.userAgent.indexOf('Linux') > -1){ window.opener=nul
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

解锁babel安装新姿势~ [这个问题是太简单还是太难 为啥网上五花八门的...]

全程比打一炮还畅快~ 第一步: npm install -g cnpm --registry=https://registry.npm.taobao.org 第二步: cnpm install -g --save-dev babel-cli 第三步: ... 据说授人以鱼不如授人以渔~ 第二步cnpm是指我们这里使用的是taobao的官方镜像速度贼拉快, 另外-g是指全局安装 这样的话在任何目录都可以使用babel的服务了. http://npm.taobao.org/ https://bab
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

atcoder A - Frog 1(DP)

A - Frog 1 Time Limit: 2 sec / Memory Limit: 1024 MB Score : 100100 points Problem Statement There are NN stones, numbered 1,2,…,N1,2,…,N. For each ii (1≤i≤N1≤i≤N), the height of Stone ii is hihi. There is a frog who is initially on Stone 11. He wil
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

把IDEA中新建的项目提交到Github仓库中

对于一个没有进行任何版本控制设置的idea工程,使其支持Github,设置步骤如下 到Git官网下载Git的安装包,安装好以后,Git的安装目录下的文件结构应该如下图所示 在IDEA开发工具中配置Git工具的路径, git安装路径\bin\git.exe 在GitHub的设置中,填入用户名密码,并登陆,如果没有账号,要先到GitHub网站上注册 先创建一个本地的项目仓库(相当于远程Github仓库的缓存或镜像),目录默认为工程所在根目录,一般不用修改。 若此时工程中已经有文件,则需要先向刚刚建
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

数组B:我想我需要一艘船屋

Fred Mapper is considering purchasing some land in Louisiana to build his house on. In the process of investigating the land, he learned that the state of Louisiana is actually shrinking by 50 square miles each year, due to erosion caused by the Mis
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

网络爬虫的提取爬虫实例

0x00 中国最好大学排名的爬取 我们通过上海交通大学设计研发的最好大学网来进行数据的抓取 这是本次爬取的url:软科中国最好大学排名 功能描述:   输入目标url   输出大学排名信息(排名、学校、总分)   技术路线:requests-bs4   定向爬取:只对该url进行爬取 分析:   查看网页源代码,为了快速定位,可以直接在源代码页面搜索“清华大学”,就能迅速定位我们想要的代码段,确定爬取计划可行。 接下来,我们查看根目录下的robots.txt文件,确认爬取行为的合法性,经过实践
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

spark常用的调参详解

1.在submit中设置 在submit中设置注意后面的 \ --conf "spark.shuffle.blockTransferService=nio" \ 大数据集shuffle的时候,节点之间传输数据时使用netty 改为nio --conf "spark.debug.maxToStringFields=500" \ 字段的字符串太长了 --conf "spark.sql.broadcastTimeout=1200" \ 广播等待超时时间,单位秒 --conf "spark.execu
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

075: 【Django数据库】ORM聚合函数详解-Sum

ORM聚合函数详解-Sum: Sum :求指定对象的总和。比如要求图书的销售总额。那么可以使用以下代码实现: from djang.db.models import Sum result = Book.objects.annotate(total=Sum("bookstore__price")).values("name","total") 以上的代码 annotate 的意思是给 Book 表在查询的时候添加一个字段叫做 total ,这个字段的数据来源是从 BookStore 模型的 pr
分类: 其他 发布时间: 01-09 23:18 阅读次数: 0

【共享单车】—— React后台管理系统开发手记:Router 4.0路由实战演练

前言:以下内容基于React全家桶+AntD实战课程的学习实践过程记录。最终成果github地址:https://github.com/66Web/react-antd-manager,欢迎star。 一、React Router 4.0核心概念 4.0版本中已不需要路由配置,一切皆组件 react-router:基础路由包 提供了一些router的核心api,包括Router,Route,Switch等 react-router-dom:基于浏览器的路由(包含react-router) 提供
分类: 其他 发布时间: 01-09 23:17 阅读次数: 0