Redis使用总结(1):基础使用
Redis使用总结(1):基础使用 Redis的安装及启动 安装 Ubuntu sudo apt-get install redis Mac sudo brew install redis Windows 不支持 启动 首先启动Redis服务器 redis-server 从客户端进行连接 redis-cli 其中: redis-cli参数 Usage: redis-cli [OPTIONS] [cmd [arg [arg ...]]]
-h <hostname> 服务器主机名 (缺省
Java 动态代理作用
默认排序 Intopass 程序员,近期沉迷于动漫ING 305 人赞同了该回答 ① 首先你要明白静态代理的作用 我们有一个字体提供类,有多种实现(从磁盘,从网络,从系统) public interface FontProvider {
Font getFont(String name);
}
public abstract class ProviderFactory {
public static FontProvider getFontProvider() {
【大数据系列】hadoop2.0中的jobtracker和tasktracker哪里去了
低版本的hadoop下MapReduce处理流程 1、首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的中心,他需要与集群中的机器定时通信heartbeat,需要管理哪些程序应该跑在哪些机器上,需要管理所有job失败、重启等操作。 2、TaskTracker是Map-Reduce集群中每台机器都有的一个部分,他做的事情主要是监视自己所在机器的资源情况。 3、TaskTracker同时监视当前机器的t
Hive元数据信息对应MySQL数据库表(转载)
Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 讨论QQ:1586558083 目录 概述 一、存储Hive版本的元数据表(VERSION) 二、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) 1、DBS 2、DATABASE_PARAMS 三、Hive表和视图相关的元数据表 1、TBLS 2、TABLE_PARAMS 3、TBL_PRIVS 四、Hive文件存储信息相关的元数据表 1、SDS 2、SD_PARAMS 3、SERDES 4、SERDE_
hadoop的ganglia数据监控
如果我们想知道当前运行的hadoop集群的状态,可以通过hadoop的客户端和web页面来获得,但是如果我们想知道当前集群的繁忙程度,如读写次数,这些工具就办不到了。幸运的是hadoop提供了一种ganglia的数据采集方式。在这篇文章里,将介绍一下hadoop与ganglia的配置方式。 Hadoop 版本:1.2.1 OS 版本: Centos6.4 Jdk 版本: jdk1.6.0_32 Ganglia 版本:3.1.7 环境配置 机器名 Ip地址 功能 Hadoop1 192.168.
Hive 产生大量的临时文件(转载)
Hive 产生大量的临时文件 2018-07-01 作者:SleepSir 暂无评论 背景 收到磁盘告警后,第一时间查看hdfs容量趋势变化,下图中红色圈起来的部分,因为事情发生在昨天: 如上,当时看到hdfs的整体容量是突增起来的,而不是主键增长起来的,然后和业务确定了近期的插入量并不大后,就基本可以确定应该是hadoop本身出问题了,而不是确实有那么大的量产生,于是查看下到底是什么占用了这么大的空间: [root@aly-bigdata-hadoop-client ~]# hadoop f
Centos7-安装telnet服务 (转)
1,检查是否安装 telnet-server和xinetd rpm -qa telnet-server rpm -qa xinetd 2,如果没有安装过就安装 查找yum yum list |grep telnet yum list |grep xinetd 3,执行安装语句 yum -y install telnet-server.x86_64 yum -y install telnet.x86_64 yum -y install xinetd.x86_64 4,设置开机自启: system
离线安装 Cloudera ( CDH 5.x )
<div id="post_detail">
<div class="post">
<h2>
<a id="cb_post_title_url" href="https://www.cnblogs.com/modestmt/p/4540818.html">离线安装 Cloudera ( CDH 5.x )</a>
</h2>
<div class="postbody">
<div id="cnblogs_post_body" class="blogpost-body"><p>要配置
基于CentOS7安装CM/mysql便捷安装
从零开始搭建基于CM的hadoop集群 系统环境 操作系统CentOS7 x64 Cloudera Manger: 5.14.4 CDH:5.14.4 基础环境配置 所有节点修改hostname(重启生效)及hosts hostnamectl --static set-hostname dt01 配置主机IP映射关系 vi /etc/hosts 关闭防火墙 所有节点关闭防火墙和selinux(重启生效) systemctl stop firewalld.service #停止firewall
安装单机的hbase2.1.0安装
安装单机habse已具备的前提条件:hadoop集群已经具备 hbase 的下载链接:http://archive.apache.org/dist/hbase/2.1.0/hbase-2.1.0-bin.tar.gz hbase的部署目录为:/user/local/bigdata/ 将下载的压缩包解压到部署目录。 1.修改配置文件:hbase-env.sh 添加 export JAVA_HOME=/usr/local/java/jdk1.8.0_152 export HBASE_MANAGES
实战:垃圾短信分类检测
上次我们讲到朴素贝叶斯分类,忘记的同学参考一文搞懂朴素贝叶斯分类,今天就通过朴素贝叶斯分来来实现一个简单的垃圾短信分类器。 数据预处理 实现这个分类器我们使用的数据集来自伦敦大学学院的机器学习数据集(UCL machine learning),图中所示为该数据集的部分数据: 一般用 pandas 模块来处理数据, 在这里需要用到 pandas 的read_table()方法,原因是文档集两列之间用了tab键来分割.如果对于read_table()该选择哪些参数不明确的话,需要先阅读 panda
python爬虫爬取英文考研词汇
这几天开始背诵考研单词,在网上查找英语考研必备词汇,发现都是长这样的: 每一页的点击太费时费力了。因此萌生了为什么不能用爬虫把单词爬下来保存在本地呢?说干咱就干。首先点开搜索中的某个网页,分析网页的结构,找到其中的规律。例如,我找的是跨考考研的网站: 这是该网站http://www.kuakao.com/english/ch/39183.html的英语词汇链接起始. 安全起见,我们先查看网站的robots协议,可以看到并没有限制我们爬取词汇页面。 接下来使用chrome浏览器,右键点击view
python命令行参数解析库
简介 最近公司项目需要加个小功能,就是python程序运行的时候可以通过命令行输入参数,增加某些选项可配置的功能。在开发过程中,如果遇到希望能够增加命令行参数这种需求,python提供了对应的库argparse, 针对这个task做个小总结 官方文档是这样介绍argparse库的。 The argparse module makes it easy to write user-friendly command-line interfaces. The program defines what
一文搞懂朴素贝叶斯分类
阅读此文假设你已经具备高中数学知识 什么是朴素贝叶斯 要搞懂朴素贝叶斯分类,首先需要了解什么是贝叶斯定理和特征条件独立假设,朴素贝叶斯算法就是基于这两个来实现的分类方法。 贝叶斯定理 贝叶斯定理通俗点讲就是求在事件 B 已经发生的前提下,事件 A 发生的概率,记为 P(A|B),被就成为 A 的后验概率,也称为条件概率。 其基本公式为: P(A|B)=P(A)∗P(B|A)P(B) P(A|B)=P(A)∗P(B|A)P(B) P(A)就叫做先验概率或边缘概率。 P(B|A) 就是在 事件A
统计学习方法之kNN算法
统计学习方法读书笔记之kNN算法 k 近邻是什么 k 近邻法是机器学习中最基本的分类和回归方法,也称为kNN算法。通常k近邻法用于分类问题。 k近邻法假定给定一个训练数据集,其中实例类别已定。分类时,对新的实例,根据其K个最近邻的训练实例类别,一般通过多数表决的方式来进行预测。 例如,有两堆水果,一堆是橙子,一堆是柚子,新拿到一个水果,判断是橙子还是柚子。一般来说,柚子更大更红。那么判断和该水果最相近的 3 个水果是什么,比如 3 个最近的邻居是柚子,那么我们可以判断新拿到的水果是柚子,这就是
100行代码实现电影推荐引擎系统
推荐引擎是一个能预测用户兴趣点的模型。将推荐引擎应用于电影情境,便成为一个电影推荐引擎,应用到购物中,则成为购物推荐引擎。 通过预测当前用户可能会喜欢的内容,将相应的东西从数据库中筛选出来,这样有助于将用户和数据集中的内容连接起来,通过推荐合适的内容,可以增加用户消费。 推荐引擎通常用协同过滤(CF) 或基于内容的过滤来产生一组推荐。两种过滤方法不同之处在于挖掘推荐方式。协同过滤从当前用户过去的行为和其他用户对当前用户的评分来构建模型,然后使用这个模型来预测用户可能感兴趣的内容。而基于内容的过
今日推荐
周排行