Redis使用总结(1):基础使用

Redis使用总结(1):基础使用 Redis的安装及启动 安装 Ubuntu sudo apt-get install redis Mac sudo brew install redis Windows 不支持 启动 首先启动Redis服务器 redis-server 从客户端进行连接 redis-cli 其中: redis-cli参数 Usage: redis-cli [OPTIONS] [cmd [arg [arg ...]]] -h <hostname> 服务器主机名 (缺省
分类: 其他 发布时间: 04-13 22:53 阅读次数: 0

Java 动态代理作用

默认排序 Intopass 程序员,近期沉迷于动漫ING 305 人赞同了该回答 ① 首先你要明白静态代理的作用 我们有一个字体提供类,有多种实现(从磁盘,从网络,从系统) public interface FontProvider { Font getFont(String name); } public abstract class ProviderFactory { public static FontProvider getFontProvider() {
分类: 其他 发布时间: 04-13 22:53 阅读次数: 0

【大数据系列】hadoop2.0中的jobtracker和tasktracker哪里去了

低版本的hadoop下MapReduce处理流程 1、首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的中心,他需要与集群中的机器定时通信heartbeat,需要管理哪些程序应该跑在哪些机器上,需要管理所有job失败、重启等操作。 2、TaskTracker是Map-Reduce集群中每台机器都有的一个部分,他做的事情主要是监视自己所在机器的资源情况。 3、TaskTracker同时监视当前机器的t
分类: 其他 发布时间: 04-13 22:53 阅读次数: 0

Hive元数据信息对应MySQL数据库表(转载)

Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 讨论QQ:1586558083 目录 概述 一、存储Hive版本的元数据表(VERSION) 二、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) 1、DBS 2、DATABASE_PARAMS 三、Hive表和视图相关的元数据表 1、TBLS 2、TABLE_PARAMS 3、TBL_PRIVS 四、Hive文件存储信息相关的元数据表 1、SDS 2、SD_PARAMS 3、SERDES 4、SERDE_
分类: 其他 发布时间: 04-13 22:52 阅读次数: 0

hadoop的ganglia数据监控

如果我们想知道当前运行的hadoop集群的状态,可以通过hadoop的客户端和web页面来获得,但是如果我们想知道当前集群的繁忙程度,如读写次数,这些工具就办不到了。幸运的是hadoop提供了一种ganglia的数据采集方式。在这篇文章里,将介绍一下hadoop与ganglia的配置方式。 Hadoop 版本:1.2.1 OS 版本: Centos6.4 Jdk 版本: jdk1.6.0_32 Ganglia 版本:3.1.7 环境配置 机器名 Ip地址 功能 Hadoop1 192.168.
分类: 其他 发布时间: 04-13 22:52 阅读次数: 0

Hive 产生大量的临时文件(转载)

Hive 产生大量的临时文件 2018-07-01 作者:SleepSir 暂无评论 背景 收到磁盘告警后,第一时间查看hdfs容量趋势变化,下图中红色圈起来的部分,因为事情发生在昨天: 如上,当时看到hdfs的整体容量是突增起来的,而不是主键增长起来的,然后和业务确定了近期的插入量并不大后,就基本可以确定应该是hadoop本身出问题了,而不是确实有那么大的量产生,于是查看下到底是什么占用了这么大的空间: [root@aly-bigdata-hadoop-client ~]# hadoop f
分类: 其他 发布时间: 04-13 22:52 阅读次数: 0

Centos7-安装telnet服务 (转)

1,检查是否安装 telnet-server和xinetd rpm -qa telnet-server rpm -qa xinetd 2,如果没有安装过就安装 查找yum yum list |grep telnet yum list |grep xinetd 3,执行安装语句 yum -y install telnet-server.x86_64 yum -y install telnet.x86_64 yum -y install xinetd.x86_64 4,设置开机自启: system
分类: 其他 发布时间: 04-13 22:51 阅读次数: 0

离线安装 Cloudera ( CDH 5.x )

<div id="post_detail"> <div class="post"> <h2> <a id="cb_post_title_url" href="https://www.cnblogs.com/modestmt/p/4540818.html">离线安装 Cloudera ( CDH 5.x )</a> </h2> <div class="postbody"> <div id="cnblogs_post_body" class="blogpost-body"><p>要配置
分类: 其他 发布时间: 04-13 22:51 阅读次数: 0

基于CentOS7安装CM/mysql便捷安装

从零开始搭建基于CM的hadoop集群 系统环境 操作系统CentOS7 x64 Cloudera Manger: 5.14.4 CDH:5.14.4 基础环境配置 所有节点修改hostname(重启生效)及hosts hostnamectl --static set-hostname dt01 配置主机IP映射关系 vi /etc/hosts 关闭防火墙 所有节点关闭防火墙和selinux(重启生效) systemctl stop firewalld.service #停止firewall
分类: 其他 发布时间: 04-13 22:51 阅读次数: 0

安装单机的hbase2.1.0安装

安装单机habse已具备的前提条件:hadoop集群已经具备 hbase 的下载链接:http://archive.apache.org/dist/hbase/2.1.0/hbase-2.1.0-bin.tar.gz hbase的部署目录为:/user/local/bigdata/ 将下载的压缩包解压到部署目录。 1.修改配置文件:hbase-env.sh 添加 export JAVA_HOME=/usr/local/java/jdk1.8.0_152 export HBASE_MANAGES
分类: 其他 发布时间: 04-13 22:50 阅读次数: 0

实战:垃圾短信分类检测

上次我们讲到朴素贝叶斯分类,忘记的同学参考一文搞懂朴素贝叶斯分类,今天就通过朴素贝叶斯分来来实现一个简单的垃圾短信分类器。 数据预处理 实现这个分类器我们使用的数据集来自伦敦大学学院的机器学习数据集(UCL machine learning),图中所示为该数据集的部分数据: 一般用 pandas 模块来处理数据, 在这里需要用到 pandas 的read_table()方法,原因是文档集两列之间用了tab键来分割.如果对于read_table()该选择哪些参数不明确的话,需要先阅读 panda
分类: 其他 发布时间: 04-13 22:50 阅读次数: 0

python爬虫爬取英文考研词汇

这几天开始背诵考研单词,在网上查找英语考研必备词汇,发现都是长这样的: 每一页的点击太费时费力了。因此萌生了为什么不能用爬虫把单词爬下来保存在本地呢?说干咱就干。首先点开搜索中的某个网页,分析网页的结构,找到其中的规律。例如,我找的是跨考考研的网站: 这是该网站http://www.kuakao.com/english/ch/39183.html的英语词汇链接起始. 安全起见,我们先查看网站的robots协议,可以看到并没有限制我们爬取词汇页面。 接下来使用chrome浏览器,右键点击view
分类: 其他 发布时间: 04-13 22:50 阅读次数: 0

python命令行参数解析库

简介 最近公司项目需要加个小功能,就是python程序运行的时候可以通过命令行输入参数,增加某些选项可配置的功能。在开发过程中,如果遇到希望能够增加命令行参数这种需求,python提供了对应的库argparse, 针对这个task做个小总结 官方文档是这样介绍argparse库的。 The argparse module makes it easy to write user-friendly command-line interfaces. The program defines what
分类: 其他 发布时间: 04-13 22:49 阅读次数: 0

我在优达的学习之路

在2018年1月24号开始了我在优达的机器学习之旅,我在2018年6月4号的时候提前一月半月完成了课程要求,完成了毕业,总共用时不到5个月的时间,平均每天学习在1-2个小时之间。 课程特点 从总体来说,优达的课程体验还是很棒的。之前学习过其他网站在线课程,有以下几点区别: 优达的每个视频都很简洁,不讲废话,用最短的时间把知识点讲清楚,每次一个知识点,然后很多视频后面跟随着配套的测验和练习,对于刚学到的知识落地。 付费课程是逐步解锁的,在不提交当前课程要求的项目的时候是无法解锁后续课程的,我感觉
分类: 其他 发布时间: 04-13 22:49 阅读次数: 0

我用十年换一个转身

与其获得别人的肯定,我更喜欢自己内心世界的笃定 我们日复一日,年复一年的工作生活,有多少人会真正的停留下来反思自己的过去呢?每年指定的计划,只不过在下一年重复利用罢了。一年时间,说长不长,无非是365天,8760个小时而已,然而既然来到世上,总得需要做点困难而有意义的事情吧。 端午节对我来说是一个重要的时间点,并不仅仅代表放假吃粽子。在我三十岁的那个端午节,我完成了人生至关重要的转折。 如果你和我想法一样,不甘平庸的生活,希望通过努力改变自我,拥有一个更优秀的人生,那么请往下看。 玩物,真的丧
分类: 其他 发布时间: 04-13 22:49 阅读次数: 0

一文搞懂朴素贝叶斯分类

阅读此文假设你已经具备高中数学知识 什么是朴素贝叶斯 要搞懂朴素贝叶斯分类,首先需要了解什么是贝叶斯定理和特征条件独立假设,朴素贝叶斯算法就是基于这两个来实现的分类方法。 贝叶斯定理 贝叶斯定理通俗点讲就是求在事件 B 已经发生的前提下,事件 A 发生的概率,记为 P(A|B),被就成为 A 的后验概率,也称为条件概率。 其基本公式为: P(A|B)=P(A)∗P(B|A)P(B) P(A|B)=P(A)∗P(B|A)P(B) P(A)就叫做先验概率或边缘概率。 P(B|A) 就是在 事件A
分类: 其他 发布时间: 04-13 22:49 阅读次数: 0

一文搞懂感知机算法

什么是感知机 感知机(preceptron)是线性分类的二分类模型,输入为实例的特征向量,输出为实例的类别,分别用 1 和 -1 表示。感知机将输入空间(特征空间)中的实例划分为正负两类分离的超平面,旨在求出将训练集进行线性划分的超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得最优解。感知机是神经网络和支持向量机的基础。 感知机模型 感知机的函数公式为: f(x)=sign(w⋅x+b) f(x)=sign(w⋅x+b) 其中, w和 b 为感知机模型参数,w∈
分类: 其他 发布时间: 04-13 22:48 阅读次数: 0

100天挑战

种一棵树最好的时间是十年前,其次是现在。 我每天早上开始工作前都有看github trending的习惯。有一天我发现了一个100天机器学习的repo(代码仓库),感觉非常棒,特别适合拿来作为入门机器学习的资料并培养坚持学习的习惯。本人不才,也参与了原英文 repo 的翻译工作,目前中文 repo已经同步到英文最新版。如下图: 目前英文原本的 repo 已经获得了 9124 个⭐️,中文版的由于比较小众,目前仅收获 191 个⭐️。 好的资料值得分享,因此我萌生了建了一个微信群的想法,召集一些
分类: 其他 发布时间: 04-13 22:48 阅读次数: 0

统计学习方法之kNN算法

统计学习方法读书笔记之kNN算法 k 近邻是什么 k 近邻法是机器学习中最基本的分类和回归方法,也称为kNN算法。通常k近邻法用于分类问题。 k近邻法假定给定一个训练数据集,其中实例类别已定。分类时,对新的实例,根据其K个最近邻的训练实例类别,一般通过多数表决的方式来进行预测。 例如,有两堆水果,一堆是橙子,一堆是柚子,新拿到一个水果,判断是橙子还是柚子。一般来说,柚子更大更红。那么判断和该水果最相近的 3 个水果是什么,比如 3 个最近的邻居是柚子,那么我们可以判断新拿到的水果是柚子,这就是
分类: 其他 发布时间: 04-13 22:48 阅读次数: 0

100行代码实现电影推荐引擎系统

推荐引擎是一个能预测用户兴趣点的模型。将推荐引擎应用于电影情境,便成为一个电影推荐引擎,应用到购物中,则成为购物推荐引擎。 通过预测当前用户可能会喜欢的内容,将相应的东西从数据库中筛选出来,这样有助于将用户和数据集中的内容连接起来,通过推荐合适的内容,可以增加用户消费。 推荐引擎通常用协同过滤(CF) 或基于内容的过滤来产生一组推荐。两种过滤方法不同之处在于挖掘推荐方式。协同过滤从当前用户过去的行为和其他用户对当前用户的评分来构建模型,然后使用这个模型来预测用户可能感兴趣的内容。而基于内容的过
分类: 其他 发布时间: 04-13 22:48 阅读次数: 0