从《牛津高阶英汉词典》中提取单词(1)

网上下载了一部《牛津高阶英汉词典》,想把其中单词提取出来,形成一个单词表。目的是查找有部分组合相同的单词,如“one”和“bone”、“cone”中有“one”组合相同。相同部分可以在单词前面部分,也可以是后面部分、中间部分。目的是通过正则表达式提取这样的单词,便于进行单词记忆。然而网上下载的这部词典是以多个txt文件保存在不同目录中的,需要一点一点研究从多个目录多个文件中提取单词表。就以此为目标...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

一篇文章读懂2018年大数据为什么这么火?小白该如何去学习大数据

学习大数据之前,我们首先要知道的就是: 1.什么是大数据? 2.大数据是做什么的? 3.大数据就业领域,就业形势是怎么样的? 4.等明确以上三点之后,就可以开始着手学习大数据 要确定学习线路,零基础编程基础的小白怎么去学习? 仔细阅读完本文,你需要花大概20分钟 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

如何成功转行大数据开发工程师

        首先,我个人进入大数据行业也纯属偶然,当年实习的时候做的是纯纯的Java开发,后来正式毕业了以后找了份Java开发的工作,本以为和大多数Java猿一样天天搞增删改查了,但是巧的是搞好部门有个做大数据开发的离职了,数据开发缺人手,然后领导就让我顶上了。刚开始什么Hadoop,HDFS也是各种不懂,只会写hive,因为毕竟有SQL基础嘛。再后来发现hive实现一些东西很麻烦,就开...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

就业|大数据人才的岗位薪资水平到底有多高?

据最新发布的《大数据人才报告》显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万。领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺。数据分析人才跳槽速度也最快,平均跳槽速度为19.8个月。根据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万,而在BAT企业招聘的职位里,60%以上都在招大数据人才。大数据专业就业三...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

公众号运营策划

企业公众号策划书            *为企业分析需求,打造优质公众号,建立管理体系,设计小程序、门店小程序、微商城,策划活动营销、线上线下推广,数据可视化、数据统计。   项目名称 企业公众号建设       目的            建立企业公众号(服务号)模板体系、提高公司业务、推广企业形象、打造企业品牌、丰富文章
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

安装xunsearch后,安装 xunsearch sdk php

 安装控制面板 yum install -y wget && wget -O install.sh http://download.bt.cn/install/install.sh && sh install.sh 等待一段时间后,会出现控制面板地址和账号密码   样例如下 Bt-Panel: http://${runtime.vars.cvmIpAdd...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

学习笔记第1天-Ajax

1. Ajax是什么?     Ajax的全称是:Asynchronous JaaScript and XML(异步的JavaScript和XML),是一种无需重新加载整个网页的情况下能够更新部分网页的技术。 2. 如何获取XMLRequest对象? var request; if(window.XMLHttpRequest){ request = new XMLHttpRe
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

《python神经网络》读书笔记(三)

识别自己写的数字 下面到了好玩儿的部分。用包含了旋转图像角度的数据训练好的200个隐藏层结点、10世代的模型,识别率为0.9771,识别我家三口写的0-9共30个数字,故意写得乱一点。正确识别了12个,识别率只有40%,在调节过程中我发现数字在图片中的位置和图片的对比度都会影响识别效果,我把测试集的对比度+0.1(值域是0.01 ~ 0.99)识别对了15个,+0.2,识别对了18个,对比度打满...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

python多进程逐对比较文档相似度+均分比较次数

多进程提高运算效率 最近用python做数据处理,363个文件逐对比较相似度,总共65703次。之前学习神经网络发现cpu使用率只有30%多,应该是只用了一核,这次计算密集型任务,用多进程跑下看看提速效果。先把分析对象拆成多份,让每份的数量基本均匀,然后多线程跑,风扇果然嗡嗡起来了。下面是一个小样本量的测试结果,由于每次比对的计算量不同,所以效率不会是线性提升,我做了一个计算量相同的测试,效率也...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

python multiprocess.pool —— 大家好,我是池子

上一篇博客python多进程逐对比较文档相似度+均分比较次数里面开始用multiprocess,用得很原始,比较笨。把100次比较切成等分的4份,每份25次,因为每次比较的计算量是不同的,虽然切成均分的份数了,但是实际上往往3个进程跑完了,还有一个计算量大的要单独跑半天。然后研究了一下pool,于是池子来了。 少啰嗦,先看代码: result = Manager().list() p1 = ...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

手工计算F1和绘制ROC、AUC

学习了很多博客文章和书本内容,对评价模型的方法有了一点理解,自己编码绘制了一遍PRC和ROC、AUC,相当于粗糙实现sklearn里面的方法。 # -*- coding:utf-8 -*- from __future__ import division import numpy as np import pandas as pd from sklearn.metrics import f1_s...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

再谈消息队列技术-转

再谈消息队列技术 上周,我们举办了第二届技术沙龙,我这边主要演讲了消息队列技术的议题,现分享给大家: 在我们团队内部,随着消息应用中心(任务中心)的广泛应用,有时候我们感觉不到消息队列的存在,但这不影响消息队列在高可用、分布式、高并发架构下的核心地位。 消息队列都应用到了哪些实际的应用场景中? 一、再谈消息队列的应用场景 异步处理:例如短信通知、终端状态推送、App推送、用户注册等 数...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

[Warning] TIMESTAMP with implicit DEFAULT value is deprecated.explicit_defaults_for_timestamp

解决方案: vim my.cnf  #开启查询缓存 explicit_defaults_for_timestamp=true [Warning] IP address 'XXX ' could not be resolved: Name or service not known   [mysqld] skip-name-resolve
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

第三方账号登录功能接入全流程分析(转)

第一次写产品方面的心得文章,如有写的不好或者错误的地方,请大家多多指教。 本人在一家网络游戏公司工作,负责公司的基础平台性的产品。主要有用户中心、充值/支付平台、账号密保APP等。我们公司的用户中心之前没有接入第三方账号登录,虽然之前已经向公司提出过产品需求,因公司有一些战略考虑,也一直没有启动。这次趁着新游戏的接入工作,终于把这个项目提上日程。作为产品经理,我负责了开放平台申请、产品设...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

理解Docker(8):Docker 存储之卷(Volume) (转)

理解Docker(8):Docker 存储之卷(Volume) (1)Docker 安装及基本用法 (2)Docker 镜像 (3)Docker 容器的隔离性 - 使用 Linux namespace 隔离容器的运行环境 (4)Docker 容器的隔离性 - 使用 cgroups 限制容器使用的资源 (5)Docker 网络 (6)若干企业生产环境中的容器网络方案 (7)Docker...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

CentOS7.4中Docker以rw方式挂载volume报Permission denied问题

一、问题背景 今天在CentOS7.4.1708上实践Docker挂载volume,一切按照正常流程进行操作,无论是创建目录、创建文件、还是查看、编辑主机上创建好的文件,都报"Permission denied",具体如下: [root@ChatDevOps ~]# docker run -it -v /data/chatdevops:/data/webapp:rw ubuntu /bin/b...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

reboot 后 Docker服务及容器自动启动设置

重启reboot操作系统后,发现docker 服务未启动,容器也未启动,天生反骨,怎么才能重启后自动启动呢 解决问题两个问题: 1、docker服务自动重启设置 systemctl enable docker.service 2、docker容器自动启动设置 docker ps -a 使用一下命令对镜像从起: docker restart imageid 在运行doc...
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

数组与集合的详解

数组 优点:查询快,如果知道索引可以快速地存取 缺点:删除慢,大小固定 有序数组 优点:比无序数组查找快 缺点:删除和插入慢,大小固定
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

多线程的详解

多线程 一、进程 定义:正在执行的程序,进程就是系统会分配内存空间和资源。 问题:eclipse和vnc是同时运行的吗? 其实不是,看似同时运行,其实不是。在同一个时间点上,只能由一个程序在cpu上运行。虽然目前电脑是多核,但是cpu的 个数再多,也多不过进程数。【其实正在执行的程序都是在抢占cpu,多进程是提高了cpu的使用率】 二、线程 定义:程序的【一条执行路径】
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0

XML的解析方法详解

XML 概述: 可扩展性标记语言  eXtensible Markup Language XML用于描述数据 应用场合:1.持久化存储数据;2.数据交换;3.数据配置 在Android中,常见的XML解析器分别为SAX解析器、DOM解析器和PULL解析器,下面,我将一一向大家
分类: 其他 发布时间: 10-06 23:30 阅读次数: 0