达观杯数据竞赛系列(一)
达观杯数据竞赛系列(一) 1,下载数据,读取数据,观察数据: 压缩的数据近1个G,解压后的数据也是2.6个G,分为两个csv文件。 数据包含2个csv文件: 》train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。 注:
统计学基础(三):假设检验
1,假设检验的定义: 假设检验也叫显著性检验,是以小概率反证法的逻辑推理,判断假设是否成立的统计方法,它首先假设样本对应的总体参数(或分布)与某个已知总体参数(或分布)相同,然后根据统计量的分布规律来分析样本数据,利用样本信息判断是否支持这种假设,并对检验假设做出取舍抉择,做出的结论是概率性的,不是绝对的肯定或否定。 情景:掷硬币 扔了两次,都是“花”朝上,概率为0.5 * 0.5 ; 继续扔,扔了四次,也都是“花”朝上,概率为0.5 * 0.5 * 0.5 * 0.5 ; 扔了十次,也都是“
达观杯数据竞赛系列(二)
1,TF-IDF: TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分
机器学习:集成学习之GBDT
相关知识模块:前向分布算法,负梯度拟合,损失函数,回归,二分类,多分类,正则化,优缺点,sklearn参数,应用场景。 1,算法思想: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。 GBDT主要由三个概念组成:R
达观文本竞赛系列(三)
1,word2vec词向量原理: word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。 用词向量来表示词并不是word2vec的首创,在很久之前就出现了。最早的词向量是很冗长的,它使用是词向量维度大小为整个词汇表的大小,对于每个
达观杯数据竞赛系列(四)
算法原理: 1,逻辑回归: 逻辑回归就是在用回归的办法做分类任务,那有什么办法可以做到呢,此时我们就先考虑最简单的二分类,结果是正例或者负例的任务. 按照多元线性回归的思路,我们可以先对这个任务进行线性回归,学习出这个事情结果的规律,比如根据人的饮食,作息,工作和生存环境等条件预测一个人"有"或者"没有"得恶性肿瘤,可以先通过回归任务来预测人体内肿瘤的大小,取一个平均值作为阈值,假如平均值为y,肿瘤大小超过y为恶心肿瘤,无肿瘤或大小小于y的,为非恶性.这样通过线性回归加设定阈值的办法,就可以完
XGB原理及sklearn参数
1,XGBoost: 算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。 注:w_q(x)为叶子节点q的分数,f(x)为其中一棵回归树。 如下图例子,训练出了2棵决策树,小孩的预测分数就是两棵树中小孩所落到的结点的分数相加。爷爷的预
IP地址与MAC地址缺一不可吗?
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81132586 答案是肯定的,最近复习到了网络这块的知识,才突然弄懂了。 (1)首先,我们如果第一次将信息从A端发往B端,那么信息需要从应用层到物理层一层一层进行封装,到达对端后再从物理层到应用层依次解包,拿到信息。 (2)A端发送的信息到了网络层的时候只能知道对方的IP地址,却不了解对方的MAC地址,到不了数据链路层,无法发送帧,所以这时我
【leetcode】Reverse Integer
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81134145 题目描述
Reverse digits of an integer.
Example1: x = 123, return 321
Example2: x = -123, return -321
click to show spoilers.
Have you thought about this?
Here are so
[剑指offer] 连续子数组最大和
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81141995 题目:对于一个有正有负的整数数组,请找出总和最大的连续数列。
给定一个int数组A和数组大小n,请返回最大的连续数列的和。 1.思路: (1)定义两个变量,一个保存最终的最大和,一个是临时变量,不能初始化为0,初始化都为数组第一个数(防止都是负数,它的和肯定是负数)。 (2)for循环依次向后遍历,如果tmp临时变量是负数,说
输入一个字符串,求字符串中包含的字符集合
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81165510 输入:abcqweracb
输出:abcqwer 一、剖析 采用数组的方式,定义一个可以存放256个字符的数组(ASCII最多包含256个字符),先将数组初始化1,然后开始进行遍历输入字符串,第一次遇到就将其输出,并将数组中的字符值改为0。 二、在线oj,输入输出 对于<剑指Offer>这种有函数定义的题目,你只要完成函数,返
求最小步数变为斐波那契数
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81234073 一、解析: 当我们一步一步走的时候,一边计算斐波那契数,一边计算左边的数和输入的N值进行差值运算,直到N比斐波那契数小就直接退出。 二、代码 int main()
{
int a=0;
int b=1;
int c=1;
int left=0;
int right=0;
int
字符串中连续最长数字串
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81263653 一、题目要求 二、解析 使用左右下标来记录连续数字,使用cur来记录最长连续数字的个数。 三、代码 #include <iostream>
using namespace std;
void print(string str)
{
int i=0;
int left=0; //记录左下标
int r
今日推荐
周排行