代码天地

离散数学-图论相关

版权声明： https://blog.csdn.net/Peter_Luoz/article/details/89213854 文章目录图的基本概念无向图和有向图无向图有向图关联和度关联度握手定理简单图与完全图简单图通路、回路和图的连通性通路回路一些关于通路和回路的定理定理1 定理2 连通性割集二部图定义二部图判定 Hall定理欧拉图欧拉图的判定欧拉图的求解哈密顿图定义性质哈密顿图的判定树无向树定义性质基本回路和基本割集基本回路

分类: 其他发布时间: 04-11 23:29 阅读次数: 0

统计学基础（一）

目录：1，统计学定义2，样本3，随机变量4，概率密度函数5，二项分布6，伯努利分布7，大数定律，中心极限定理8，正态分布（高斯分布） 1，统计学定义：本科教材中对统计学的定义为：收集、处理、分析、解释数据并从中得出结论的科学。数据分析的方法可分为描述统计和推断统计。描述统计学 descriptive statistics 假设有一个数据集，在不告诉别人所有数据的情况下介绍这些数据的情况，通过一些指示性数字来代表所有的数据，而无需将所有的数据都说一次。推论统计学 inferential st

分类: 其他发布时间: 04-11 23:29 阅读次数: 0

随机森林原理及实践

思路：集成学习概念，个体学习器概念，boosting bagging，结合策略(平均法，投票法，学习法)，随机森林思想，随机森林的推广，优缺点，sklearn参数，应用场景。第一部分：前奏 1，集成学习：bagging、boosting；结合策略（平均法，投票法，学习法等）对于训练集数据，通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。 1），bagging，boosting Bagging即套袋法，其算法过程如下： 1、从原始样本集中抽取

分类: 其他发布时间: 04-11 23:28 阅读次数: 0

统计学基础二

1，中心极限定理，大数定律：大数定律就以严格的数学形式表现了随机现象的一个性质，平稳结果的稳定性（或者说频率的稳定性）；大数定律从理论上解决：用频率近似代替概率的问题，用样本均值近似代替理论均值。中心极限定理：当样本量N逐渐趋于无穷大时，N个抽样样本的均值的频数逐渐趋于正态分布，其对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。两者区别：大数定律是说，n只要越来越大，我把这n个独立同分布的数加起来去除以n得到的这个样

分类: 其他发布时间: 04-11 23:28 阅读次数: 0

达观杯数据竞赛系列（一）

达观杯数据竞赛系列（一） 1，下载数据，读取数据，观察数据：压缩的数据近1个G，解压后的数据也是2.6个G，分为两个csv文件。数据包含2个csv文件：》train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注(class)。注：

分类: 其他发布时间: 04-11 23:28 阅读次数: 0

统计学基础（三）：假设检验

1，假设检验的定义：假设检验也叫显著性检验，是以小概率反证法的逻辑推理，判断假设是否成立的统计方法，它首先假设样本对应的总体参数（或分布）与某个已知总体参数（或分布）相同，然后根据统计量的分布规律来分析样本数据，利用样本信息判断是否支持这种假设，并对检验假设做出取舍抉择，做出的结论是概率性的，不是绝对的肯定或否定。情景：掷硬币扔了两次，都是“花”朝上，概率为0.5 * 0.5 ；继续扔，扔了四次，也都是“花”朝上，概率为0.5 * 0.5 * 0.5 * 0.5 ；扔了十次，也都是“

分类: 其他发布时间: 04-11 23:28 阅读次数: 0

达观杯数据竞赛系列（二）

1，TF-IDF： TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分

分类: 其他发布时间: 04-11 23:27 阅读次数: 0

机器学习：集成学习之GBDT

相关知识模块：前向分布算法，负梯度拟合，损失函数，回归，二分类，多分类，正则化，优缺点，sklearn参数，应用场景。 1，算法思想： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。 GBDT主要由三个概念组成：R

分类: 其他发布时间: 04-11 23:27 阅读次数: 0

统计学基础（四）

1，线性回归：线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w’x+e，e为误差服从均值为0的正态分布。 [1] 回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。线性回归，就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候，就

分类: 其他发布时间: 04-11 23:27 阅读次数: 0

达观文本竞赛系列(三）

1，word2vec词向量原理： word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法访问，因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。用词向量来表示词并不是word2vec的首创，在很久之前就出现了。最早的词向量是很冗长的，它使用是词向量维度大小为整个词汇表的大小，对于每个

分类: 其他发布时间: 04-11 23:27 阅读次数: 0

达观杯数据竞赛系列（四）

算法原理： 1，逻辑回归：逻辑回归就是在用回归的办法做分类任务,那有什么办法可以做到呢,此时我们就先考虑最简单的二分类,结果是正例或者负例的任务. 按照多元线性回归的思路,我们可以先对这个任务进行线性回归,学习出这个事情结果的规律,比如根据人的饮食,作息,工作和生存环境等条件预测一个人"有"或者"没有"得恶性肿瘤,可以先通过回归任务来预测人体内肿瘤的大小,取一个平均值作为阈值,假如平均值为y,肿瘤大小超过y为恶心肿瘤,无肿瘤或大小小于y的,为非恶性.这样通过线性回归加设定阈值的办法,就可以完

分类: 其他发布时间: 04-11 23:26 阅读次数: 0

XGB原理及sklearn参数

1，XGBoost：算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。注：w_q(x)为叶子节点q的分数，f(x)为其中一棵回归树。如下图例子，训练出了2棵决策树，小孩的预测分数就是两棵树中小孩所落到的结点的分数相加。爷爷的预

分类: 其他发布时间: 04-11 23:26 阅读次数: 0

高级IO模型

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/80701842 一、网络IO 1.高级IO背景对于网络IO，IO效率提升是至关重要的，一个数据在网络中的传输，其传输时间主要由网络中的延迟所决定，具有不确定性（什么时候来），所以接收IO应用程序必须经过高效的等，及时的搬迁数据来提高传输速度。众所周知，数据的搬迁取决于网卡、硬盘、内存的速度，但是经过多年的发展，它们的发展已经遇到了瓶颈，所以

分类: 其他发布时间: 04-11 23:26 阅读次数: 0

IP地址与MAC地址缺一不可吗？

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81132586 答案是肯定的，最近复习到了网络这块的知识，才突然弄懂了。（1）首先，我们如果第一次将信息从A端发往B端，那么信息需要从应用层到物理层一层一层进行封装，到达对端后再从物理层到应用层依次解包，拿到信息。（2）A端发送的信息到了网络层的时候只能知道对方的IP地址，却不了解对方的MAC地址，到不了数据链路层，无法发送帧，所以这时我

分类: 其他发布时间: 04-11 23:25 阅读次数: 0

【leetcode】Reverse Integer

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81134145 题目描述 Reverse digits of an integer. Example1: x = 123, return 321 Example2: x = -123, return -321 click to show spoilers. Have you thought about this? Here are so

分类: 其他发布时间: 04-11 23:25 阅读次数: 0

[剑指offer] 连续子数组最大和

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81141995 题目：对于一个有正有负的整数数组，请找出总和最大的连续数列。给定一个int数组A和数组大小n，请返回最大的连续数列的和。 1.思路：（1）定义两个变量，一个保存最终的最大和，一个是临时变量，不能初始化为0，初始化都为数组第一个数（防止都是负数，它的和肯定是负数）。（2）for循环依次向后遍历，如果tmp临时变量是负数，说

分类: 其他发布时间: 04-11 23:24 阅读次数: 0

输入一个字符串，求字符串中包含的字符集合

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81165510 输入：abcqweracb 输出：abcqwer 一、剖析采用数组的方式，定义一个可以存放256个字符的数组（ASCII最多包含256个字符），先将数组初始化1，然后开始进行遍历输入字符串，第一次遇到就将其输出，并将数组中的字符值改为0。二、在线oj，输入输出对于<剑指Offer>这种有函数定义的题目，你只要完成函数，返

分类: 其他发布时间: 04-11 23:24 阅读次数: 0

求最小步数变为斐波那契数

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81234073 一、解析：当我们一步一步走的时候，一边计算斐波那契数，一边计算左边的数和输入的N值进行差值运算，直到N比斐波那契数小就直接退出。二、代码 int main() { int a=0; int b=1; int c=1; int left=0; int right=0; int

分类: 其他发布时间: 04-11 23:24 阅读次数: 0

逆置链表

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81254745 题目：将一个链表逆置解析：使用三个指针，前、中、后，改变中指针，遍历后指针。 ListNode* ReverseList(ListNode* pHead) { if(pHead==NULL||pHead->next==NULL) { return pHead; } ListN

分类: 其他发布时间: 04-11 23:23 阅读次数: 0

字符串中连续最长数字串

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/guorong520/article/details/81263653 一、题目要求二、解析使用左右下标来记录连续数字，使用cur来记录最长连续数字的个数。三、代码 #include <iostream> using namespace std; void print(string str) { int i=0; int left=0; //记录左下标 int r

分类: 其他发布时间: 04-11 23:23 阅读次数: 0