1.大数据处理
使用多个文件分割。
int main()
{
// 打开存储数据的原始文件
FILE *pf = fopen("data.dat", "rb");
if (pf == nullptr)
return 0;
// 这里由于原始数据量缩小,所以这里文件划分的个数也变小了,11个小文件
const int FILE_NO = 11;
FILE *pfile[FILE_NO] = { nullptr };
for (int i = 0; i < FILE_NO; ++i)
{
char filename[20];
sprintf(filename, "data%d.dat", i+1);
pfile[i] = fopen(filename, "wb+");
}
// 哈希映射,把大文件中的数据,映射到各个小文件当中
int data;
while (fread(&data, 4, 1, pf) > 0)
{
int findex = data % FILE_NO;
fwrite(&data, 4, 1, pfile[findex]);
}
// 因为结果要记录数字和重复的次数,所以需要打包一个类类型
struct Node
{
Node(int v, int c) :val(v), count(c) {}
// 为什么要实现operator>,因为小根堆里面要比较Node对象的大小
bool operator>(const Node &src)const
{
return count > src.count;
}
int val; // 表示数字的值
int count; // 表示数字重复的次数
};
// 定义一个链式哈希表
unordered_map<int, int> numMap;
// 先定义一个小根堆
priority_queue<Node, vector<Node>, greater<Node>> minheap;
// 分段求解小文件的top 10大的数字,并求出最终结果
for (int i = 0; i < FILE_NO; ++i)
{
// 恢复小文件的文件指针到起始位置
fseek(pfile[i], 0, SEEK_SET);
while (fread(&data, 4, 1, pfile[i]) > 0)
{
numMap[data]++;
}
int k = 0;
auto it = numMap.begin();
// 如果堆是空的,先往堆方10个数据
if (minheap.empty())
{
// 先从map表中读10个数据到小根堆中,建立top 10的小根堆,最小的元素在堆顶
for (; it != numMap.end() && k < 10; ++it, ++k)
{
minheap.push(Node(it->first, it->second));
}
}
// 把K+1到末尾的元素进行遍历,和堆顶元素比较
for (; it != numMap.end(); ++it)
{
// 如果map表中当前元素重复次数大于,堆顶元素的重复次数,则替换
if (it->second > minheap.top().count)
{
minheap.pop();
minheap.push(Node(it->first, it->second));
}
}
// 清空哈希表,进行下一个小文件的数据统计
numMap.clear();
}
// 堆中剩下的就是重复次数最大的前k个
while (!minheap.empty())
{
Node node = minheap.top();
cout << node.val << " : " << node.count << endl;
minheap.pop();
}
// a和b两个文件,各有50亿个URL/IP,IP四个字节 内存限制400M
return 0;
}
2.git知识分享 实践 git 10个常用命令
//git init => .git文件夹(干什么用的!)
git add
git commit
git push
git pull
git status
git reset
git branch
git checkout
gi clone
2.1问题一: git和git hub关系是啥?
环境搭建window linux
2.2问题二: git提交代码的命令 工作区 暂存区 本地仓库 远程仓库
2.3问题三: 怎么创建远程分支,怎么创建本地分支, 分支如何提交代码,分支切换
3.大数加减
#include "pch.h"
#include <iostream>
#include <algorithm> // sort find find_if
#include <string>
#include <vector>
using namespace std;
// 大整数类型
class BigInt
{
public:
BigInt(string str) :strDigit(str) {}
private:
string strDigit; // 使用字符串存储大整数
friend ostream& operator<<(ostream &out, const BigInt &src);
friend BigInt operator+(const BigInt &lhs, const BigInt &rhs);
friend BigInt operator-(const BigInt &lhs, const BigInt &rhs);
};
// 打印函数
ostream& operator<<(ostream &out, const BigInt &src)
{
out << src.strDigit;
return out;
}
// 大数加法
BigInt operator+(const BigInt &lhs, const BigInt &rhs)
{
/*
遍历字符串l,r,从后往前遍历
同位置的数字相加, 进位 flag 存入一个结果当中 string result
同时完成
某个字符串先完成 都要考虑进位
*/
string result;
bool flag = false;
int size1 = lhs.strDigit.length() - 1;
int size2 = rhs.strDigit.length() - 1;
int i = size1, j = size2;
for (; i >= 0 && j >= 0; --i, --j)
{
int ret = lhs.strDigit[i] - '0' + rhs.strDigit[j] - '0';
if (flag)
{
ret += 1;
flag = false;
}
if (ret >= 10)
{
ret %= 10;
flag = true;
}
result.push_back(ret + '0');
}
// i j
if (i >= 0)
{
while (i >= 0)
{
int ret = lhs.strDigit[i] - '0';
if (flag)
{
ret += 1;
flag = false;
}
if (ret >= 10)
{
ret %= 10;
flag = true;
}
result.push_back(ret + '0');
i--;
}
}
else if (j >= 0)
{
while (j >= 0)
{
int ret = rhs.strDigit[j] - '0';
if (flag)
{
ret += 1;
flag = false;
}
if (ret >= 10)
{
ret %= 10;
flag = true;
}
result.push_back(ret + '0');
j--;
}
}
if (flag)
{
result.push_back('1');
}
reverse(result.begin(), result.end());
return result; // return BigInt(result);
}
// 大数减法
BigInt operator-(const BigInt &lhs, const BigInt &rhs)
{
/*
找大的字符串左减数,小的左被减数
遍历两个字符串,减法,借位(bool flag), string result 存下来
*/
string result;
bool flag = false;
bool minor = false;
string maxStr = lhs.strDigit;
string minStr = rhs.strDigit;
if (maxStr.length() < minStr.length())
{
maxStr = rhs.strDigit;
minStr = lhs.strDigit;
minor = true;
}
else if (maxStr.length() == minStr.length())
{
if (maxStr < minStr)
{
maxStr = rhs.strDigit;
minStr = lhs.strDigit;
minor = true;
}
else if (maxStr == minStr)
{
return string("0");
}
}
else
{
;
}
int size1 = maxStr.length() - 1;
int size2 = minStr.length() - 1;
int i = size1, j = size2;
for (; i >= 0 && j >= 0; --i, --j)
{
int ret = maxStr[i] - minStr[j];
if (flag)
{
ret -= 1;
flag = false;
}
if (ret < 0)
{
ret += 10;
flag = true;
}
result.push_back(ret + '0');
}
while (i >= 0)
{
int ret = maxStr[i]-'0';
if (flag)
{
ret -= 1;
flag = false;
}
if (ret < 0)
{
ret += 10;
flag = true;
}
result.push_back(ret + '0');
i--;
}
if (minor)
{
result.push_back('-');
}
reverse(result.begin(), result.end());
return result;
}
int main()
{
BigInt int1("9785645649886874535428765");
BigInt int2("28937697857832167849697653231243");
BigInt int3("9785645649886874535428765");
//28937707643477817736572188660008
//28937707643477817736572188660008
cout << int1 + int2 << endl;
//28937688072186517962823117802478
//28937688072186517962823117802478
cout << int1 - int2 << endl;
return 0;
}