数据结构与算法题目集7-44——基于词频的文件相似度 - 代码天地

数据结构与算法题目集7-44——基于词频的文件相似度

其他 2019-01-03 09:21:49 阅读次数: 0

版权声明：我的GitHub：https://github.com/617076674。真诚求星！ https://blog.csdn.net/qq_41231926/article/details/84918684

我的数据结构与算法题目集代码仓：https://github.com/617076674/Data-structure-and-algorithm-topic-set

原题链接：https://pintia.cn/problem-sets/15/problems/891

题目描述：

知识点：字符串、set集合的应用

思路：用getchar()函数一个一个字符地读取并分隔

将每个文件读取到的单词都放进一个set集合里，查询时遍历其中一个set集合的所有元素，在另一个set集合里查找，如果找到，则相同字符数common加1，总字符数为两个set集合之和减去common。

时间复杂度与空间复杂度和输入的数据有关。

C++代码：

#include<iostream>
#include<string>
#include<set>

using namespace std;

set<string> sets[100];

int main() {
	int N;
	scanf("%d", &N);
	getchar();
	for(int i = 0; i < N; i++) {
		string str = "";
		while(true) {
			char c = getchar();
			if(c == '#') {
				break;
			} else if((c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z')) {
				if(c >= 'a' && c <= 'z') {
					c = c - 'a' + 'A';
				}
				str += c;
			} else {
				if(str.length() >= 3) {
					if(str.length() > 10){
						str = str.substr(0, 10);
					}
					sets[i].insert(str);
				}
				str = "";
			}
		}
	}
	int M;
	scanf("%d", &M);
	for(int i = 0; i < M; i++) {
		int num1, num2;
		scanf("%d %d", &num1, &num2);
		int common = 0;
		for(set<string>::iterator it = sets[num1 - 1].begin(); it != sets[num1 - 1].end(); it++){
			if(sets[num2 - 1].find(*it) != sets[num2 - 1].end()){
				common++;
			}
		}
		int total = sets[num1 - 1].size() + sets[num2 - 1].size() - common;
		printf("%.1f%\n", common * 100.0 / total);
	}
	return 0;
}

C++解题报告：

猜你喜欢

转载自blog.csdn.net/qq_41231926/article/details/84918684

数据结构与算法题目集7-44——基于词频的文件相似度

数据结构与算法题目集（中文） - 7-44 基于词频的文件相似度（30 分）

PTA数据结构与算法编程题目集 7-44 基于词频的文件相似度（30 分)

PTA 7-44 基于词频的文件相似度（字符串处理+set容器）

基于词频的文件相似度-算法应用

基于词频的文件相似度

PAT : 数据结构与算法题目集（中文）7-7 六度空间

数据结构与算法题目集 7-7 六度空间

基于词频的文件相似度 (30分)

数据结构与算法题目集7-12——排序

PTA 数据结构与算法题目集（中文）7-7 六度空间（30 分）

数据结构和算法题目集

数据结构与算法题目集（中文） 7-6 列出连通集

PAT : 数据结构与算法题目集（中文）7-6 列出连通集

数据结构与算法题目集（中文）---7-25 朋友圈（考察并查集）

数据结构与算法题目集（中文） - 7-5 堆中的路径（25 分）

数据结构与算法题目集（中文） - 7-14 电话聊天狂人（25 分）

数据结构与算法题目集（中文） - 7-10 公路村村通（30 分）

数据结构与算法题目集（中文） - 7-9 旅游规划（25 分）

数据结构与算法题目集（中文） - 7-11 关键活动（30 分）

数据结构与算法题目集（中文） - 7-27 家谱处理（30 分）

数据结构与算法题目集（中文） - 7-20 表达式转换（25 分）

数据结构与算法题目集（中文） - 7-28 搜索树判断（25 分）

数据结构与算法题目集（中文） - 7-33 地下迷宫探索（30 分）

数据结构与算法题目集（中文） - 7-25 朋友圈（25 分）

数据结构与算法题目集（中文） - 7-29 修理牧场（25 分）

数据结构与算法题目集（中文） - 7-49 打印学生选课清单（25 分）

数据结构与算法题目集（中文） - 7-31 笛卡尔树（25 分）

数据结构与算法题目集（中文） - 7-30 目录树（30 分）

PTA 数据结构与算法题目集（中文） 7-5 堆中的路径（最小堆）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)