基于词频的文件相似度 - 代码天地

基于词频的文件相似度

其他 2019-03-18 14:11:47 阅读次数: 0

一开始没有仔细看题，心想stringstream分割一下单词即可。但是处理不了Ddd@Fff

单词间以任何非英文字母隔开-> 任何非字母都表明一个单词结束了

#include<iostream>
#include<string>
#include<sstream>
#include<set>
#include<cstdio>
#include<iomanip>
using namespace std;
const int N=110;
int n;
set<string>s[N];
void store()
{
    for(int i=1;i<=n;++i)
    {
        string str="";
        while(true)
        {
            char c=getchar();
            if(c=='#') break;
            else if(isalpha(c))
            {
                if(c>='A'&&c<='Z')
                   c=c+32;
                str+=c;
            }
            else                                //不是字符一个单词就结束了，要考虑是否要进入set了
            {
                if(str.size()>=3)
                {
                    if(str.size()>10)
                        str=str.substr(0,10);
                    s[i].insert(str);
                }
                str="";                         //不管进不进set，都必须清空，开始记录下一个单词s
            }

        }
    }
}

void output()
{
    for(int i=1;i<=n;++i)
    {
        set<string>::iterator it;
        for(it=s[i].begin();it!=s[i].end();++it)
        {
            cout<<*it<<endl;

        }
        cout<<endl;
    }
}
int main()
{
    cin>>n;
    scanf("\n");
    store();
    //output();

    int m;
    cin>>m;
    for(int i=1;i<=m;++i)
    {
        int a,b;
        int sa,sb;
        cin>>a>>b;
        sa=s[a].size();
        sb=s[b].size();
        set<string>::iterator it;
        int same=0;
            for(it=s[b].begin();it!=s[b].end();++it)
                if(s[a].count(*it)!=0)
                same++;

        //cout<<sa<<' '<<sb<<' '<<same<<endl;
        double ans=100.0*same/(sa+sb-same);
        cout<<fixed<<setprecision(1)<<ans<<'%'<<endl;
    }

    return 0;

}

https://blog.csdn.net/qq_41231926/article/details/84918684?tdsourcetag=s_pcqq_aiomsg

参考了该博主的代码，并改了一下下数据结构，更简洁一点点

猜你喜欢

转载自blog.csdn.net/iroy33/article/details/88370588

基于词频的文件相似度

基于词频的文件相似度-算法应用

基于词频的文件相似度 (30分)

基于词频统计的文本相似度

数据结构与算法题目集7-44——基于词频的文件相似度

进阶实验5-3.3 基于词频的文件相似度 (30分)-哈希

PTA 7-44 基于词频的文件相似度（字符串处理+set容器）

数据结构与算法题目集（中文） - 7-44 基于词频的文件相似度（30 分）

PTA数据结构与算法编程题目集 7-44 基于词频的文件相似度（30 分)

基于相似度的方法

[文本语义相似] 基于simhash相似度

[文本语义相似] 基于Jaccard相似度

【基础1】文本分析-词频与余弦相似度

“亲子鉴定”------文件相似度

[文本语义相似] 基于编辑距离相似度

基于句子相似度的FAQ问答系统

基于熵的方法计算句子相似度

异常检测——基于相似度的方法

【异常检测】4 基于相似度的方法

Task4：基于相似度的方法

基于Python实现的图像相似度检测

文件相似度比对工具的设计与实现

相似度

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

基于知网(WordNet)的词语相似度计算

基于深度学习问答系统中的语义相似度计算

word2vec 计算相似度（基于Wiki）

基于Word2Vec 的相似度计算

Python简单实现基于VSM的余弦相似度计算

基于CNN和词向量的文本相似度分析

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)