3. Linux下实现统计文件单词个数和出现次数

本文介绍的是在Linux下实现统计文件单词个数和出现次数,以及实践过程中遇到的gcc编译器不匹配问题

一、实现文件单词个数统计

#include <stdio.h>

#define IN_Word 1
#define OUT_Word 0
#define INIT OUT_Word

int splite(char c){
    
    
    if  ((c==' ') || (c=='\n') || (c=='\t') || (c == '\"') || (c == '\'') || (c == '+')|| (c == '-')|| (c == ',')
        || (c == ';'))
        return 1;
    else
        return 0; 
}

int countWord(char* fileName){
    
    
    //定义初始状态
    int status=INIT;
    int count=0;

    //以只读方式打开文本
    FILE *file=fopen(fileName,"r");
    if (file == NULL) return -1;

    char c;
    //读取文本,判断处于何种状态
    while ((c = fgetc(file)) != EOF){
    
    
        if ( splite(c)){
    
    
            status=OUT_Word;  //处于单词之外,更新状态为OUT_Word
        }
        else if (OUT_Word==status){
    
      
            //处于单词之内,更新状态为IN_Word。记录每次状态更新的次数(OUT -> IN),也就是单词个数
            status=IN_Word;
            count++;
        }
    }
    return count;
}

int main(int argc,char*argv[]){
    
    
    if (argc<2) return -1;
    printf("word:%d\n",countWord(argv[1]));
}

// int main(){
    
    
//     printf("word:%d\n",countWord("b.txt"));
// }

执行编译执行命令

gcc -o countWord countWord.c
./countWord b.txt

二、实现文件单词出现次数统计

#include<stdio.h>
#include<string.h>
#include<stdlib.h>

typedef struct{
    
    
	char str[50]; //单词最大长度设为50
	int cnt;//单词出现次数
}Str;

void countWordNum(char* fileName){
    
    
    char tmp[50]; 
	Str words[200]; //单词数量上限 
	int num=0;//实际单词数量 
	int i,j,neww=1;//neww标志位,判断是否为新单词 

	FILE *fp = fopen(fileName, "r");
	//fscanf从文件中获取单个字符串 
	while ( fscanf(fp,"%s",tmp)!=EOF ) {
    
    
		neww=1;
		for (i=0; i<num; i++) {
    
    
			//重复的单词 
			if ( strcmp(tmp, words[i].str)==0 ) {
    
    
				neww=0;
				words[i].cnt++;
			}
		}
		if (neww){
    
    
			// 复制字符串
			for (j=0; tmp[j]!='\0'; j++) {
    
    
				words[num].str[j] = tmp[j];
			}
			//单词末尾添加结束符 
			words[num].str[j] = '\0';
			// 新单词数量+1 
			words[num++].cnt = 1;
		}
	}
    printf("一共%d个不同的单词,每个单词出现次数如下:\n",num);
	for (int i=num-1; i>=0; i--) {
    
    
		printf("%-10s %2d\n", words[i].str, words[i].cnt);
	}
	fclose(fp);
}

int main(int argc,char*argv[]){
    
    
    if (argc<2) return -1;
    countWordNum(argv[1]);
}

// int main() {
    
    
//     countWordNum("b.txt");
// 	return 0;
// }

三、出现的问题

在linxu系统中,编写c语言程序我们需要使用到GCC编译器。但是当编译程序,出现如下错误
在这里插入图片描述
主要原因可能是因为修改软件下载源地址的时候没有考虑系统版本。选择了错误的系统版本,导致下载的gcc编译器不匹配。
解决办法如下:
1、查看系统代号
打开终端,输入下列命令:lsb_release -a,然后结果如下图
在这里插入图片描述
Codename的值 focal 即为系统代号。我们先暂时记录该系统代号。
2、检查源地址系统代号是否正确
在终端中输入:sudo vim /etc/apt/sources.list
在弹出的文本编辑器中,检查源地址中的系统代号是否与第一步中的代号一致。
一般出现上述错误都是这里出了问题。只要把它修改为自己的系统代号问题就可以解决了。
我这边都修改为了 xenial
在这里插入图片描述
3,在终端执行sudo apt-get update进行更新

4、配置完成后,卸载原来已经安装的gcc,然后重新安装就可以使用了。
sudo apt-get remove gcc
5、重新安装gcc
sudo apt-get install gcc

猜你喜欢

转载自blog.csdn.net/Ricardo2/article/details/130754385