Java——单词统计续(新增无用词表)

设计思路:

延续上一次的实验,这次增加了一个无用词表。将文章里面的单词进行筛选,去掉一些无用词。

我写了一个方法,可以将一个单词和文本文件里面的单词进行比较,若相同则不对其进行存储,便不会进行接下来的排序等操作,实现了单词的筛选。具体操作是使用之前的方法将文本文件读进一个字符串变量进行分割得到单词。再与指定的单词比较,便可以实现筛选。

源代码:

package findword;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.text.DecimalFormat;
import java.util.Map;
import java.util.Scanner;
import java.util.TreeMap;
class zimu{
 char zm;
 double ci;
 String pl;
 zimu()
 {
  zm=0;
  ci=0;
  pl=null;
 }
}
class dc{
 String name;
 int num;
 dc()
 {
  name=null;
  num=-1;
 }
}
public class Main {
 public static void findword(String text) throws IOException{
  @SuppressWarnings("resource")
  Scanner scan=new Scanner(System.in);
  int i=0;
  String[] array = {".",",","?","!"};
  for (int i1 = 0; i1 < array.length; i1++) {
   text = text.replace(array[i1]," ");
  }
  String[] textArray = text.split(" ");
  Map<String, Integer> map = new TreeMap<String, Integer>();
  for (int i1 = 0; i1 < textArray.length; i1++) {
   String key = textArray[i1];
   //转为小写
   String key_l = key.toLowerCase();
   if(!"".equals(key_l)){
    Integer num = map.get(key_l);
    if(num == null || num == 0){
     map.put(key_l, 1);
    }
    else if(num > 0){
     map.put(key_l, num+1);
    }
   }
  }
  for(@SuppressWarnings("unused") String e:map.keySet()){
   // System.out.println("单词:"+e+" 次数:"+map.get(e));
   i++;
  }
  dc [] z=new dc[i];
  for(int m=0;m<=i-1;m++) {
   z[m]=new dc();
  }
  int j=0;
  for(String e:map.keySet()) {
//   if(z[j]!=null) {
//    z[j].name=e;
//    z[j].num=map.get(e);
//   }
   if(z[j]!=null&&!nousejudge(e,"nouse.txt")) {
    z[j].name=e;
    z[j].num=map.get(e);
   }
   j++;
  }
  dc t=new dc();
  for(int m=0;m<=i-1;m++)
  {
   for(int n=m;n<=i-1;n++) {
    if(z[m]!=null&&(z[m].num<z[n].num)) {
     t=z[m];
     z[m]=z[n];
     z[n]=t;
    }
   }
  }
  for(int p=0;p<=i-1;p++) {
   System.out.println("单词:"+z[p].name+" 次数:"+z[p].num);
  }
  System.out.println("请输入想要输出前几位次数较多的单词:");
  int b=scan.nextInt();
  for(int m=0;m<=b-1;m++) {
   if(z[m]!=null) {
    System.out.println("单词:"+z[m].name+" 次数:"+z[m].num);
   }
  }
 }
 public static void judgezimu(String str1)
 {
  char zm[]=new char[26];
  int ci[]=new int[26];
  DecimalFormat df = new DecimalFormat("0.00");
  double sum=0;
  int i;
  int flag=0;
  String str=str1.toLowerCase();
  int count;
  char chs[]=str.toCharArray();
  for(char ch='a';ch<='z';ch++)
  {
   
   count=0;//计数器
   for(i=0;i<chs.length;i++)
   {
    if(ch==chs[i])
     count++;
   }
   if(count!=0) {
    zm[flag]=ch;
    ci[flag]=count;
    sum=sum+count;
    flag++;
   }
  }
  zimu z[]=new zimu[flag];
  for(int m=0;m<flag;m++) {
   z[m]=new zimu();
  }
  for(i=0;i<flag;i++)
  {
   z[i].zm=zm[i];
   z[i].ci=ci[i];
   z[i].pl=df.format(ci[i]/sum);
  }
  zimu t=new zimu();
  for(i=0;i<flag;i++)
  {
   for(int j=0;j<flag;j++)
   {
    if(z[i].ci>z[j].ci)
    {
     t=z[i];
     z[i]=z[j];
     z[j]=t;
    }
   }
  }
  for(i=0;i<flag;i++)
  {
   System.out.println(z[i].zm+":次数:"+z[i].ci+"频率:"+z[i].pl);
  }
 }
 public static String readtxt(String txt) throws IOException
 {
  File file = new File(txt);//定义一个file对象,用来初始化FileReader
  FileReader reader = null;
  try {
   reader = new FileReader(file);
  } catch (FileNotFoundException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }//定义一个fileReader对象,用来初始化BufferedReader
  BufferedReader bReader = new BufferedReader(reader);//new一个BufferedReader对象,将文件内容读取到缓存
  StringBuilder sb = new StringBuilder();//定义一个字符串缓存,将字符串存放缓存中
  String s = "";
  while ((s =bReader.readLine()) != null) {//逐行读取文件内容,不读取换行符和末尾的空格
  sb.append(s);//将读取的字符串添加换行符后累加p存放在缓存中
  }
  bReader.close();
  String str = sb.toString();
  return str;
 }
 public static boolean nousejudge(String danci,String txt) throws IOException {
  String str=readtxt(txt);
  String[] nouse = str.split(" ");
  for(int i=0;i<nouse.length;i++)
  {
   if(danci.equals(nouse[i]))
   {
    return true;//如果是无用词返回true
   }
  }
  return false;
 }
 public static void main(String[] args) throws IOException {
  // TODO Auto-generated method stub
  //String str = readtxt("zimu.txt");
  //judgezimu(str);
  String str1 = readtxt("danci.txt");
  findword(str1);
 }
}

结果截图:

无用词表:

使用无用词表之前:

使用无用词表之后:

总结:

只要模块划分的清晰,增加功能很方便。

猜你喜欢

转载自www.cnblogs.com/ruangongyouxi/p/11008271.html