版权声明:转载请随意! https://blog.csdn.net/qq_41723615/article/details/89225585
集合规定每个元素只能存在一次。
由于二分搜索树是不能存放重复元素,所以二分搜索树是实现集合最好的底层数据结构。
首先定义集合接口:
public interface Set<E> {
//向集合中添加元素
void add(E e);
//判断集合中是否包含元素e
boolean contains(E e);
//删除元素
void remove(E e);
//集合元素个数
int getSize();
//集合是否为空
boolean isEmpty();
}
集合在在添加元素时,是不能添加重复元素的。
集合的应用:客户统计、词汇量统计。
下面基于二分搜索树来实现集合类:这里不将二分搜索树的实现做演示,有兴趣可以阅读文章:
https://blog.csdn.net/qq_41723615/article/details/89202857
public class BSTSet<E extends Comparable<E>> implements Set<E> {
//定义私有对象
private BST<E> bst;
//调用构造实例化对象
public BSTSet(){
bst = new BST<>();
}
@Override
public int getSize(){
return bst.size();
}
@Override
public boolean isEmpty(){
return bst.isEmpty();
}
@Override
public void add(E e){
bst.add(e);
}
@Override
public boolean contains(E e){
return bst.contains(e);
}
@Override
public void remove(E e){
bst.remove(e);
}
}
文件读取类:
import java.io.FileInputStream;
import java.util.ArrayList;
import java.util.Scanner;
import java.util.Locale;
import java.io.File;
import java.io.BufferedInputStream;
import java.io.IOException;
// 文件相关操作
public class FileOperation {
// 读取文件名称为filename中的内容,并将其中包含的所有词语放进words中
public static boolean readFile(String filename, ArrayList<String> words){
if (filename == null || words == null){
System.out.println("filename is null or words is null");
return false;
}
// 文件读取
Scanner scanner;
try {
File file = new File(filename);
if(file.exists()){
FileInputStream fis = new FileInputStream(file);
scanner = new Scanner(new BufferedInputStream(fis), "UTF-8");
scanner.useLocale(Locale.ENGLISH);
}else {
return false;
}
} catch(IOException ioe){
System.out.println("Cannot open " + filename);
return false;
}
// 简单分词
// 这个分词方式相对简陋, 没有考虑很多文本处理中的特殊问题
// 在这里只做demo展示用
if (scanner.hasNextLine()) {
String contents = scanner.useDelimiter("\\A").next();
int start = firstCharacterIndex(contents, 0);
for (int i = start + 1; i <= contents.length(); ) {
if (i == contents.length() || !Character.isLetter(contents.charAt(i))) {
String word = contents.substring(start, i).toLowerCase();
words.add(word);
start = firstCharacterIndex(contents, i);
i = start + 1;
} else {
i++;
}
}
}
return true;
}
// 寻找字符串s中,从start的位置开始的第一个字母字符的位置
private static int firstCharacterIndex(String s, int start){
for( int i = start ; i < s.length() ; i ++ ) {
if( Character.isLetter(s.charAt(i)) ) {
return i;
}
}
return s.length();
}
}
测试类:
import java.util.ArrayList;
public class Main {
public static void main(String[] args) {
System.out.println("Pride and Prejudice");
ArrayList<String> words1 = new ArrayList<>();
if(FileOperation.readFile("test1.txt", words1)) {
System.out.println("Total words: " + words1.size());
BSTSet<String> set1 = new BSTSet<>();
for (String word : words1) {
set1.add(word);
}
System.out.println("Total different words: " + set1.getSize());
}
System.out.println();
System.out.println("A Tale of Two Cities");
ArrayList<String> words2 = new ArrayList<>();
if(FileOperation.readFile("test2.txt", words2)){
System.out.println("Total words: " + words2.size());
BSTSet<String> set2 = new BSTSet<>();
for(String word: words2) {
set2.add(word);
}
System.out.println("Total different words: " + set2.getSize());
}
}
}