哈夫曼编码实践

实验内容

哈夫曼编码实践
- 设有字符集：S={a,b,c,d,e，f,g,h,i,j,k,l,m,n.o.p.q,r,s,t,u,v,w,x,y,z}。
- 给定一个包含26个英文字母的文件，统计每个字符出现的概率，根据计算的概率构造一颗哈夫曼树。
- 并完成对英文文件的编码和解码。
- 要求：
  （1）准备一个包含26个英文字母的英文文件（可以不包含标点符号等），统计各个字符的概率
  （2）构造哈夫曼树
  （3）对英文文件进行编码，输出一个编码后的文件
  （4）对编码文件进行解码，输出一个解码后的文件

实验过程及结果

1.设有字符集：S={a,b,c,d,e,f,g,h,i,j,k,l,m,n.o.p.q,r,s,t,u,v,w,x,y,z}，给定一个包含26个英文字母的文件，统计每个字符出现的概率。

首先，初始化一个含有二十六个字母的字符型数组，a对应的下标为0，以此类推。
然后，定义一个容量为26的double型数组，用于统计每个字母的出现次数及概率，注意下标的对应关系，并初始化数组。

char[] S = new char[]{'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'};
        double[] sum = new double[26];
        int count = 0;
        for (int i = 0; i < 26; i++) {
            sum[i] = 0;
        }

读取文件内容，将内容存储在一个字符串中，然后将其转化为字符型数组，再用两个for循环统计26个字母出现的次数及概率。

File file = new File("D:\\test", "HelloWorld.txt");
        Reader reader2 = new FileReader(file);
        String result = "";
        while (reader2.ready()) {
            result += (char) reader2.read();
        }
        char[] text = result.toCharArray();
        for (int j = 0; j < text.length; j++) {
            for (int k = 0; k < S.length; k++) {
                if (text[j] == S[k] || text[j] == (S[k] - 32)) {
                    sum[k]++;
                    count++;
                }
            }
        }
        for (int i = 0; i < sum.length; i++) {
            sum[i] = sum[i] / count;
        }

2.根据计算的概率构造一颗哈夫曼树

harf h = new harf();
        Node root = h.createTree(nodes);
        h.setCode(root);

调用的方法为：

public class harf {
    Node createTree(List<Node> nodes) {
        // 只要nodes数组中还有2个以上的节点
        while (nodes.size() > 1) {
            quickSort(nodes);
            //获取权值最小的两个节点
            Node left = nodes.get(nodes.size() - 1);
            Node right = nodes.get(nodes.size() - 2);

            //生成新节点，新节点的权值为两个子节点的权值之和
            Node parent = new Node(null, left.weight + right.weight);

            //让新节点作为两个权值最小节点的父节点
            parent.leftChild = left;
            parent.rightChild = right;

            //删除权值最小的两个节点
            nodes.remove(nodes.size() - 1);
            nodes.remove(nodes.size() - 1);

            //将新节点加入到集合中
            nodes.add(parent);
        }

        return nodes.get(0);
    }

上面的这个步骤是输入一个node型的数组，然后将其排序，将两个最小的组成一个三节点的二叉树，再将其放回数组中，删除两个最小的，重复上述步骤，直到数组里只剩下一个元素，循环结束，哈夫曼树就构造好了。

3.对英文文件进行编码，输出一个编码后的文件。

对文件进行编码，其实就是将每个字母用01代码表示，然后全部输入到文件中。
而每个字母的01代码由从根节点到对应结点的路径决定，进入到左子树就加‘0’，进入右子树就加’1‘，因此我用了递归来实现：

public void setCode(Node root) {

        if (root.leftChild != null) {
            root.leftChild.code = root.code + "0";
            setCode(root.leftChild);
        }

        if (root.rightChild != null) {
            root.rightChild.code = root.code + "1";
            setCode(root.rightChild);
        }

4.对编码文件进行解码，输出一个解码后的文件。

解码其实就是编码的反过程，将每个01码对应的字母打印到文件中，这就是解码的过程。
但是，在解码的过程中，如果编码不是用的哈夫曼编码，而是用的普通的二进制编码，那么就会出现解码错误，混乱的情况。

而哈夫曼的特点就是任意字符编码都不是其他编码的前缀，这也就决定了它解码时不可能出现不明确的情况。

 private void matchCode(Node root, String code){
        if (root.leftChild == null && root.rightChild == null) {
            if (code.equals(root.code)) {
                result += root.data; // 找到对应的字符，拼接到解码字符穿后
                target = true; // 标志置为true
            }
        }
        if (root.leftChild != null) {
            matchCode(root.leftChild, code);
        }
        if (root.rightChild != null) {
            matchCode(root.rightChild, code);
        }
    }

上传码云

实验过程中遇到的问题和解决过程

问题：我开始的思路有问题：
- 我的第一份程序，前面读取文件并统计数据的过程都很顺利，但是当构建树时，出现了很多问题，其实主要就是我的储存方式有问题。

我的思路是：因为数组存储有容量限制，因此我想用无线延伸的链表来存储数据，下面是我的示意图和代码（忽略这辣鸡画工）

public void BuildTree(){
        Linked l=new Linked(sum,S);
        Number Head=l.Sort();
        Number temp=Head;
        LinkedBinaryTree branch = null;
        while (temp.next!=null){
            int he=temp.num+temp.next.num;
            LinkedBinaryTree a=new LinkedBinaryTree(temp);
            LinkedBinaryTree b=new LinkedBinaryTree(temp.next);
            branch=new LinkedBinaryTree(temp.num+temp.next.num,a,b);
            temp=l.Delete2();
            Number node=new Number(he,'1');
            temp=l.InsertNode2(node);
        }
        root=branch;
    }

但是当我把加起来的结点重新放回数组里时，我发现我的每个数组元素只存储了一个结点，并且没有左右子树。于是，我改用数组存放树的结点，然后将其排序，将两个最小的组成一个三节点的二叉树，再将其放回数组中，删除两个最小的，重复上述步骤，直到数组里只剩下一个元素，循环结束，哈夫曼树就构造好了

哈夫曼编码实践

哈夫曼编码实践

实验内容

实验过程及结果

上传码云

实验过程中遇到的问题和解决过程

感悟

猜你喜欢