2024得物校招面试真题汇总及其解答(二)

6.给一篇文章如何统计词频

词频统计

词频统计是指统计文本中每个词出现的次数。词频统计可以用于文本分析、自然语言处理等领域。

手动统计

手动统计是指将文本中的每个词都统计一遍,并记录出现的次数。这种方法简单易行,但效率较低。

使用工具统计

使用工具统计是指使用专门的词频统计工具,可以快速统计文本中的词频。

Java 实现

Java 中可以使用以下方法来实现词频统计:

  • 使用正则表达式

正则表达式可以用于分割文本中的单词,然后使用计数器记录每个词出现的次数。

Java

import java.util.regex.Pattern;

public class WordCount {

    public static void main(String[] args) throws Exception {
        String text = "今天天气很好,我去公园散步了。在公园里,我看到了许多花,也看到了许多小朋友在玩耍。";

        // 使用正则表达式分割文本中的单词
        Pattern pattern = Pattern.compile("\\W+");
        String[] words = pattern.split(text);

        // 使用计数器记录每个词出现的次数
        Map<String, Integer> wordCounts = new HashMap<>();
        for (String word : words) {
            if (word

猜你喜欢

转载自blog.csdn.net/cq20110310/article/details/132939115
今日推荐