6. 記事の単語頻度をカウントする方法
単語頻度統計
単語頻度統計とは、テキスト内に各単語が出現する回数をカウントすることを指します。単語頻度統計は、テキスト分析や自然言語処理などの分野で使用できます。
手動統計
手動カウントとは、テキスト内の各単語をカウントし、出現回数を記録することを意味します。この方法はシンプルで簡単ですが、効率は低くなります。
ツールの使用状況の統計
ツール統計の使用とは、特別な単語頻度統計ツールを使用して、テキスト内の単語の頻度を迅速にカウントすることを指します。
Javaの実装
Java では次のメソッドを使用して単語頻度統計を実装できます。
- 正規表現を使用する
正規表現を使用してテキスト内の単語を分割し、カウンタを使用して各単語の出現回数を記録できます。
ジャワ
import java.util.regex.Pattern;
public class WordCount {
public static void main(String[] args) throws Exception {
String text = "今天天气很好,我去公园散步了。在公园里,我看到了许多花,也看到了许多小朋友在玩耍。";
// 使用正则表达式分割文本中的单词
Pattern pattern = Pattern.compile("\\W+");
String[] words = pattern.split(text);
// 使用计数器记录每个词出现的次数
Map<String, Integer> wordCounts = new HashMap<>();
for (String word : words) {
if (word