正規表現マッチング句読点

オリジナルリンクします。https://blog.csdn.net/q77533005/article/details/83642725

抜粋:
STR = str.replaceAll( "[\ P-P ''" "]"、 "");

Unicode文字エンコーディングは、単にコードの単純な定義のためではないですが、また、それが分類されました。

\ PPは、プロパティは、プレフィックスのUnicode正規表現のUnicodeプロパティを示すことを意味しているpは小文字。

句読点文字:大文字Pは7文字の一つは、Unicode文字セットを属性を表します。

他の6アール

L:手紙;
M:マーカー記号(一般には単独で);
Z:セパレータ(スペースなど、改行など);
S:(等数学記号、通貨など)シンボル;
N:そのようなアラビア数字、ローマなどの数(デジタルなど);
C:他の文字

このプロパティは、さらに細分化のために、7の上7の属性だけでなく、いくつかのサブ属性です。

ユニコードユニコードのためのJavaの正規表現データは、組織が提供されます。

ユニコード標準正規表現(すべてのサブプロパティに見出すことができる)
http://www.unicode.org/reports/tr18/

Unicode文字属性の定義は、どのような文字属性を見てすることができます。
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt

このテキスト文書は、文字ライン、最初の列は、Unicodeエンコーディングであり、第2列は、文字の名前である、第3列は、Unicode特性である
だけでなく、いくつかの他の文字情報。

发布了75 篇原创文章 · 获赞 7 · 访问量 1万+

おすすめ

転載: blog.csdn.net/zhengdong12345/article/details/100777961