HTML、リッチテキストからプレーンテキストを抽出

実際には、非常に単純なHTML、リッチテキストからプレーンテキストを抽出し、リッチテキストは、基本的にテキストに加えて、さまざまなスタイルのためにhtmlタグを使用しています。

だからリッチテキスト文字列に「<.....>」タグを削除、あなたはプレーンテキストを取得することができます。次のように我々は、すべてのHTMLタグにマッチする正規表現を使用し、ヌル文字に置き換えできます。

プレーンテキスト残して除去// HTML、リッチテキストラベル、
機能getSimpleText(HTML){
VAR =新しい新RE1のRegExp( "<?+>"、 "G")を、正規表現にマッチ// htmlタグ、 "G"検索マッチング一致コンテンツの複数
VAR MSG = html.replace(RE1を、 ' 「); // ヌル文字で置き換えは実行
MSGを返します;
}

 

Javaの:

STR = str.replaceAll("<+。?>"、"");

------------------------------------

オリジナル住所:

https://blog.csdn.net/fengxi__/article/details/79297773

おすすめ

転載: www.cnblogs.com/commissar-Xia/p/11330168.html