Apacheのティカ1.22リリース、コンテンツ抽出ツール集

アパッチティカ1.22がリリースされている、ティカは、コンテンツ抽出ツールセット(テキスト抽出するためのツールキット)です。これは、POIとPdfboxを統合し、抽出作業は、テキストのための統一されたインタフェースを提供します。第二に、ティカはまた、サードパーティのファイル形式のサポートを豊かにするために使用され、便利な拡張APIを提供します。

新バージョンでは、多くの改良とバグの修正が含まれている次のように、主なアップデートは以下のとおりです。

  • 注:既知のリターン:PDFBOX-4587 - 0XF000と0XF0000間のコードポイントPDFのパスワードは、例外が発生します
  • HWPのV5ファイルのパーサ(ティカ-2909)を追加します
  • 修理は例外「一時的なリソースを閉じることができませんでした」TesseractOCRParserを避けるために、オーダーフローを閉じた(ティカ-2908)
  • エンコーダバッファ検出器によって性能AutoDetectReader(ティカ-1568)を向上
  • ラベルの許容組合せ(TIKA-2889)を防止RTFParser出力
  • すべてのリソースを解放するためにRereadableInputStreamを修復(ティカ-2903)
  • ティカ・評価モジュールは、検出器OpenNLPカスタム言語識別子に基づいて言語で実装;すべての言語121種類の共通のワードリスト(ティカ-2790)を18の言語を追加し、追加します
  • 修理MimeTypesReader.releaseParser(NPE(ティカ-2896))で
  • もっと(TIKA-2883)を抽出するRTFParserを修復
  • ClientSubmitTimeは、PSTファイル(ティカ-2898)から抽出されたメタデータに追加しました
  • xltx、XLTMおよびいくつかの他のファイル形式のための改良StreamingZipContainerDetector(ティカ-2886)

発表

ダウンロード:https://tika.apache.org/download.html

おすすめ

転載: www.oschina.net/news/108785/apache-tika-1-22-released