アパッチティカ1.22がリリースされている、ティカは、コンテンツ抽出ツールセット(テキスト抽出するためのツールキット)です。これは、POIとPdfboxを統合し、抽出作業は、テキストのための統一されたインタフェースを提供します。第二に、ティカはまた、サードパーティのファイル形式のサポートを豊かにするために使用され、便利な拡張APIを提供します。
新バージョンでは、多くの改良とバグの修正が含まれている次のように、主なアップデートは以下のとおりです。
- 注:既知のリターン:PDFBOX-4587 - 0XF000と0XF0000間のコードポイントPDFのパスワードは、例外が発生します
- HWPのV5ファイルのパーサ(ティカ-2909)を追加します
- 修理は例外「一時的なリソースを閉じることができませんでした」TesseractOCRParserを避けるために、オーダーフローを閉じた(ティカ-2908)
- エンコーダバッファ検出器によって性能AutoDetectReader(ティカ-1568)を向上
- ラベルの許容組合せ(TIKA-2889)を防止RTFParser出力
- すべてのリソースを解放するためにRereadableInputStreamを修復(ティカ-2903)
- ティカ・評価モジュールは、検出器OpenNLPカスタム言語識別子に基づいて言語で実装;すべての言語121種類の共通のワードリスト(ティカ-2790)を18の言語を追加し、追加します
- 修理MimeTypesReader.releaseParser(NPE(ティカ-2896))で
- もっと(TIKA-2883)を抽出するRTFParserを修復
- ClientSubmitTimeは、PSTファイル(ティカ-2898)から抽出されたメタデータに追加しました
- xltx、XLTMおよびいくつかの他のファイル形式のための改良StreamingZipContainerDetector(ティカ-2886)