Apache Tika 1,24 liberación, colección de la herramienta de extracción de contenido

Apache Tika 1,24 liberado, Tika es un conjunto de herramientas de extracción de contenido (un conjunto de herramientas para la extracción de texto). Integra la PDI y PDFBox, y el trabajo de extracción proporciona una interfaz unificada para el texto. En segundo lugar, Tika también proporciona una API de extensión conveniente, se utiliza para enriquecer su compatibilidad con los formatos de archivos de terceros.

Los principales cambios son los siguientes:

  • De Drew Noakes extractor de actualización de los metadatos
  • Habilitación de etiquetas de estructura de extracción opcionales en un PDF (nivel alfa)
  • aplicación Tika modo --extract ahora a STDOUT
  • Añadir el analizador opcional para el PDF antes del vuelo
  • Algunos de detección basado en la mejora formato zip
  • El extractor de actualización de metadatos a 2.13.0 
  • Actualizar a la 4.1.2 POI
  • XMP extrae del archivo PSD
  • XMLProfiler añadió en el PDF como un analizador opcional para configurar XFA y XMP
  • PDF se extrae de filtro DCT depende de la imagen en línea
  • La actualización a 2.0.19 PDFBox
  • error de configuración analizador ASM fijo
  • Actualizar a Java 0.9.3 libpst
  • insuficiencia XLIFF12Parser fijo de ToXMLHandler 

Descripción de la actualización:  https://downloads.apache.org/tika/CHANGES-1.24.txt

Supongo que te gusta

Origin www.oschina.net/news/114241/apache-tika-1-24-released
Recomendado
Clasificación