¿Es el análisis de datos no estructurados una trampa?

        El surgimiento del concepto de big data también ha provocado el análisis de datos no estructurados. Se dice que el 80% de los datos en una empresa son datos no estructurados. Si se calcula en términos de espacio ocupado, esta proporción es más o menos cierta. Después de todo, los datos de audio y video son realmente enormes. Con una cantidad de datos tan grande, es natural necesitar analizarlos, y para analizarlos, por supuesto, deben existir los medios técnicos correspondientes.

       Entonces, ¿por qué se dice que la tecnología de análisis de datos no estructurados es una tontería?

No existe una tecnología informática universal de datos no estructurados

       Hay varios tipos de datos no estructurados, incluyendo imágenes de audio, páginas web de texto, documentos de oficina, registros de equipos, ...; cada tipo de datos tiene sus propios métodos de cálculo y procesamiento, como reconocimiento de voz, comparación de imágenes, búsqueda de texto , gráfico cálculo de estructura Etc., pero no existe una técnica informática general que funcione para todos los datos no estructurados. El método de reconocimiento de voz no se puede utilizar para la comparación de imágenes, la búsqueda de texto y el cálculo de la estructura de gráficos.

       Si un proveedor es bueno en cierta tecnología, definitivamente afirmará directamente que está especializado en este campo, en lugar de decir en general que es bueno en el análisis de datos no estructurados. Por ejemplo, el reconocimiento facial es muy preciso, o una empresa profesional que extrae palabras sensibles al texto, obviamente es más fácil ubicar usuarios y escenarios de aplicaciones de esta manera. Si una empresa dice que es buena en el análisis de datos no estructurados sin especificar un área específica, no sabe lo que puede hacer.

La tecnología común para datos no estructurados es solo almacenamiento

       Aunque muchos campos técnicos profesionales pueden clasificarse como procesamiento de datos no estructurados, el alcance general de la aplicación no es extenso y la mayoría de los usuarios no utilizan estas tecnologías especializadas, sino que solo necesitan almacenar estos datos. No existe una tecnología general de análisis y computación para datos no estructurados, pero el almacenamiento y la gestión correspondiente (adición, eliminación, recuperación, etc.) pueden generalizarse. Los datos no estructurados ocupan un gran espacio y, a menudo, requieren métodos de almacenamiento especiales diferentes de los datos estructurados.

       Sin embargo, si la cantidad de datos no es particularmente grande, o si existe la necesidad de una recuperación concurrente alta, la mayoría de los sistemas de archivos de red (como HDFS) ya son capaces de cumplir con los requisitos de almacenamiento y acceso. Si el fabricante solo afirma que puede almacenar y administrar datos no estructurados, parecerá que tiene poco contenido técnico. Por lo tanto, estos fabricantes no escatimarán esfuerzos para confiar en el análisis, pero no hay sustancia. Sin embargo, los proveedores de almacenamiento profesional que pueden proporcionar acceso de gran capacidad y alto rendimiento solo llaman al almacenamiento, pero no mencionan deliberadamente el análisis.

Las técnicas analíticas universales se encuentran en los datos estructurados que las acompañan.

       Al recopilar datos no estructurados, a menudo va acompañado de la recopilación de muchos datos estructurados relacionados, como productores de audio y video, tiempo de producción, categoría, duración, ...; algunos datos no estructurados también cambiarán después del procesamiento de datos estructurados, como el desmontaje la IP del visitante, el tiempo de acceso, los términos clave de búsqueda, etc. de los registros web. El llamado análisis de datos no estructurados a menudo está dirigido a estos datos estructurados que lo acompañan.Existen muchas tecnologías informáticas generales maduras en este campo (como el álgebra relacional y la base de datos relacional).

       Pero ahora no está lo suficientemente de moda llamar solo datos estructurados.Para atraer usuarios, es necesario describir el análisis de datos esencialmente estructurados como análisis de datos no estructurados.

       Como usuario del lado de la demanda, en este momento, necesita saber exactamente qué hacer con los datos. Si se trata simplemente de un almacenamiento simple, un sistema de archivos de red de código abierto como HDFS es suficiente; si tiene requisitos de acceso de alto rendimiento, necesita encontrar un fabricante de almacenamiento profesional; si realmente desea analizar los datos estructurados asociados, es Ya está familiarizado con el negocio de las bases de datos; si realmente tiene necesidades específicas de procesamiento, debe encontrar fabricantes y tecnologías en campos especializados. En conclusión, no se limite a generalizar sobre la necesidad de un análisis de datos no estructurados.

Introducción a los columnistas.

       Jiang Buxing, fundador y científico jefe de Runqian Software

       Master of Computer Science, Tsinghua University, autor de "Principles of Nonlinear Reporting Models", etc. En 1989, fue el miembro campeón del equipo de la primera Competencia Internacional de Olimpiadas Matemáticas de China y ganó una medalla de oro individual; en 2000, fundó Runqian Company ; Propuso un modelo de informe no lineal, que resolvió perfectamente el problema de la creación de informes complejos al estilo chino. En la actualidad, este modelo se ha convertido en el estándar en la industria de informes; en 2014, después de 7 años de desarrollo, Runqian lanzó un motor de cálculo que no no confíe en el modelo de álgebra relacional: calculadora de conjunto, que mejora de manera efectiva el desarrollo y la eficiencia operativa de los cálculos complejos de big data estructurados; en 2015, Runqian Software fue nombrada "2015 Forbes China's Top 100 Unlisted Potential Enterprises" por el sitio web Forbes Chinese; en 2016, fue galardonado con la información electrónica de China "Diez principales líderes en la industria de servicios de información y software de China en 2016" seleccionado por el Instituto de Investigación de Desarrollo Industrial; en 2017, innovó y desarrolló de forma independiente una nueva generación de almacenes de datos, bases de datos en la nube y otros productos será lanzado pronto.

Supongo que te gusta

Origin blog.csdn.net/iamonlyme/article/details/131933298
Recomendado
Clasificación