Informe de gestión de datos no estructurados 2023

 Andy730  publicado en Shanghai el 2023-09-20 07:30 

Fuente: Informe de gestión de datos no estructurados de Komprise de 2023, septiembre de 2023

resumen ejecutivo

En apenas unos meses, el mundo de la tecnología ha cambiado drásticamente. Los modelos de negocio de IA y los nuevos productos relacionados con la IA generativa están surgiendo como hongos después de la lluvia. La ola actual de IA está dando forma rápidamente a nuevas formas de trabajar, generando importantes ganancias de productividad y cambiando la forma en que se crean y distribuyen los productos y servicios. Según los datos de análisis de Bloomberg Intelligence, se espera que el tamaño del mercado de IA generativa crezca de 40.000 millones de dólares en 2022 a 1,3 billones de dólares en los próximos 10 años.

Por supuesto, la nueva IA conlleva su propio conjunto de peligros potenciales. Desde riesgos de privacidad y seguridad hasta consideraciones éticas y riesgos derivados de datos inexactos o sesgados, los líderes gubernamentales y empresariales están examinando estos problemas y sopesando soluciones para la implementación segura y exitosa de la tecnología de IA en nuestra sociedad.

En medio de este cambio radical, nuestra investigación de 2023 revela que los líderes de TI se centrarán en tres áreas principales:

  • Prepárese para la IA;

  • Proporcionar servicios de datos como búsqueda y etiquetado de documentos a los usuarios del departamento;

  • Adopte una estrategia de optimización de costos en la nube.

La convergencia de estas tendencias refleja la madurez de la gestión de datos no estructurados. Ahora se espera que los líderes de TI y almacenamiento trabajen estrechamente con iniciativas empresariales de alta prioridad basadas en datos e inteligencia artificial.

Aspectos destacados del informe

Prepárate para la IA

  • En 2023, la preparación para la IA se convertirá en la principal prioridad en el almacenamiento de datos, representando el 31%, seguida de la optimización de los costos de la nube;

  • La gran mayoría de las organizaciones (90%) permiten a los empleados utilizar la IA y la mayoría (65%) ha establecido políticas relevantes para regular el uso de la IA;

  • La principal preocupación con el uso de la IA empresarial son las violaciones de la privacidad y la seguridad, seguidas de la atribución de datos y los riesgos que plantean los datos inexactos o sesgados.

De la gestión del almacenamiento a los servicios de datos

  • El 85% de los encuestados cree que los usuarios que no son usuarios de TI deberían desempeñar algún papel en la gestión de sus propios datos, mientras que el 62% ha implementado algún nivel de autoservicio de usuario para la gestión de datos no estructurados;

  • Entre las capacidades importantes de gestión de datos no estructurados, el monitoreo y alerta de problemas y anomalías de capacidad ocupan la posición de liderazgo, representando el 44%;

  • El desafío más importante de la gestión de datos no estructurados es la migración de datos sin interrumpir a los usuarios y las aplicaciones, que representa el 47%, seguido de cerca por la preparación para la IA y los servicios en la nube, que representa el 46%.

Más datos, más gasto, nuevos objetivos

  • El 50 % de las organizaciones gestionan 5 PB o más de datos, similar a 2022;

  • La proporción de organizaciones que gestionan más de 10 PB de datos aumentó un 19 % del 27 % al 32 %;

  • Casi dos tercios (73 %) de las organizaciones gastan el 30 % o más de sus presupuestos de TI en almacenamiento y protección de datos, frente al 67 % en 2022.

I. Prioridades de almacenamiento de datos: preparación para la IA y optimización de costos en la nube

En 2022, informamos que la mayoría (65%) de las organizaciones planean o ya entregan datos no estructurados a su plataforma de análisis de big data. Si bien es probable que estas plataformas de análisis incluyan IA, las tendencias actuales están claramente a favor de la IA. Después de que ChatGPT arrasara en el mundo, la IA generativa se convirtió inmediatamente en la tecnología que se discutía en todas las salas de juntas, aulas y oficinas gubernamentales. Y en 2023, cuando se les preguntó cuál sería su principal prioridad en el almacenamiento de datos durante los próximos 12 meses, el 31% de los encuestados citó la preparación para la IA, seguida de la optimización de los costos de la nube (22%). En particular, en 2022, los participantes se centrarán principalmente en la migración a la nube, y el **56 %** afirma que es su principal prioridad. Otras prioridades incluyen invertir en gestión y movilidad de datos, comprar más almacenamiento local y modernizar el respaldo y la recuperación ante desastres.

Principales prioridades de almacenamiento de datos durante los próximos 12 meses

  • Listo para la IA: 31%

  • Optimización de costos de la nube: 22%

  • Migrar más datos a la nube: 18%

Insight: Pasar a la IA requiere estrategias de optimización de costos

Hoy en día, los equipos de TI están bajo presión para reducir el gasto en nube y almacenamiento en un entorno económico incierto. Durante la pandemia, el gasto en la nube no siempre generó el retorno de la inversión esperado, por lo que a principios de 2023 comenzó a discutirse el tema de la "repatriación" de la nube. La optimización de los costos de la nube requiere estrategias como el uso de herramientas de terceros para monitorear el gasto, administrar la expansión de la nube a través de descubrimiento automatizado y políticas empresariales, y prevenir la aparición de TI en la sombra. La gestión de datos también es fundamental, ya que permite a los administradores de TI y de almacenamiento ver los activos de datos en todo el almacenamiento y colocar los datos en la mejor solución de almacenamiento para las necesidades actuales.

Eliminar el desperdicio de almacenamiento es fundamental para liberar inversiones y recursos para iniciativas prósperas de IA. Desde una perspectiva de almacenamiento de datos, prepararse para la IA significa obtener la combinación adecuada de tecnologías de almacenamiento en la nube y locales escalables y de alto rendimiento, siendo al mismo tiempo lo más rentable posible.

II. El impacto de la gestión de datos en la IA

Prepararse para la IA significa algo más que construir una infraestructura de almacenamiento preparada para ella: también es crucial elegir las herramientas adecuadas. Se puede decir que ahora existe en el mercado una gran cantidad de herramientas y servicios de inteligencia artificial asequibles que pueden satisfacer las necesidades de casi todas las industrias. Los principales proveedores de servicios en la nube y conocidos proveedores de software empresarial están lanzando sus propias soluciones de IA generativa. Sin embargo, antes de implementar herramientas o servicios, TI debe considerar cuidadosamente el impacto de la gestión de datos en el proceso.

Si bien los nuevos escenarios para la IA generativa que son diversos, fáciles de usar y atractivos son emocionantes, también van acompañados de una serie de problemas preocupantes e incluso aterradores. Estos problemas van desde filtraciones de datos confidenciales hasta modelos comunes de aprendizaje de idiomas (LLM) que amenazan la protección de la propiedad intelectual corporativa y la información de identificación personal, hasta preocupaciones sobre la ética, la precisión, la procedencia de los datos, problemas de derechos de autor en trabajos derivados e incluso comportamiento malicioso. Las amenazas que pueden plantear los depredadores son cuestiones que las empresas y la sociedad deben afrontar seriamente.

Perspectivas: adopte la IA generativa pero ponga salvaguardias en las herramientas y los datos

Estas preocupaciones están influyendo en las decisiones corporativas sobre la adopción de la IA, pero según nuestra encuesta, esto no impide que los líderes empresariales y de TI adopten esta tecnología. Hubo respuestas mixtas a los planes para la IA generativa, lo cual no es sorprendente en esta etapa inicial; sin embargo, la mayoría (44%) limita las herramientas y/o los datos que los empleados pueden usar.

Iniciativa de IA empresarial

  • Aún no tenemos una política implementada porque todavía estamos tratando de resolverla: 26%

  • Cualquier empleado puede utilizar cualquier dato, pero solo para servicios de IA aprobados: 24%

  • Cualquier empleado puede utilizar la IA para mejorar su productividad, sin restricciones: 21%

  • Solo algunos datos empresariales se pueden compartir con servicios de IA aprobados: 20%

  • No permitimos que los empleados utilicen IA: 10%

Preocupaciones clave sobre la gestión de datos para la IA generativa

Los líderes de TI deben considerar una variedad de cuestiones de privacidad, seguridad, legales y éticas que surgen de la IA generativa. Su principal preocupación es prevenir violaciones de seguridad y privacidad (28%), seguida de mejorar la transparencia de las fuentes de datos para evitar resultados poco éticos, sesgados o inexactos de las herramientas de IA generativa (22%).

  • Violación de la privacidad y seguridad de nuestros datos: 28%

  • Procedencia de los datos: falta de transparencia en la fuente de datos y/o riesgo de inexactitudes o sesgos en el modelo común de aprendizaje de idiomas (LLM) del proveedor: 21 %

  • Ambigüedad jurídica de obras derivadas de LLM genérico: 16,6%

  • Datos empresariales filtrados al modelo de aprendizaje de idiomas (LLM) del proveedor: 16%

  • Responsabilidad potencial por el uso de resultados de GenAl que contengan información de identificación personal de otros: 10,8%

  • No estamos preocupados ni inseguros: 7%

Mitigar los riesgos de los datos no estructurados en la IA requiere múltiples estrategias, pero no tomar ninguna medida no es una opción.

  • **40%** dijo que adoptará un enfoque múltiple, incluido el almacenamiento, la gestión de datos y las herramientas de seguridad;

  • **35%** trabajará con sus proveedores de seguridad/gobierno existentes;

  • **32%** indicó que sus soluciones de almacenamiento de datos y/o gestión de datos no estructurados tienen capacidades relevantes;

  • **31%** Se ha creado un grupo de trabajo interno para desarrollar y ejecutar la estrategia, y;

  • **26%** solo trabajará con proveedores de IA que tengan implementadas protecciones y controles adecuados.

Insight: centrarse en la gobernanza para el éxito de la IA

Claramente, la necesidad de una agenda de gobernanza de datos no estructurada es fuerte, ya que los líderes de TI no pueden darse el lujo de perder de vista la integridad y la protección de los datos y los posibles fallos o resultados peligrosos de los proyectos de IA generativa. Una encuesta de 2022 de Wakefield Research e Informatica también lo confirma, clasificando la gobernanza de datos como una de las principales prioridades para los directores de datos (CDO).

III. La creciente popularidad del autoservicio de gestión de datos

La tendencia general del autoservicio de TI ahora se ha expandido hacia la gestión de datos no estructurados. Se anima a los gerentes departamentales de TI, analistas de datos, investigadores y otras partes interesadas relacionadas con los datos dentro de la empresa a participar activamente en la gestión de sus propios datos. Este enfoque ayuda a fomentar una mejor colaboración, permitiendo a todas las partes decidir conjuntamente qué datos deben almacenarse en dispositivos de almacenamiento de alto rendimiento, qué datos pueden archivarse o eliminarse y permite tareas como agregar metadatos a archivos y aislar datos entre datos. búsquedas y más.

Una tendencia actual (36%) es permitir a los empleados ver datos analíticos, como el crecimiento de los datos departamentales, los tipos de archivos y las tendencias de uso, buscar datos dentro del aislamiento de datos y crear flujos de trabajo personalizados. Sin embargo, TI quiere mantener cierto control: solo el **22%** cree que los usuarios deberían poder administrar completamente sus datos, incluida la clasificación por niveles, la eliminación, la migración, la recuperación, etc.

¿Cómo desea que los usuarios del departamento administren sus datos?

  • Los usuarios deberían poder ver datos analíticos sobre su uso de almacenamiento, buscar y encontrar los datos que necesitan y crear flujos de trabajo y servicios de datos personalizados: 35%

  • Los usuarios deberían tener cierto nivel de acceso a datos analíticos y de búsqueda, pero TI debería gestionar todo lo demás: 27%

  • Los usuarios deberían poder gestionar sus datos de forma autónoma, incluida la clasificación por niveles, la eliminación, la migración, la recuperación, la búsqueda y el acceso al análisis de datos: 22 %

  • Los usuarios no deberían tener ningún derecho de gestión de datos: 16%

Insight: Servicios de datos 101: los usuarios buscan más control de los datos

El alcance de los servicios de datos incluye:

  • El proceso de gestión de datos a lo largo de su ciclo de vida;

  • Analizar e informar sobre el crecimiento y los costos del almacenamiento de datos, incluida la presentación a nivel de departamento y el uso de datos;

  • Búsqueda y etiquetado de archivos;

  • Escenarios de movilidad de datos como migración, organización en niveles, copia y eliminación de datos.

Si bien más de un tercio (38%) todavía está desarrollando una estrategia de servicios de datos, un **37%** adicional está promoviendo activamente la gestión de datos de autoservicio, compartiendo informes que muestran el uso y gasto de datos departamentales. La gestión de datos de autoservicio beneficia tanto a los usuarios de TI como a los departamentales: los primeros pueden lograr más fácilmente ahorros de costos y objetivos de cumplimiento sin causar conflictos, mientras que los segundos pueden participar más en la toma de decisiones para lograr los objetivos comerciales.

¿Cómo estás progresando hacia tus objetivos?

  • Seguimos construyendo nuestra estrategia de servicios de datos: 37,7%

  • Compartimos informes que muestran el uso y gasto de datos por departamento, pero la gestión de datos es responsabilidad de TI: 37 %

  • Hemos implementado la gestión de datos de autoservicio de usuarios: 25,3%

IV. Costos, desafíos y requisitos de la gestión de datos no estructurados: nuevas bases

Volumen y costo de datos

En 2022, el 50 % de las organizaciones gestionarán 5 PB o más de datos; esta tendencia continúa en la encuesta de 2023. Sin embargo, si bien el 27 % de las organizaciones gestionarán 10 PB o más de datos en 2022, este año este segmento de propietarios de grandes cantidades de datos ha aumentado a un asombroso 32 %.

¿Qué son exactamente 10 PB de datos?

Es difícil de imaginar, pero equivale a 110.000 películas de ultra alta definición (UHD), o la mitad de los datos almacenados por la Biblioteca del Congreso de Estados Unidos. El hecho de que un tercio de los encuestados almacene cantidades tan grandes de datos debería generar preocupaciones sobre la escala de los datos no estructurados empresariales y la carga asociada sobre TI para administrarlos, protegerlos y almacenarlos.

Al igual que en 2022, casi el 70% de las empresas dijeron que gastarán más este año que el año pasado.

En 2023, el 73 % de las organizaciones gastarán más del 30 % de sus presupuestos de TI en almacenamiento de datos, un aumento significativo con respecto al 67 % en 2022.

Insight: la optimización de costes llama la atención

Aunque hay más opciones que nunca para soluciones de respaldo y almacenamiento de datos, las organizaciones de TI todavía gastan una cantidad significativa de sus presupuestos de TI en almacenamiento. En cierto modo, estos costos están justificados: proteger los datos es fundamental para las operaciones comerciales, el éxito de los clientes y el crecimiento general. Sin embargo, se desperdicia mucho en adquirir excesivamente capacidad de almacenamiento para evitar interrupciones en el negocio, una baja utilización de los recursos de la nube y estrategias generales de almacenamiento. Comprender el valor de los datos, las tendencias de uso, las prioridades de los datos y la economía del almacenamiento/nube puede ayudar a TI a tomar mejores decisiones que equilibren el rendimiento con los objetivos de ahorro y sostenibilidad.

Cantidad de datos gestionados actualmente

  • <500TB: 14%

  • 500 TB a 1 PB: 16 %

  • 1PB a 5PB: 20%

  • De 5 PB a 10 PB: 18%

  • De 10 PB a 50 PB: 16%

  • 50 PB o más: 16%

Proporción del presupuesto de TI gastado en almacenamiento y protección de datos

  • Proporción presupuestaria <20%: 8%

  • El presupuesto representó más del 50%: 16%

  • Proporción presupuestaria 30-40%: 19%

  • Proporción presupuestaria 40-50%: 22%

  • Proporción presupuestaria 30-40%: 35%

Desafíos y necesidades de la gestión de datos no estructurados

El crecimiento descontrolado de datos no estructurados ha resultado en una falta de visibilidad, lo que dificulta buscar y decidir cómo y dónde almacenar los datos. También puede generar riesgos legales y de cumplimiento debido a los datos ocultos, el aumento de los costos de almacenamiento y respaldo y los conflictos entre departamentos. La mayoría de las organizaciones enfrentan múltiples desafíos: resolverlos o al menos minimizar su impacto es fundamental para satisfacer las necesidades de los usuarios y ayudar a generar nuevo valor a partir de los datos.

En 2023, las principales dificultades serán mover datos sin interrupciones (también un desafío importante en 2022) y estar preparados para la IA. El primero implica un problema común en el que los usuarios no pueden encontrar sus datos después de moverlos a una nueva ubicación o archivarlos para ahorrar dinero. Las soluciones de gestión de datos no estructurados pueden ayudar a los usuarios moviendo datos de forma transparente para que puedan simplemente hacer clic en los enlaces de los archivos como antes y las aplicaciones puedan seguir funcionando de la misma manera.

La preparación para la IA también es una de las principales prioridades en materia de almacenamiento de datos porque conlleva muchas incógnitas. La IA también requiere inversión en tecnologías de almacenamiento (e informática) apropiadas, escalables y eficientes, de alto rendimiento. Tirias Research predice que la infraestructura del servidor del centro de datos de IA generativa y los costos operativos superarán los 76 mil millones de dólares para 2028. En la nube, proveedores como Amazon y AWS han desarrollado servicios que combinan plataformas de IA con capacidades informáticas y de almacenamiento para facilitar a las empresas la adopción de la IA. Pero es posible que estos servicios no se abaraten con el tiempo.

Insight: estar preparado para la IA requiere una comprensión profunda de los activos de datos

Controlar los costos de almacenamiento de datos es difícil, independientemente de la solución de almacenamiento que elija: local, en el borde o en la nube. La razón es que el crecimiento de los datos no muestra signos de desaceleración. El empleo de herramientas y prácticas para analizar, clasificar y segmentar datos puede conducir a una estrategia de gestión de datos matizada: los datos de baja prioridad se almacenan en un archivo hasta que se requieran para su uso activo o se puedan eliminar, mientras que los datos activos de alta prioridad se conservan. almacenamiento de primer nivel más caro. Un enfoque independiente para la gestión de datos no estructurados puede reducir los costos anuales de almacenamiento, respaldo y recuperación ante desastres en un 70 % o más en muchas organizaciones.

Desafíos clave de la gestión de datos no estructurados

  • Mueva datos y aplicaciones sin interrupciones: 47%

  • Listo para IA y otros servicios en la nube: 46%

  • El crecimiento es demasiado rápido, es necesario mostrar optimización de costos: 35%

  • Los departamentos y los usuarios carecen de visibilidad sobre su gasto en almacenamiento y uso de datos, lo que dificulta la alineación: 34 %

  • Las restricciones legales exigen tratamientos diferentes para distintos tipos de datos: 30%

  • No podemos ver claramente lo que tenemos y lo que podemos superponer/mover/migrar: 23%

Capacidades clave para el futuro del software de gestión de datos no estructurados

El segmento de software empresarial del espacio de gestión de datos no estructurados está cambiando rápidamente. Nació para abordar el crecimiento explosivo de los datos no estructurados en las empresas y la complejidad de la gestión de datos en entornos de almacenamiento de nube híbrida. Una plataforma de gestión de datos no estructurados debe abarcar todo el almacenamiento para que los profesionales de TI puedan obtener información rápidamente para tomar decisiones centradas en los datos.

Las organizaciones de TI maduras en la gestión de datos no estructurados pueden obtener ahorros anuales en almacenamiento y respaldo de hasta un 70 % o más si colocan sus datos correctamente. También tienen la capacidad de proporcionar servicios de datos procesables a los usuarios, como búsqueda sencilla, etiquetado automático de metadatos y movimiento de datos para admitir una variedad de escenarios.

  • En 2023, el monitoreo y las alertas sobre problemas y anomalías de capacidad se identificarán como la capacidad más importante para futuras soluciones de software, según el 44% de los encuestados.

  • La automatización basada en políticas, como mover datos a un almacenamiento en frío o restringir la eliminación, es la segunda mayor demanda para las necesidades futuras de software (41%), seguida del tema familiar de proporcionar acceso de autoservicio a los investigadores y los equipos de TI empresariales.

  • La protección de datos es el principal nuevo escenario para la gestión de datos no estructurados en 2023, similar a la encuesta de 2022.

Información: Las soluciones de gestión de datos no estructurados deben cumplir muchos objetivos clave desde una única plataforma: desde visibilidad integral, monitoreo, búsqueda y etiquetado de archivos a través del aislamiento de datos, hasta políticas automatizadas, acceso transparente a los datos en cualquier lugar y gobernanza de datos.

Capacidades clave para el futuro de la gestión de datos no estructurados

  • Monitoreo y alertas sobre problemas y anomalías de capacidad: 44%

  • Automatización basada en políticas, como mover datos a almacenamiento en frío, replicación y limitación: 41%

  • Acceso de autoservicio para investigadores y equipos de TI empresariales: 39%

  • Etiquetado de datos y búsqueda a través del aislamiento de datos: 33%

  • Indexación de datos globales para una visibilidad integral: 28%

  • Gobernanza de datos para aplicaciones de IA/ML: 28%

Principales nuevos escenarios para soluciones de gestión de datos no estructurados

  • Protección de datos: 60%

  • Permitir a los usuarios buscar y ejecutar análisis de datos no estructurados: 49%

  • Retención y cumplimiento legal: 40%

  • Buscar y eliminar datos: 30%

Cinco puntos clave del informe

1. Prepararse para la IA es una máxima prioridad y un gran desafío.

Los líderes de TI coinciden en que preparar los entornos de almacenamiento y datos empresariales para la implementación de la IA es fundamental, pero es una tarea desafiante en medio del panorama en constante cambio de la IA generativa. Las organizaciones deben considerar la mejor manera de gestionar y comprender los datos no estructurados que respaldan estas aplicaciones. Una comprensión profunda de los datos no estructurados será valiosa a medida que las soluciones de IA evolucionen a medida que evolucionen las regulaciones y los estándares, pase lo que pase.

2. Los líderes esperan que haya medidas regulatorias para la IA.

Las preocupaciones sobre la IA van desde violaciones de datos corporativos, ética y precisión, transparencia de datos, problemas de derechos de autor en trabajos derivados y manipulación por parte de actores malintencionados para causar daño. A pesar de estos riesgos, la mayoría de los líderes apoyan el uso empresarial de la IA, pero quieren limitar las herramientas y/o los datos que los empleados pueden usar. Es popular adoptar un enfoque de gestión de riesgos multifacético que abarque el almacenamiento, la gestión de datos y las herramientas de seguridad.

3. Los métodos de servicio de datos están surgiendo gradualmente.

La evolución de la gestión del almacenamiento a los servicios de datos ha estado en marcha desde el inicio de la pandemia. Dominan los objetivos y procesos empresariales digitales. TI no solo necesita proteger los datos y hacerlos fácilmente accesibles, sino que también debe garantizar que los usuarios y jefes de departamento puedan comprender su propio uso de datos y participar en las decisiones para administrarlos y moverlos. Nuestra investigación de 2023 muestra que la mayoría de las organizaciones ya están muy avanzadas en el desarrollo de una arquitectura madura de gestión de datos de autoservicio.

4. En un contexto de cautela en materia de computación en la nube, las herramientas y estrategias de optimización de costos continúan creciendo.

A medida que la computación en la nube no logra ofrecer los ahorros de costos esperados para algunas organizaciones, los líderes de TI están analizando más profundamente sus inversiones en almacenamiento y nube. Este año, las organizaciones están menos centradas en una migración agresiva a la nube, ya que la optimización de los costos de la nube se ha convertido en una prioridad más importante. Las herramientas que analizan continuamente los activos de datos y los gastos comprenderán mejor los activos de datos y luego, idealmente, tomarán medidas automáticamente en función de las políticas para mover continuamente los datos al almacenamiento más rentable que mejor se adapte a su escenario.

5. La visibilidad y el conocimiento son fundamentales para gestionar el crecimiento de los datos.

En el mercado de almacenamiento de datos altamente competitivo, los proveedores de la nube y las empresas de almacenamiento tradicionales ofrecen constantemente nuevas soluciones rentables para diferentes propósitos. Lo sorprendente de esta realidad es que las organizaciones están gastando un porcentaje cada vez mayor de sus presupuestos de TI en almacenamiento y respaldo de datos. Los administradores de TI necesitan más conocimientos y análisis predictivos sobre costos, uso y características de los datos, así como formas automatizadas de colocar los datos en el lugar correcto. Esto ayudará a liberar fondos para IA, big data y otros proyectos de datos.

Supongo que te gusta

Origin blog.csdn.net/iamonlyme/article/details/133064237
Recomendado
Clasificación