Explique la diferencia entre el almacén de datos y la base de datos.

Uno, almacén de datos

  1. ¿Qué es un almacén de datos?
    Data Warehouse (Data Warehouse), que puede abreviarse como DW o DWH, es para el proceso de toma de decisiones y planificación de todos los niveles de la empresa y proporciona una colección estratégica de todo tipo de tipos de datos. Fue creado con fines de información analítica y apoyo a la toma de decisiones. Para empresas que necesitan inteligencia empresarial, por la necesidad de orientar la mejora de procesos de negocio, seguimiento de tiempos, costes, calidad y control, etc .;
  2. ¿Qué puede hacer un almacén de datos? (Cite algunas castañas)

    1. La formulación de objetivos de ventas anuales requiere una toma de decisiones basada en informes históricos pasados ​​y no se puede tomar de manera casual.
    2. Optimización de procesos comerciales
      tales como: una plataforma comercial para una marca de teléfonos móviles en los últimos cinco años de edad para comprar gran multitud a qué edad, en esa temporada compra más personas, para que pueda establecerlos como la población objetivo según las características La principal demanda y producción generada por asignación dinámica e inventario de almacén.
  3. Características del almacén de datos

    1. El almacén de datos está orientado a temas.
      1. A diferencia de las bases de datos tradicionales, los almacenes de datos están orientados a temas, entonces, ¿qué es un tema? El tema de la página de inicio es un concepto de orden superior, y es objeto de integración, clasificación y análisis de datos en el sistema de información empresarial a un nivel superior. En un sentido lógico, es el objeto de análisis involucrado en un determinado campo de macroanálisis en la empresa. (Hablando de personas: es el aspecto clave que preocupa a los usuarios a la hora de tomar decisiones con data warehouses. Un tema suele estar relacionado con múltiples sistemas de información operativos, mientras que la organización de datos de las bases de datos operativas está orientada a tareas de procesamiento de transacciones, y cada tarea está aislada entre sí. );
    2. El almacén de datos está integrado.
      1. Los datos del almacén de datos se extraen de los datos originales de la base de datos dispersa (bases de datos relacionales como mysql). Las bases de datos operativas son bastante diferentes de las bases de datos analíticas DSS (Decision Support System). Primero, los datos de origen correspondientes a cada tema del almacén de datos tienen muchas repeticiones y diferencias en todas las bases de datos dispersas, y los datos de diferentes sistemas en línea están empaquetados con diferentes lógicas de aplicación. ; En segundo lugar, los datos completos en el almacén de datos no se pueden obtener directamente del sistema de base de datos original. Por lo tanto, antes de que los datos ingresen al almacén de datos, se deben unificar e integrar. Este paso es el paso más crítico y complejo en la construcción del almacén de datos. Las tareas a excavar son:
        1. Deben contarse todas las inconsistencias en los datos de origen, como desacuerdos con el mismo nombre, sinónimos de diferentes nombres, unidades inconsistentes y longitudes de palabras inconsistentes.
        2. Realizar integración y cálculo de datos. El trabajo de integración de datos en el data warehouse se puede generar cuando los datos se extraen de la base de datos original, pero muchos se generan dentro del data warehouse, es decir, se integran luego de ingresar al data warehouse.
    3. Los datos del almacén de datos cambian con el tiempo.
      1. Los datos no actualizables en el almacén de datos son para aplicaciones, es decir, los usuarios del almacén de datos no realizan operaciones de actualización de datos cuando realizan análisis y procesamiento. Pero no significa que todos los datos del almacén de datos nunca cambiarán durante todo el ciclo de vida, desde el comienzo de la integración de datos en el almacén de datos hasta el final, cuando se eliminan.
      2. Los datos en un almacén de datos cambian con el tiempo, que es una de las características de un almacén de datos. Esta característica tiene principalmente las siguientes tres manifestaciones:
        1. El almacén de datos continúa agregando nuevo contenido de datos a medida que cambia el tiempo. El sistema de almacenamiento de datos debe capturar continuamente los datos modificados en la base de datos OLTP y agregarlos al almacén de datos, es decir, generar continuamente instantáneas de la base de datos OLTP y agregarlas al almacén de datos a través de la integración unificada; pero para las instantáneas de la base de datos que no cambian, Si se capturan nuevos datos de cambio, solo se generará y agregará una nueva instantánea de la base de datos, y la instantánea de la base de datos original no se modificará.
        2. La base de datos elimina continuamente el contenido de datos antiguos a medida que cambia el tiempo. Los datos del almacén de datos también tienen un período de almacenamiento, una vez transcurrido este período, los datos caducados se eliminarán. Es solo que el límite de tiempo de los datos en la base de datos es mucho más largo que el límite de tiempo de los datos en un entorno operativo. En general, solo se almacenan datos de 60 a 90 días en un entorno operativo, mientras que los datos con un período de tiempo más largo (por ejemplo: 5 a 10 años) deben almacenarse en un almacén de datos para cumplir con los requisitos de DSS para el análisis de tendencias.
        3. El almacén de datos contiene una gran cantidad de datos completos, muchos de los cuales están relacionados con el tiempo. Por ejemplo, los datos a menudo se integran según períodos de tiempo o se muestrean en determinados intervalos de tiempo. Estos datos deben reintegrarse continuamente a medida que cambia el tiempo. Por lo tanto, las características de los datos del almacén de datos incluyen elementos de tiempo para indicar el período histórico de los datos.
    4. Los datos del almacén de datos no se pueden modificar.
      1. Los datos del almacén de datos se utilizan principalmente para el análisis de decisiones empresariales, y las operaciones de datos involucradas son principalmente consultas de datos y, por lo general, no se realizan operaciones de modificación. Los datos en el almacén de datos reflejan el contenido de los datos históricos durante un largo período de tiempo. Es una colección de instantáneas de bases de datos en diferentes momentos, así como datos exportados basados ​​en estas instantáneas para estadísticas, síntesis y reorganización, en lugar de procesar datos en línea. La biblioteca de libros en línea de la base de datos está integrada en el almacén de datos. Una vez que los datos almacenados en el almacén de datos han superado el período de almacenamiento de datos del almacén de datos, estos datos se eliminarán del almacén de datos actual. Debido a que el almacén de datos solo realiza operaciones de consulta de datos, el sistema en el almacén de datos es mucho más simple que el sistema en la base de datos. Muchas dificultades técnicas en el sistema de gestión de bases de datos, como la protección de la integridad, el control de concurrencia, etc., pueden casi eliminarse en la gestión del almacén de datos. Sin embargo, debido a que la cantidad de datos de consulta en un almacén de datos suele ser grande, se establecen requisitos más altos para la consulta de datos. Requiere el uso de varias técnicas de indexación complejas; al mismo tiempo, el almacén de datos es para la alta dirección de empresas comerciales, y lo harán La facilidad de uso de la consulta de datos y la representación de datos planteó requisitos más altos;

Dos, la diferencia entre el almacén de datos y la base de datos

  1. Antes de querer entender la diferencia, necesitamos entender tres conceptos: ¿Qué son el software de base de datos, la base de datos y el almacén de datos?
    1. Software de base de datos: es un tipo de software (no un cliente gráfico que se vincula a la base de datos). Se utiliza para implementar el proceso lógico de la base de datos, perteneciente a la capa física.
    2. Base de datos: es un concepto lógico, utilizado para almacenar el almacén de datos, realizado por software de base de datos. La base de datos consta de muchas tablas, las tablas son bidimensionales y hay muchos campos en una tabla. Los campos están alineados y los datos se escriben en la tabla línea por línea. Las tablas de la base de datos son capaces de expresar relaciones multidimensionales en dos dimensiones. Tales como: Oracle, DB2, MySQL, Sybase, MSSQL Server, etc.
    3. Almacén de datos: es una actualización del concepto de base de datos. Desde un punto de vista lógico, no hay diferencia entre una base de datos y un almacén de datos, ambos son lugares donde los datos se almacenan a través del software de la base de datos, pero en términos de volumen de datos, un almacén de datos es mucho más grande que una base de datos. El almacén de datos se utiliza principalmente para minería de datos y análisis de datos para ayudar a los líderes en la toma de decisiones;
    4. En el sistema de arquitectura de TI, la base de datos debe existir y debe haber un lugar para almacenar los datos. Por ejemplo, compras en línea y otras empresas de comercio electrónico. Cuántos artículos hay en stock, el precio de los artículos, el saldo de la cuenta del usuario, etc. Estos datos se almacenan en la base de datos back-end. O la comprensión más simple, nuestras cuentas y contraseñas actuales de WeChat, Weibo y QQ. La base de datos en segundo plano debe ser una tabla de usuario ¿Hay al menos dos campos, a saber, nombre de usuario y contraseña, y luego nuestros datos se almacenan en la tabla línea por línea? Cuando iniciamos sesión, ingresamos el nombre de usuario y la contraseña, y los datos se enviarán de regreso a la estación para que coincidan con los datos de la tabla. Si la coincidencia es exitosa, puede iniciar sesión. Si la coincidencia no es satisfactoria, se informará de un error. Esta es la base de datos, que se utiliza para trabajar en el entorno de producción. Usamos bases de datos para todo lo relacionado con aplicaciones relacionadas con el negocio.
    5. El almacén de datos es una de las tecnologías bajo BI. Debido a que la base de datos está vinculada a aplicaciones comerciales, es imposible que una base de datos contenga todos los datos de una empresa. El diseño de la tabla de la base de datos suele estar diseñado para una determinada aplicación. Por ejemplo, en la función de inicio de sesión en este momento, solo hay estos dos campos en esta tabla de usuario y no hay otros campos. En ese momento, esta tabla está alineada con ella y no hay problema, pero esta tabla no cumple con el análisis. Por ejemplo, quiero saber en qué período de tiempo la cantidad de usuarios es mayor. ¿Qué usuario realiza más compras al año? Tales indicadores. Es necesario rediseñar la estructura de tablas de la base de datos. Para el análisis de datos y la minería de datos, presentamos el concepto de almacén de datos. La estructura de la tabla del almacén de datos está diseñada de acuerdo con los requisitos de análisis, las dimensiones de análisis y los indicadores de análisis.
    6. La diferencia entre la base de datos y el almacén de datos es en realidad la diferencia entre OLTP y OLAP.
      1. El procesamiento operativo, llamado OLTP (procesamiento de transacciones en línea), también se puede llamar sistema de procesamiento orientado a transacciones, que es la operación diaria de negocios específicos en línea en la base de datos, generalmente consultando y modificando algunos registros. Los usuarios están más preocupados por el tiempo de respuesta de las operaciones, la seguridad de los datos, la integridad y la cantidad de usuarios de soporte simultáneos. Como principal medio de gestión de datos, los sistemas de bases de datos tradicionales se utilizan principalmente para el procesamiento operativo.
      2. El procesamiento analítico, llamado procesamiento analítico en línea (OLAP), generalmente analiza datos históricos sobre ciertos temas para respaldar la toma de decisiones de gestión.
Procesamiento operativo Procesamiento analítico
Detallado Sintético o refinado
Modelo entidad-relación (ER) Modelo estrella o modelo de copo de nieve
Almacenar datos instantáneos Almacenar datos históricos, excluyendo datos recientes
Actualizable Solo lectura, solo adjuntar
Opere una unidad a la vez Manipula una colección a la vez
Requisitos de alto rendimiento, tiempo de respuesta corto Requisitos de rendimiento sueltos
Orientado a transacciones Orientado al análisis
Pequeña cantidad de datos en una operación Apoyar las necesidades de decisión
Pequeña cantidad de datos Gran cantidad de datos
Pedido de cliente, nivel de inventario y consulta de cuenta bancaria Análisis de beneficios para el cliente, segmentación del mercado.

3. Cola

1. Si tiene algún error, indíquelo y lo corregiré a tiempo. Si no lo entiende, puede dejar un mensaje y hacer preguntas.
2. Quizás todos piensen que esto no es nada, pero lo tomaré en serio y lo trataré como mis notas y experiencia para poder mejorar.

Bienvenido a mi blog de csdn

Uno, almacén de datos

  1. ¿Qué es un almacén de datos?
    Data Warehouse (Data Warehouse), que puede abreviarse como DW o DWH, es para el proceso de toma de decisiones y planificación de todos los niveles de la empresa y proporciona una colección estratégica de todo tipo de tipos de datos. Fue creado con fines de información analítica y apoyo a la toma de decisiones. Para empresas que necesitan inteligencia empresarial, por la necesidad de orientar la mejora de procesos de negocio, seguimiento de tiempos, costes, calidad y control, etc .;
  2. ¿Qué puede hacer un almacén de datos? (Cite algunas castañas)

    1. La formulación de objetivos de ventas anuales requiere una toma de decisiones basada en informes históricos pasados ​​y no se puede tomar de manera casual.
    2. Optimización de procesos comerciales
      tales como: una plataforma comercial para una marca de teléfonos móviles en los últimos cinco años de edad para comprar gran multitud a qué edad, en esa temporada compra más personas, para que pueda establecerlos como la población objetivo según las características La principal demanda y producción generada por asignación dinámica e inventario de almacén.
  3. Características del almacén de datos

    1. El almacén de datos está orientado a temas.
      1. A diferencia de las bases de datos tradicionales, los almacenes de datos están orientados a temas, entonces, ¿qué es un tema? El tema de la página de inicio es un concepto de orden superior, y es objeto de integración, clasificación y análisis de datos en el sistema de información empresarial a un nivel superior. En un sentido lógico, es el objeto de análisis involucrado en un determinado campo de macroanálisis en la empresa. (Hablando de personas: es el aspecto clave que preocupa a los usuarios a la hora de tomar decisiones con data warehouses. Un tema suele estar relacionado con múltiples sistemas de información operativos, mientras que la organización de datos de las bases de datos operativas está orientada a tareas de procesamiento de transacciones, y cada tarea está aislada entre sí. );
    2. El almacén de datos está integrado.
      1. Los datos del almacén de datos se extraen de los datos originales de la base de datos dispersa (bases de datos relacionales como mysql). Las bases de datos operativas son bastante diferentes de las bases de datos analíticas DSS (Decision Support System). Primero, los datos de origen correspondientes a cada tema del almacén de datos tienen muchas repeticiones y diferencias en todas las bases de datos dispersas, y los datos de diferentes sistemas en línea están empaquetados con diferentes lógicas de aplicación. ; En segundo lugar, los datos completos en el almacén de datos no se pueden obtener directamente del sistema de base de datos original. Por lo tanto, antes de que los datos ingresen al almacén de datos, se deben unificar e integrar. Este paso es el paso más crítico y complejo en la construcción del almacén de datos. Las tareas a excavar son:
        1. Deben contarse todas las inconsistencias en los datos de origen, como desacuerdos con el mismo nombre, sinónimos de diferentes nombres, unidades inconsistentes y longitudes de palabras inconsistentes.
        2. Realizar integración y cálculo de datos. El trabajo de integración de datos en el data warehouse se puede generar cuando los datos se extraen de la base de datos original, pero muchos se generan dentro del data warehouse, es decir, se integran luego de ingresar al data warehouse.
    3. Los datos del almacén de datos cambian con el tiempo.
      1. Los datos no actualizables en el almacén de datos son para aplicaciones, es decir, los usuarios del almacén de datos no realizan operaciones de actualización de datos cuando realizan análisis y procesamiento. Pero no significa que todos los datos del almacén de datos nunca cambiarán durante todo el ciclo de vida, desde el comienzo de la integración de datos en el almacén de datos hasta el final, cuando se eliminan.
      2. Los datos en un almacén de datos cambian con el tiempo, que es una de las características de un almacén de datos. Esta característica tiene principalmente las siguientes tres manifestaciones:
        1. El almacén de datos continúa agregando nuevo contenido de datos a medida que cambia el tiempo. El sistema de almacenamiento de datos debe capturar continuamente los datos modificados en la base de datos OLTP y agregarlos al almacén de datos, es decir, generar continuamente instantáneas de la base de datos OLTP y agregarlas al almacén de datos a través de la integración unificada; pero para las instantáneas de la base de datos que no cambian, Si se capturan nuevos datos de cambio, solo se generará y agregará una nueva instantánea de la base de datos, y la instantánea de la base de datos original no se modificará.
        2. La base de datos elimina continuamente el contenido de datos antiguos a medida que cambia el tiempo. Los datos del almacén de datos también tienen un período de almacenamiento, una vez transcurrido este período, los datos caducados se eliminarán. Es solo que el límite de tiempo de los datos en la base de datos es mucho más largo que el límite de tiempo de los datos en un entorno operativo. En general, solo se almacenan datos de 60 a 90 días en un entorno operativo, mientras que los datos con un período de tiempo más largo (por ejemplo: 5 a 10 años) deben almacenarse en un almacén de datos para cumplir con los requisitos de DSS para el análisis de tendencias.
        3. El almacén de datos contiene una gran cantidad de datos completos, muchos de los cuales están relacionados con el tiempo. Por ejemplo, los datos a menudo se integran según períodos de tiempo o se muestrean en determinados intervalos de tiempo. Estos datos deben reintegrarse continuamente a medida que cambia el tiempo. Por lo tanto, las características de los datos del almacén de datos incluyen elementos de tiempo para indicar el período histórico de los datos.
    4. Los datos del almacén de datos no se pueden modificar.
      1. Los datos del almacén de datos se utilizan principalmente para el análisis de decisiones empresariales, y las operaciones de datos involucradas son principalmente consultas de datos y, por lo general, no se realizan operaciones de modificación. Los datos en el almacén de datos reflejan el contenido de los datos históricos durante un largo período de tiempo. Es una colección de instantáneas de bases de datos en diferentes momentos, así como datos exportados basados ​​en estas instantáneas para estadísticas, síntesis y reorganización, en lugar de procesar datos en línea. La biblioteca de libros en línea de la base de datos está integrada en el almacén de datos. Una vez que los datos almacenados en el almacén de datos han superado el período de almacenamiento de datos del almacén de datos, estos datos se eliminarán del almacén de datos actual. Debido a que el almacén de datos solo realiza operaciones de consulta de datos, el sistema en el almacén de datos es mucho más simple que el sistema en la base de datos. Muchas dificultades técnicas en el sistema de gestión de bases de datos, como la protección de la integridad, el control de concurrencia, etc., pueden casi eliminarse en la gestión del almacén de datos. Sin embargo, debido a que la cantidad de datos de consulta en un almacén de datos suele ser grande, se establecen requisitos más altos para la consulta de datos. Requiere el uso de varias técnicas de indexación complejas; al mismo tiempo, el almacén de datos es para la alta dirección de empresas comerciales, y lo harán La facilidad de uso de la consulta de datos y la representación de datos planteó requisitos más altos;

Dos, la diferencia entre el almacén de datos y la base de datos

  1. Antes de querer entender la diferencia, necesitamos entender tres conceptos: ¿Qué son el software de base de datos, la base de datos y el almacén de datos?
    1. Software de base de datos: es un tipo de software (no un cliente gráfico que se vincula a la base de datos). Se utiliza para implementar el proceso lógico de la base de datos, perteneciente a la capa física.
    2. Base de datos: es un concepto lógico, utilizado para almacenar el almacén de datos, realizado por software de base de datos. La base de datos consta de muchas tablas, las tablas son bidimensionales y hay muchos campos en una tabla. Los campos están alineados y los datos se escriben en la tabla línea por línea. Las tablas de la base de datos son capaces de expresar relaciones multidimensionales en dos dimensiones. Tales como: Oracle, DB2, MySQL, Sybase, MSSQL Server, etc.
    3. Almacén de datos: es una actualización del concepto de base de datos. Desde un punto de vista lógico, no hay diferencia entre una base de datos y un almacén de datos, ambos son lugares donde los datos se almacenan a través del software de la base de datos, pero en términos de volumen de datos, un almacén de datos es mucho más grande que una base de datos. El almacén de datos se utiliza principalmente para minería de datos y análisis de datos para ayudar a los líderes en la toma de decisiones;
    4. En el sistema de arquitectura de TI, la base de datos debe existir y debe haber un lugar para almacenar los datos. Por ejemplo, compras en línea y otras empresas de comercio electrónico. Cuántos artículos hay en stock, el precio de los artículos, el saldo de la cuenta del usuario, etc. Estos datos se almacenan en la base de datos back-end. O la comprensión más simple, nuestras cuentas y contraseñas actuales de WeChat, Weibo y QQ. La base de datos en segundo plano debe ser una tabla de usuario ¿Hay al menos dos campos, a saber, nombre de usuario y contraseña, y luego nuestros datos se almacenan en la tabla línea por línea? Cuando iniciamos sesión, ingresamos el nombre de usuario y la contraseña, y los datos se enviarán de regreso a la estación para que coincidan con los datos de la tabla. Si la coincidencia es exitosa, puede iniciar sesión. Si la coincidencia no es satisfactoria, se informará de un error. Esta es la base de datos, que se utiliza para trabajar en el entorno de producción. Usamos bases de datos para todo lo relacionado con aplicaciones relacionadas con el negocio.
    5. El almacén de datos es una de las tecnologías bajo BI. Debido a que la base de datos está vinculada a aplicaciones comerciales, es imposible que una base de datos contenga todos los datos de una empresa. El diseño de la tabla de la base de datos suele estar diseñado para una determinada aplicación. Por ejemplo, en la función de inicio de sesión en este momento, solo hay estos dos campos en esta tabla de usuario y no hay otros campos. En ese momento, esta tabla está alineada con ella y no hay problema, pero esta tabla no cumple con el análisis. Por ejemplo, quiero saber en qué período de tiempo la cantidad de usuarios es mayor. ¿Qué usuario realiza más compras al año? Tales indicadores. Es necesario rediseñar la estructura de tablas de la base de datos. Para el análisis de datos y la minería de datos, presentamos el concepto de almacén de datos. La estructura de la tabla del almacén de datos está diseñada de acuerdo con los requisitos de análisis, las dimensiones de análisis y los indicadores de análisis.
    6. La diferencia entre la base de datos y el almacén de datos es en realidad la diferencia entre OLTP y OLAP.
      1. El procesamiento operativo, llamado OLTP (procesamiento de transacciones en línea), también se puede llamar sistema de procesamiento orientado a transacciones, que es la operación diaria de negocios específicos en línea en la base de datos, generalmente consultando y modificando algunos registros. Los usuarios están más preocupados por el tiempo de respuesta de las operaciones, la seguridad de los datos, la integridad y la cantidad de usuarios de soporte simultáneos. Como principal medio de gestión de datos, los sistemas de bases de datos tradicionales se utilizan principalmente para el procesamiento operativo.
      2. El procesamiento analítico, llamado procesamiento analítico en línea (OLAP), generalmente analiza datos históricos sobre ciertos temas para respaldar la toma de decisiones de gestión.
Procesamiento operativo Procesamiento analítico
Detallado Sintético o refinado
Modelo entidad-relación (ER) Modelo estrella o modelo de copo de nieve
Almacenar datos instantáneos Almacenar datos históricos, excluyendo datos recientes
Actualizable Solo lectura, solo adjuntar
Opere una unidad a la vez Manipula una colección a la vez
Requisitos de alto rendimiento, tiempo de respuesta corto Requisitos de rendimiento sueltos
Orientado a transacciones Orientado al análisis
Pequeña cantidad de datos en una operación Apoyar las necesidades de decisión
Pequeña cantidad de datos Gran cantidad de datos
Pedido de cliente, nivel de inventario y consulta de cuenta bancaria Análisis de beneficios para el cliente, segmentación del mercado.

3. Cola

1. Si tiene algún error, indíquelo y lo corregiré a tiempo. Si no lo entiende, puede dejar un mensaje y hacer preguntas.
2. Quizás todos piensen que esto no es nada, pero lo tomaré en serio y lo trataré como mis notas y experiencia para poder mejorar.

Bienvenido a mi blog de csdn

Supongo que te gusta

Origin blog.csdn.net/qq_37823979/article/details/108737198
Recomendado
Clasificación