Base de Datos Estrategicas (BADESTRA): 4. Data Warehouse

Un almacén de datos (DW) es una base de datos utilizada para la presentación de informes y análisis. Los datos almacenados en el depósito es cargado desde los sistemas operacionales. Los datos pueden pasar a través de un almacén de datos operativos de las operaciones adicionales antes de que se utiliza en el DW para la presentación de informes.
Un almacén de datos mantiene sus funciones en tres capas:. Staging puesta en escena, la integración y el acceso se utiliza para almacenar los datos en bruto para su uso por los desarrolladores. La capa de integración se utiliza para integrar los datos y tener un nivel de abstracción de los usuarios. La capa de acceso es para obtener datos de los usuarios.
Los almacenes de datos se puede subdividir en los data marts . Data marts almacenar subconjuntos de datos de un almacén.
Esta definición del almacén de datos se centra en el almacenamiento de datos. La principal fuente de los datos se limpia, se transforma, catalogados y disponibles para su uso por los administradores y otros profesionales de la minería de datos , procesamiento analítico en línea , investigación de mercados y apoyo a las decisiones (Marakas y O'Brien 2009). Sin embargo, los medios para recuperar y analizar los datos, para extraer, transformar y cargar datos, y para manejar el diccionario de datos también se consideran componentes esenciales de un sistema de almacenamiento de datos. Muchas referencias a almacenamiento de datos utilizan este contexto más amplio. Por lo tanto, una definición más amplia para el almacenamiento de datos incluye herramientas de inteligencia empresarial , herramientas para extraer, transformar y cargar datos en el repositorio, y las herramientas para gestionar y recuperar los metadatos .

Beneficios de un almacén de datos

Un almacén de datos mantiene una copia de la información de los sistemas de código de transacción. Esta complejidad de la arquitectura ofrece la oportunidad de:

Mantener el historial de datos, incluso si los sistemas de transacción de origen no.
Integrar datos de múltiples sistemas de origen, lo que permite una vista central de toda la empresa. Este beneficio es siempre valiosa, pero especialmente cuando la organización ha crecido por la fusión.
Mejorar la calidad de los datos , al proporcionar los códigos y descripciones consistentes, marcar o incluso la fijación de los datos erróneos.
Presentar la información de la organización constantemente.
Proporcionar un único modelo de datos común para todos los datos de interés independientemente de la fuente de los datos.
Reestructurar los datos de manera que tenga sentido para los usuarios de negocios.
Reestructurar los datos de manera que proporciona un rendimiento excelente de consulta, incluso para las consultas analíticas complejas, sin afectar el sistema operativo .
Agregar valor a las aplicaciones de negocio operativa, en particular la gestión de relaciones con clientes (CRM).

Enfoque normalizado en comparación con dimensiones para el almacenamiento de datos

Hay dos enfoques principales para almacenar datos en un almacén de datos - el enfoque multidimensional y el enfoque normalizado. El enfoque multidimensional, cuyos seguidores son conocidos como "Kimballites", creen en Ralph Kimball enfoque 's en el que se afirma que el almacén de datos debe ser modelado utilizando un modelo dimensional / esquema en estrella . El enfoque normalizado, también llamado el modelo de 3FN, cuyos seguidores son conocidos como "Inmonites", creen en el enfoque de Bill Inmon en el que se afirma que el almacén de datos debe ser modelado utilizando un modelo ER / modelo normalizado.
En un enfoque multidimensional , los datos de transacciones se dividen en cualquiera de los "hechos", que generalmente son los datos numéricos de transacción, o " dimensiones ", que son la información de referencia que da contexto a los hechos. Por ejemplo, una transacción de venta puede ser dividido en hechos tales como el número de productos solicitados y el precio pagado por los productos, y en dimensiones tales como la fecha del pedido, nombre del cliente, número de producto, a fin de buques y la factura a lugares , y el vendedor responsable de la recepción del pedido.
Una ventaja clave de un enfoque multidimensional es que el almacén de datos es más fácil para el usuario a entender y utilizar. Además, la recuperación de datos del almacén de datos tiende a operar muy rápidamente. Estructuras tridimensionales son fáciles de entender para los usuarios empresariales, ya que la estructura se divide en las mediciones / hechos y el contexto / dimensiones. Los hechos están relacionados con los procesos de negocio de la organización y el sistema operativo, mientras que las dimensiones que les rodea contienen contexto de la medición (Kimball, Ralph 2008).
Las principales desventajas del enfoque de dimensiones son las siguientes:

Con el fin de mantener la integridad de los hechos y las dimensiones, la carga del almacén de datos con datos de diferentes sistemas operativos es complicado, y
Es difícil modificar la estructura del almacén de datos si la organización de la adopción del enfoque dimensional cambia la forma en que opera.

En el enfoque normalizado, los datos del almacén de datos se almacenan siguientes, hasta cierto punto, base de datos de normalización de las reglas. Las tablas se agrupan por áreas temáticas que reflejan las categorías de datos en general (por ejemplo, los datos sobre clientes, productos, finanzas, etc.) La estructura normalizada divide los datos en las entidades, lo que crea varias tablas en una base de datos relacional. Cuando se aplica en las grandes empresas es el resultado de docenas de tablas que están vinculadas entre sí por una red de uniones. Además, cada una de las entidades creadas se convierten en tablas físicas separadas, cuando la base de datos se lleva a cabo (Kimball, Ralph 2008). La principal ventaja de este enfoque es que es sencillo de añadir información en la base de datos. Una desventaja de este enfoque es que, debido a la cantidad de tablas relacionadas, puede ser difícil para los usuarios a:

unir datos de diferentes fuentes en información significativa y
acceder a la información sin un conocimiento preciso de las fuentes de datos y de la estructura de datos del almacén de datos.

Cabe señalar que ambos normalizaron - modelos y dimensiones puede ser representada en los diagramas de entidad-relación ya que ambos contienen articulado tablas relacionales. La diferencia entre los dos modelos es el grado de normalización.
Estos enfoques no son mutuamente excluyentes, y hay otros enfoques. Enfoques dimensiones puede implicar la normalización de los datos en un grado (Kimball, Ralph 2008).
En impulsada por la información de negocios (Wiley 2010), Robert Hillard propone un acercamiento a la comparación de los dos enfoques sobre la base de las necesidades de información del problema de negocio. La técnica muestra que los modelos normalizados tienen mucha más información que sus equivalentes en dimensiones (incluso cuando los campos se utilizan las mismas en ambos modelos), pero esta información adicional se produce en el costo de la facilidad de uso. La técnica mide la cantidad de información en términos de entropía de la información y usabilidad en términos de la medida de transformación de los mundos pequeños de datos.

De arriba hacia abajo versus de abajo hacia arriba metodologías de diseño

Diseño ascendente

Ralph Kimball , un autor muy conocido en el almacenamiento de datos, es un gran defensor de un enfoque de diseño de almacenes de datos que describe como de abajo hacia arriba.
En el enfoque de abajo arriba data marts son creados para proporcionar capacidades de reporting y análisis para determinados procesos de negocio . Aunque es importante señalar que en la metodología de Kimball, el proceso de abajo hacia arriba es el resultado de un negocio inicial orientado de arriba a abajo el análisis de los procesos de negocio relevantes a modelar.
Data marts contienen, principalmente, las dimensiones y los hechos. Los hechos pueden contener datos atómicos y, si es necesario, que se resumen los datos. El único mercado de datos a menudo modelos de un área específica como "Ventas" o "producción". Estos data marts pueden llegar a ser integradas para crear un almacén de datos completo. La integración de los mercados de datos se gestiona mediante la aplicación de lo Kimball llama "un almacén de datos la arquitectura de bus". El almacén de datos la arquitectura de bus es principalmente una aplicación del "bus", una colección de dimensiones compatibles y hechos conformados , que son dimensiones que se comparten (de una manera específica) entre los hechos en dos o más mercados de datos.
La integración de los mercados de datos en el almacén de datos se centra en las dimensiones compatibles (que residen en el "bus") que definen la posible integración de los "puntos" entre los mercados de datos. La integración real de dos o más mercados de datos se realiza entonces por un proceso conocido como "taladro a través de". Una perforación a través de obras de agrupación (resumen) los datos a lo largo de las llaves de las dimensiones (compartido) conformada de cada hecho de participar en el "taladro a través de", seguido de una combinación en las claves de estos agrupados (resumen) los hechos.
Para mantener el manejo estricto de la arquitectura de bus de almacenamiento de datos es fundamental para mantener la integridad del almacén de datos. La tarea de gestión más importante es hacer que las dimensiones de los mercados de datos son consistentes. En palabras de Kimball, esto significa que las dimensiones de "conformarse".
Algunos lo consideran una ventaja del método de Kimball, que el almacén de datos termina siendo "segmentado" en una serie de lógica autónoma (hasta e incluyendo el autobús) y data marts coherente, en lugar de un modelo centralizado grandes ya menudo complejas. El valor del negocio puede ser devuelto tan pronto como los primeros puestos de datos se pueden crear, y el método se da bien en un estudio exploratorio y enfoque iterativo para la construcción de almacenes de datos. Por ejemplo, el esfuerzo de almacenamiento de datos puede comenzar en la "venta" del departamento, mediante la construcción de un centro comercial de los datos de ventas. Una vez finalizado el mercado de datos de ventas, la empresa podría decidir ampliar las actividades de almacenamiento en el "Departamento de Producción", por ejemplo, que resulta en un mercado de producción de datos. El requisito para el mercado de venta de datos y el mercado de producción de datos para ser integrable, es que comparten el mismo "Bus", que será, que el equipo de almacenamiento de datos ha hecho el esfuerzo de identificar e implementar las dimensiones compatibles en el autobús, y que los centros comerciales de datos individuales de los vínculos que la información del bus. Tenga en cuenta que esto no requiere un 100% la conciencia desde el inicio de los esfuerzos de almacenamiento de datos, un plan maestro se requiere por adelantado. La bolsa de los datos de ventas es bueno, ya que es (suponiendo que el autobús está completo) y el mercado de producción de datos se puede construir prácticamente independiente de los datos de ventas de mercado (pero no independiente de la de autobuses).
Si la integración a través del bus se logra, el almacén de datos, a través de sus dos mercados de datos, no sólo será capaz de entregar la información específica que los mercados de datos individuales están diseñados para hacer, en este ejemplo sea "Ventas" o información "de producción" , pero puede ofrecer un grupo de ventas, la producción de información, que, a menudo, tiene un valor de negocio críticos. Una integración (posiblemente) logró de manera flexible e iterativo de la moda.

Diseño top-down

Bill Inmon , uno de los primeros autores en el tema del almacenamiento de datos, ha definido un almacén de datos como un repositorio centralizado para toda la empresa. Inmon es uno de los principales proponentes del enfoque de arriba hacia abajo a los datos de diseño del almacén, en la que el almacén de datos se ha diseñado utilizando una empresa normalizada modelo de datos . "Atomic" de datos , es decir, los datos con el menor nivel de detalle, se almacenan en el data warehouse. Data marts dimensionales que contienen los datos necesarios para los procesos de negocio o departamentos específicos se crean a partir del almacén de datos. En la visión Inmon el almacén de datos está en el centro de la "Fábrica de Información Corporativa" (CIF), que proporciona un marco lógico para la prestación de inteligencia empresarial (BI) y las capacidades de gestión empresarial.
Inmon afirma que el almacén de datos es la siguiente:

Un tema en particular: Los datos en el data warehouse está organizado para que todos los elementos de los datos relativos a los mismos en el mundo real acontecimiento u objeto están unidos entre sí.
No volátil: Datos en el almacén de datos no se sobre-escrito o borrado - una vez cometido, los datos son estáticos y de sólo lectura, y retenidos para futuros informes.
Integrado: El almacén de datos contiene datos de la mayoría o la totalidad de los sistemas operativos de una organización y estos datos se hizo constante.
Variaciones en el tiempo: Para que un sistema operativo, los datos almacenados contiene el valor actual.

La metodología de diseño de arriba hacia abajo genera vistas tridimensionales muy consistente de los datos en los data marts desde todos los puestos de datos se cargan desde el repositorio centralizado. Diseño top-down también ha demostrado ser robusto frente a los cambios del negocio. La generación de nuevos puestos de datos dimensional frente a los datos almacenados en el almacén de datos es una tarea relativamente simple. El principal inconveniente de la metodología de arriba hacia abajo es que representa un proyecto muy grande, con un alcance muy amplio. El costo inicial para implementar un almacén de datos utilizando la metodología de arriba hacia abajo es importante, y la duración de tiempo desde el inicio del proyecto hasta el punto de que los usuarios finales la experiencia inicial de los beneficios pueden ser considerables. Además, la metodología de arriba hacia abajo puede ser inflexible y no responde a las cambiantes necesidades del servicio durante las fases de ejecución.

Diseño híbrido

Almacenamiento de datos (DW) soluciones a menudo se asemejan la arquitectura hub and spoke . Los sistemas de legado la alimentación de los DW / solución de BI incluyen a menudo la gestión de relaciones con clientes (CRM) y planificación de recursos empresariales soluciones (ERP), lo que genera grandes cantidades de datos. Para consolidar estos modelos de datos diferentes, y facilitar la transformación de extraer la carga (ETL), las soluciones de DW a menudo hacen uso de un almacén de datos operacionales (ODS). La información de la SAO a continuación se analiza en el DW real. Para reducir la redundancia de datos, sistemas de gran tamaño a menudo se almacenan los datos en una forma normalizada. Mercados de datos para los informes específicos, entonces se puede construir en la parte superior de la solución de DW.
Es importante señalar que la base de datos DW en una solución híbrida que se mantiene en la tercera forma normal para eliminar la redundancia de datos. Una base de datos relacional normal, sin embargo, no es eficiente para los informes de inteligencia de negocios donde el modelado dimensional es frecuente. Data marts pequeñas pueden comprar datos del almacén de consolidación y el uso de los datos filtrados, específicas para las tablas de hechos y dimensiones requeridas. El DW proporciona efectivamente una sola fuente de información de la que data marts se puede leer, crear una solución altamente flexible desde el punto de vista de BI. La arquitectura híbrida permite un DW para ser reemplazada por una gestión de datos maestros solución en la que la información operativa, no estática podría residir.
Los componentes de modelado de datos de Vault seguir la arquitectura hub and spoke . Este estilo de modelado es un diseño híbrido, que consiste en la mejor de las prácticas de cría de tanto en forma normal y tercera esquema en estrella. El modelo de Data Vault no es un verdadero 3era forma normal, y rompe algunas de las reglas que dicta 3FN seguir. Sin embargo, es una arquitectura de arriba a abajo con un diseño de abajo hacia arriba. El modelo de Data Vault está orientado a ser estrictamente un almacén de datos. No está orientado a ser accesible para el usuario final, que cuando se construyó, todavía requiere el uso de un data mart o una estrella de la zona del esquema de liberación basada por motivos de negocios.

Los almacenes de datos en comparación con los sistemas operativos

Los sistemas operativos están optimizados para la preservación de la integridad de datos y la velocidad de grabación de las transacciones comerciales a través del uso de la normalización de bases de datos y un modelo entidad-relación . Los diseñadores del sistema operativo en general siguen la Codd reglas de normalización de bases de datos con el fin de garantizar la integridad de los datos. Codd definió cinco reglas cada vez más estrictos de la normalización. Totalmente normalizado diseños de bases de datos (es decir, personas que cumplen las cinco reglas de Codd) a menudo resultan en la información de una transacción comercial que se almacenan en decenas a cientos de mesas. Bases de datos relacionales son eficientes en la gestión de las relaciones entre estas tablas. Las bases de datos tienen muy rápida inserción / actualización de rendimiento, ya que sólo una pequeña cantidad de datos en las tablas se ve afectada cada vez que se procesa la transacción. Finalmente, con el fin de mejorar el rendimiento, los datos más antiguos suelen ser purgado periódicamente de los sistemas operacionales.
Los almacenes de datos están optimizadas para la velocidad de análisis de datos. Con frecuencia los datos de los almacenes de datos son desnormalizaremos a través de un modelo basado en la dimensión . Además, para acelerar la recuperación de datos, almacenamiento de datos a menudo se almacenan en varias ocasiones su forma más granular y en forma resumida llamadas agregados. Los datos de almacenamiento de datos se obtienen de los sistemas operacionales y se mantiene en el almacén de datos, incluso después de que los datos han sido eliminados de los sistemas operativos.

Evolución en el uso de la organización

Estos términos se refieren al nivel de sofisticación de un almacén de datos:

Almacén de datos fuera de línea operativa: Los almacenes de datos en esta etapa de la evolución se actualizan en un ciclo de tiempo regulares (generalmente diaria, semanal o mensual) de los sistemas operativos y los datos se almacenan en un sistema integrado de información orientado a los datos
Almacenamiento de datos en línea: Los almacenes de datos en esta etapa se actualizan los datos en los sistemas operativos de forma regular y los datos de almacenamiento de datos se almacenan en una estructura de datos diseñada para facilitar la presentación de informes.
El tiempo de almacenamiento de datos: Almacenamiento de datos en línea integrada de representar los datos en tiempo real los almacenes de datos etapa en el almacén se actualiza para cada transacción realizada en los datos de origen
Integrado de almacenamiento de datos: Estos almacenes de datos de reunir datos de diferentes áreas de negocio, por lo que los usuarios pueden consultar la información que necesitan a través de otros sistemas

Aplicaciones de ejemplo

Algunas de las aplicaciones de almacenamiento de datos se puede utilizar para son:

Apoyo a las decisiones
Análisis de tendencias
La previsión financiera
Los usuarios de tarjetas de crédito, etc
Análisis de fraudes de seguros
Logística y gestión de inventario
La agricultura

Base de Datos Estrategicas (BADESTRA)

miércoles, 18 de enero de 2012

4. Data Warehouse