DATAMART
Un
Datamart es una base de datos departamental, especializada en el almacenamiento
de los datos de un área de negocio específica. Caracterizada por disponer la
estructura óptima de datos para analizar la información al detalle desde todas
las perspectivas que afecten a los procesos de dicho departamento. Un datamart
puede ser alimentado desde los datos de un datawarehouse, o integrar por si
mismo un compendio de distintas fuentes de información.
Por
tanto, para crear el datamart de un área funcional de la empresa es preciso
encontrar la estructura óptima para el análisis de su información, estructura
que puede estar montada sobre una base de datos OLTP, como el propio
datawarehouse, o sobre una base de datos OLAP. La designación de una u otra
dependerá de los datos, los requisitos y las características específicas de
cada departamento. De esta forma se pueden plantear dos tipos de datamarts:
- Datamart OLAP: Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice
- Datamart OLTP: Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).
Los
datamarts que están dotados con estas estructuras óptimas de análisis presentan
las siguientes ventajas:
- Poco volumen de datos.
- Mayor rapidez de consulta: Consultas SQL y/o MDX sencillas.
- Validacion directa de informacion.
- Facilidad para la historizacion de los datos.
DATAWAREHOUSE
Un
Datawarehouse es una base de datos corporativa que se caracteriza por integrar
y depurar información de una o más fuentes distintas, para luego procesarla
permitiendo su análisis desde infinidad de perspectivas y con grandes
velocidades de respuesta. La creación de un datawarehouse representa en la
mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para
implantar una solución completa y fiable de Business Intelligence.
La
ventaja principal de este tipo de bases de datos radica en las estructuras en
las que se almacena la información (modelos de tablas en estrella, en copo de
nieve, cubos relacionales... etc). Este tipo de persistencia de la información
es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de
la misma (siempre en un entorno diferente a los sistemas operacionales).
El
término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce
literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho
más que eso. Según definió el propio Bill Inmon, un datawarehouse se
caracteriza por ser:
- Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
- Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.
- Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.
- No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.
- Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, su fiabilidad, forma de cálculo, entre otros.
Los
objetivos que deben cumplir los metadatos, según el colectivo al que va
dirigido, son:
- Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qué información hay y qué significado tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.
- Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoría, gestión de la información histórica, administración del datawarehouse, elaboración de programas de extracción de la información, especificación de las interfaces para la realimentación a los sistemas operacionales de los resultados obtenidos... etc.
Principales
aportaciones de un datawarehouse:
- Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio.
- Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información.
- Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.
- Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.
- Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con retornos de la inversión espectaculares.
OLTP
(OnLine Transaction Processing)
OLTP
es la sigla en inglés de Procesamiento de Transacciones En Línea (OnLine
Transaction Processing) es un tipo de procesamiento que facilita y administra
aplicaciones transaccionales, usualmente para entrada de datos y recuperación y
procesamiento de transacciones (gestor transaccional). Los paquetes de software
para OLTP se basan en la arquitectura cliente-servidor ya que suelen ser
utilizados por empresas con una red informática distribuida.
El
término puede parecer ambiguo, ya que puede entenderse “transacción” en el
contexto de las “transacciones computacionales” o de las “transacciones en
bases de datos”. También podría entenderse en términos de transacciones de
negocios o comerciales. OLTP también se ha utilizado para referirse a la
transformación en la que el sistema responde de inmediato a las peticiones del
usuario. Un cajero automático de un banco es un ejemplo de una aplicación de
procesamiento de transacciones comerciales.
La
tecnología OLTP se utiliza en innumerables aplicaciones, como en banca
electrónica, procesamiento de pedidos, comercio electrónico, supermercados o
industria.
Requerimientos
- El procesamiento de transacciones en línea cada vez necesita más recursos para las transacciones que se propagan por una red y que pueden integrar a más de una empresa. Por esta razón, el software actual para sistemas OLTP utiliza procesamiento cliente-servidor y software de intermediación (middleware) que permite a las transacciones correr en diferentes plataformas en una red.
- En grandes aplicaciones, la eficiencia del OLTP puede depender de lo sofisticado que sea el software de gestión de transacciones (como CICS en plataformas IBM) o de que tácticas de optimización se utilizan para facilitar la gran cantidad de actualizaciones concurrentes que se pueden producir en una base de datos orientada a OLTP.
- En los sistemas de bases de datos descentralizados más exigentes, los programas de intermediación OLTP distribuyen el procesamiento de transacciones entre varios ordenadores en una red. A menudo OLTP se integra en una arquitectura orientada a servicios o en un servicio Web.
OLAP
(On-Line Analytical Processing)
OLAP
es el acrónimo en inglés de procesamiento analítico en línea (On-Line
Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia
de negocios (o Business Intelligence) cuyo objetivo es agilizar la consulta de
grandes cantidades de datos. Para ello utiliza estructuras multidimensionales
(o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o
Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas,
marketing, informes de dirección, minería de datos y áreas similares.
La
razón de usar OLAP para las consultas es la rapidez de respuesta. Una base de
datos relacional almacena entidades en tablas discretas si han sido
normalizadas. Esta estructura es buena en un sistema OLTP pero para las
complejas consultas multitabla es relativamente lenta. Un modelo mejor para
búsquedas (aunque peor desde el punto de vista operativo) es una base de datos
multidimensional.
La
principal característica que potencia a OLAP, es que es lo más rápido a la hora
de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la
mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE.
·
Funcionalidad
- En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (también llamado cubo multidimensional o hipercubo). Se compone de hechos numéricos o medidas, que se clasifican por dimensiones. El cubo de metadatos es típicamente creado a partir de un esquema en estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensión de los cuadros.
ROLAP
(Relational On Line Analytical Processing)
ROLAP
significa Procesamiento Analítico OnLine Relacional, es decir, se trata de
sistemas y herramientas OLAP (Procesamiento Analítico OnLine) construidos sobre
una base de datos relacional. Es una alternativa a la tecnología MOLAP
(Multidimensional OLAP) que se construye sobre bases de datos
multidimensionales. Ambos tipos de herramientas, tanto ROLAP como MOLAP, están
diseñadas para realizar análisis de datos a través del uso de modelos de datos
multidimensionales, aunque en el caso de ROLAP estos modelos no se implementan
sobre un sistema multidimensional, sino sobre un sistema relacional clásico.
·
Ventajas
de ROLAP
La
construcción de herramientas OLAP sobre sistemas relacionales presenta algunas
ventajas frente a los sistemas multidimensionales:
- ROLAP se considera más escalable para manejar grandes volúmenes de datos, especialmente modelos con dimensiones de gran cardinalidad (por ejemplo, con millones de miembros).
- Hay disponible una gran variedad de herramientas de carga de datos para sistemas relacionales; además, existe la posibilidad de ajustar el código ETL (Extract, Transform, Load) a un modelo de datos particular. Con todo esto se consigue que los tiempos de carga sean generalmente mucho menores que con las cargas MOLAP automatizadas.
- Los datos se almacenan en una base de datos relacional estándar que puede ser accedida por cualquier herramienta de generación de informes SQL (reporting). Estas herramientas no tienen que ser necesariamente de tipo OLAP.
- Las herramientas MOLAP tienden a sufrir un bajo rendimiento cuando consultan elementos como descripciones textuales.
- Obviando el almacenamiento de datos del modelo multidimensional, es posible modelar datos con éxito que de otro modo no se ajustarían en un modelo dimensional estricto.
MOLAP
(Multidimensional
On Line Analytical Processing)
Se
trata de una alternativa a la tecnología ROLAP (OLAP-Relacional).
Aunque ambos tipos de herramientas están diseñadas para realizar análisis de
datos a través de un modelo de datos multidimensional, MOLAP se diferencia
significativamente en que requiere un pre procesamiento y almacenamiento de la
información contenida en el cubo
OLAP. MOLAP almacena estos datos en una
matriz de almacenamiento multidimensional optimizado, más que en una base de datos relacional (o
en un ROLAP).
Ventajas
de MOLAP
- Consulta rápida debido a la optimización del rendimiento de almacenamiento, la indexación multidimensional y la memoria caché.
- Ocupa menor tamaño en disco en comparación con los datos almacenados en base de datos relacional debido a técnicas de compresión.
- Automatización del procesamiento de los datos agregados de mayor nivel.
- Muy compacto para conjuntos de datos de pocas dimensiones.
- El modelo de almacenamiento en vectores/matrices proporciona una indexación natural.
- Eficaz extracción de datos lograda gracias a la pre-estructuración de los datos agregados.
- La etapa de procesamiento (carga de datos) puede ser bastante larga, sobre todo para grandes volúmenes de datos. Normalmente, esto se puede evitar con un procesamiento incremental, es decir, sólo el procesamiento de los datos que han cambiado (por lo general, los nuevos datos) en lugar de volver a procesar de todo el conjunto de datos.
- Las herramientas MOLAP tradicionalmente tienen dificultades para consultar con modelos con dimensiones muy altas (del orden de millones de miembros).
- Algunas herramientas MOLAP (por ejemplo, Essbase) tienen dificultades para actualizar y consultar los modelos con más de diez dimensiones. Este límite varía en función de la complejidad y la cardinalidad de las dimensiones de que se trate. También depende de la cantidad de hechos o medidas almacenados. Otras herramientas MOLAP (por ejemplo, Microsoft Análisis Services o Applix TM1) puede manejar cientos de dimensiones.
- El enfoque MOLAP introduce redundancia en los datos.
Bibliografia:
v Datamart
v Datawarehouse
v
On Line Transacction Processing (OLTP)
v
On Line Analytical Processing (OLAP)
https://es.wikipedia.org/wiki/OLAP
v
Relational On Line Analytical Processing (ROLAP)
https://es.wikipedia.org/wiki/ROLAP
v
Multidimensional On Line Analytical Processing (MOLAP)
https://es.wikipedia.org/wiki/MOLAP
v
Hybrid On Line Analytical Processing (HOLAP)
v
Desktop On Line Analytical Processing (DOLAP)
v
Local On Line Analytical Processing (LOLAP)
http://es.slideshare.net/enavarrete24/capitulo-2-introduccin-al-business-intelligence
Integrantes:
v García
Cayampi, Edgar Enrique
v Lizama
Espinoza, Luis Alexander
v Melo
Castañeda, Dhapne Xiomara
v Ramírez
Ostos, Angélica Isabel
v Salazar
Motta, Alexander
sin duda muy buena investigacion
ResponderBorrarEs importante entender los requerimientos del mundo actual para llegar al éxito, tener un control adecuado de nuestra información no solo nos dará respuestas y/o resultados más veloces si no también representará una disminución en costos.
ResponderBorrarMis felicitaciones al grupo, buena estructura ... buen trabajo.
Felicidades. Buen trabajo.
ResponderBorrarFelicidades. Buen trabajo.
ResponderBorrarMuy buen trabajo
ResponderBorrar