LIC. NOEMÍ BRAVO PRADO
1
1.- DATOS DE LA ASIGNATURA
Nombre de la asignatura:
Almacenamiento de Datos Proceso Analítico en Línea
Carrera:
Licenciatura en Informática
Horas teoría-horas práctica-créditos
4-2-10
y
el
2
2.- HISTORIA DEL PROGRAMA Lugar y fecha de elaboración o revisión
Participantes
Instituto Tecnológico de Celaya, Comisión de la Academia de el 10 enero 2005. Ingeniería en Sistemas Computacionales y Licenciatura en Informática Instituto Tecnológico de Celaya Academia de Ingeniería en del 27 de octubre al 30 Sistemas Computacionales y noviembre 2006. Licenciatura en Informática.
Observaciones (cambios y justificación) Emisión del documento de Propuesta de Módulos de Especialidad, para ISC y LI. Definición de las retículas y elaboración de los contenidos temáticos correspondientes a las asignaturas del módulo de la especialidad.
3.- UBICACIÓN DE LA ASIGNATURA
a). Relación con otras asignaturas del plan de estudio ANTERIORES Asignaturas
POSTERIORES Temas
Fundamentos de base de datos
Todos
Taller de base de datos
Todos
Asignaturas Ninguna.
Temas
4.- OBJETIVO(S) GENERAL(ES) DEL CURSO (competencia específica a desarrollar en el curso)
Aprender cuestiones relativas a la planificación, diseño, construcción, carga y mantenimiento de un Data Warehouse.
5
5. CRITERIOS DE EVALUACIÓN La evaluación debe ser continua cotidiana por lo que se debe considerar el desempeño en cada una de las actividades de aprendizaje, haciendo especial énfasis en:
Examen Tareas Ejercicios en clase Exposición en clase Trabajo final (proyecto)
60% 10% 10% 10% 10% ____ 100%
Nota: Para que el alumno tenga derecho a examen deberá tener el 80% de asistencia a clases, es decir, de 10 asistencias solamente pueden faltar 2.
6.- TEMARIO Unidad 1
Temas Introducción.
Subtemas
1.1 Introducción al concepto Data Warehousing. 1.2 Sistemas de información.
1.3 Características DataWarehouse. 1.4 Estructura Warehouse.
del
de
un Data
Unidad
2
Temas
Subtemas
Arquitectura de un 2.1 Elementos constituyentes de una Data Arquitectura Data Warehouse. Warehouse. 2.2 Operaciones en un Data Warehouse. 2.3 Evolución del Depósito. 2.4 Transformación de Datos y Metadata. 2.5 Flujo de Datos 8
Unidad 3
Temas
Construcción de un data warehouse
Subtemas 3.1 Medios de Almacenamiento para Información Antigua.
3.2 Usos del Data Warehouse. 3.3 Consideraciones Adicionales. 3.4 Ejemplo Warehouse. 3.5 Excepciones Warehouse.
de en
un
Data
el
Data
9
Unidad
4
Temas
Subtemas
Procesamientos de 4.1 Definiciones y conceptos. análisis en línea (OLAP). 4.2 Requerimientos funcionales de los sistemas OLAP. 4.3 Operadores para el manejo de cubos de datos. 4.4 Diseño de consultas a base de datos multidimencionales. 4.5 Utilización de herramientas para OLAP.
Unidad
5
Temas
Aplicaciones
Subtemas
5.1 Organización de un proyecto. 5.2 Desarrollo de un proyecto. 5.3 Confiabilidad de los Datos.
6.- APRENDIZAJES REQUERIDOS
Dominio de diseño de bases de datos relacionales. Dominio del lenguaje SQL.
Habilidad de programación en un lenguaje orientado a objetos. Conocimiento de la arquitectura cliente-servidor.
Habilidades para utilizar software de sistemas.
7. FUENTES DE INFORMACIÓN (BIBLIOGRAFÍA) 1. Hoffer, Jeffrey A., et. al., (2003). Modern Databases Management 6a. ed. Ed. Prentice Hall, USA. 2. Date, C.J. Introducción a las bases de datos, 7ª. ed. Ed. Addison Wesley. 3. Jarke, M. et.al. Fundamentals of data warehouses. Ed. Springer Verlag. 4.Lewis, William J. Data Warehousing and e-commerce. Ed. Prentice Hall.
8. REFERENCIA EN INTERNET http://www.conricyt.mx
:esttecomatlán1
Integradoras
Gale
Pasword:266ittecoit
UNIDAD I
Investigar y conocer las tecnologías de base de datos para el soporte en la toma de decisiones
INTRODUCCIÓN… Los seres humanos han usado una variedad asombrosa de materiales y medios para guardar información, técnicamente llamados medios de grabación o almacenamiento de datos −−cualquier substancia que pueda ser sistemáticamente transformada se puede usar para grabar información. Piedras, vasijas y sogas anudadas son los más antiguos, pero papel ha sido el medio de grabación utilizado por dos milenios. No es sorprendente que las primeras formas de la mecanización de almacenamiento de datos se haya usado el papel. Se picaron agujeros en tarjetas del papel a las cuales se les llamó punch cards. Se usó también cintas de papel. Debido a que el papel era voluminoso y se deteriora rápidamente, se abandonó en favor a medios de almacenamiento magnéticos. Los medios de almacenamiento magnéticos usan un metal o plástico, en forma de una tarjeta, disco, o cinta, a la cual se le ha aplicado un óxido metálico. Existen ciertos problemas y limitaciones en el uso de medios de almacenamiento magnéticos, y hoy en día existe una gran variedad de medios de almacenamiento de datos que utilizan otras técnicas que están basadas en la difracción de las ondas de luz. Existen muchas variaciones de este sistema, las que hacen posible almacenar una gran cantidad de datos digitales en un muy pequeño y económico formato.
1.1 INTRODUCCIÓN AL CONCEPTO DATA WAREHOUSING Almacenes de datos (Data warehouse) El nivel competitivo alcanzado en las empresas les ha exigido desarrollar nuevas estrategias de gestión. Esta necesidad de obtener información para una amplia variedad de individuos es la principal razón de negocios que conduce al concepto de Data warehouse. El DW (de ahora en adelante los términos DataWarehouse, Data warehousing y DW serán utilizados en forma indistinta) convierte entonces los datos operacionales de una organización en una herramienta competitiva, por hacerlos disponibles a los empleados que lo necesiten para el análisis y toma de decisiones.
1.1 INTRODUCCIÓN AL CONCEPTO DATA WAREHOUSING
Al manejar eficientemente la información de cada área de la empresa, se pueden tomar mejores decisiones y así efectuar acciones apropiadas y finalmente conseguir un mejor control sobre la producción empresarial.
El objetivo principal es satisfacer los requerimientos de información internos de la empresa para una mejor gestión, con eficiencia y facilidad de .
1.1 INTRODUCCIÓN AL CONCEPTO DATA WAREHOUSING
Existen muchas definiciones para el DW, la más conocida fue propuesta por Inmon[MicroSt96] (considerado el padre de las Bases de Datos) en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”. En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: “Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”.
1.2 SISTEMAS DE INFORMACIÓN · Inicialmente la finalidad de los sistemas de información era recopilar información sobre una parcela del mundo para ayudar en la toma de decisiones: · recuentos de cereales en Babilonia, de cacao por los pipiles, · censos civiles y militares romanos o chinos, · libros contables de árabes o sefardíes, · Actualmente, con la informatización de las organizaciones y la aparición de aplicaciones de software operacionales sobre el sistema de información, la finalidad principal de los sistemas de información es dar soporte a los procesos básicos de la organización (ventas, producción, personal...).
Una vez satisfecha la necesidad de tener un soporte informático para los procesos básicos de la organización (sistemas de información para la gestión).
Las organizaciones exigen nuevas prestaciones de los sistemas de información (sistemas de información para la toma de decisiones).
El almacén de datos es ahora el “sistema de información central” en todo este proceso.
1.3 CARACTERÍSTICAS DE UN DATA WAREHOUSE
Un almacén de datos es una colección de datos: orientada a un dominio integrada no volátil variante en el tiempo para ayudar en la toma de decisiones [Immon 1992, 1996]
UN AD (ALMACÉN DE DATOS) O DW ESTÁ ORIENTADO HACIA LA INFORMACIÓN RELEVANTE DE LA ORGANIZACIÓN:
SE DISEÑA: PARA CONSULTAR EFICIENTEMENTE INFORMACIÓN RELATIVA A LAS ACTIVIDADES BÁSICAS DE LA ORGANIZACIÓN: • VENTAS, COMPRAS, PRODUCCIÓN, ETC.
UN AD (DW) ES INTEGRADO: INTEGRA DATOS RECOGIDOS DE: DIFERENTES SISTEMAS OPERACIONALES DE LA ORGANIZACIÓN. Y/O FUENTES EXTERNAS.
UN AD ES VARIABLE EN EL TIEMPO: LOS DATOS SON RELATIVOS A UN PERIODO DE TIEMPO Y DEBEN SER INCREMENTADOS PERIÓDICAMENTE.
UN AD ES NO VOLÁTIL: LOS DATOS ALMACENADOS NO SON ACTUALIZADOS, SÓLO SON INCREMENTADOS.
UN AD ES NO VOLÁTIL:
ACTIVIDAD:
Definir el tema del proyecto, así como el lugar y áreas de la organización.
UN AD PROVEE VENTAJAS PARA LAS ORGANIZACIONES:
RENTABILIDAD DE LAS INVERSIONES REALIZADAS PARA SU CREACIÓN. AUMENTO DE LA COMPETITIVIDAD EN EL MERCADO.
AUMENTO DE LA PRODUCTIVIDAD DE LOS TÉCNICOS DE DIRECCIÓN.
UN AD GENERA PROBLEMAS PARA LAS ORGANIZACIONES:
INFRAVALORACIÓN DEL ESFUERZO NECESARIO PARA SU DISEÑO Y CREACIÓN. INFRAVALORACIÓN DE LOS RECURSOS NECESARIOS PARA LA CAPTURA, CARGA Y ALMACENAMIENTO DE LOS DATOS. INCREMENTO CONTINUO DE LOS REQUISITOS DE LOS S. PRIVACIDAD DE LOS DATOS.
1.4 ESTRUCTURA DEL DATA WAREHOUSE
Los data warehouse tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. En la figura, se muestran los diferentes componentes del data warehouse y son: · Detalle de datos actuales · Detalle de datos antiguos · Datos ligeramente resumidos · Datos completamente resumidos · Meta data
Por ejemplo:
ACTIVIDAD:
Realizar un cuadro comparativo de las características, ventajas y desventajas de las bases de datos operacionales y de los almacenes de datos (data warehouse), e identifica las diferencias entre ellas.
Ejercicio: Definir el tema para poder optimizar las tareas de una institución, tienda, aeropuertos, etc., de modo que se logre resolver algún tipo de problema o tarea que se viene realizando manualmente. Entonces, para empezar el proyecto es necesario aterrizar en un tema del mundo real representándolo a través del modelo conceptual y lógico. Por otro lado, observa la imagen, de manera que se vaya empezando a trabajar sobre un almacén de datos y documentando tu proyecto, porque al final como ya se mencione anteriormente tú trabajo será tu calificación.
se entiende...?
Entonces, a trabajar se ha dicho… jóvenes ilustres.
Recuerden que de lo que ya han trabajado en cursos anteriores vayamos trabajando la primera parte para poder lograr un almacén de datos, como se nos esta indicando en la imagen…
Ejemplo:
Piensen y vean…
Diferencias entre el modelo lógico y el conceptual ♦ El modelo conceptual es independiente del DBMS que se vaya a utilizar. El lógico depende de un tipo de SGBD en particular ♦ El modelo lógico está más cerca del modelo físico, el que utiliza internamente el ordenador ♦ El modelo conceptual es el más cercano al , el lógico es el encargado de establecer el paso entre el modelo conceptual y el modelo físico del sistema. Algunos ejemplos de modelos conceptuales son: ♦ Modelo Entidad Relación ♦ Modelo RM/T ♦ Modelos semánticos
Ejemplos de modelos lógicos son: ♦ Modelo relacional ♦ Modelo Codasyl ♦ Modelo Jerárquico
MUCHAS GRACIAS
UNIDAD II
ACTIVIDAD DE ESTA UNIDAD: DISEÑAR LA ARQUITECTURA DEL ALMACÉN DE DATOS DE SU PROYECTO Almacén de Datos
Herramienta de Inteligencia de negocio para la ayuda a la toma de decisiones
INTRODUCCIÓN… Un almacén de Datos es un sistema que debe dar una respuesta a casi cada pregunta con respeto al funcionamiento de la empresa. Una Bodega de datos es una base de datos que almacena información, la cual se construye a partir de datos básicos extraidos de otras bases de datos (operacionales). El motivo para producir información de una bodega de datos es ayudar a la toma de decisiones con la capacidad de realizar en tiempo real análisis. Esta información tiene que ser accesible rápidamente, pero no es tan importante que sea lo mas actual posible y al nivel de detalle muy bajo. Normalmente un almacén de datos se carga diariamente durante la noche cuando los sistemas fuente no están sobrecargados. El objeto mayor de la arquitectura de un almacén de datos es guardar datos históricos y agregados. Las instrucciones SQL ejecutadas con mayor frecuencia son SELECT .
Hay tres arquitecturas del diseño sistemas de almacenes de datos:
Esquema de estrella
Esquema copo de nieve
Esquema constelación
de
Arquitectura de un Almacén de Datos
A fin de comprender cómo se relacionan todos los componentes involucrados en un almacén de datos, es esencial tener una Arquitectura Data Warehouse. Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar la estructura total de datos, comunicación, procesamiento y presentación, que existe para los s finales que disponen de una computadora dentro de la empresa.
Arquitectura de un Almacén de Datos
La arquitectura se constituye de un número de partes interconectadas:
Base de datos operacional / Nivel de base de datos externo
Nivel de a la información
Nivel de a los datos
Nivel de directorio de datos (Metadata)
Nivel de gestión de proceso
Nivel de mensaje de la aplicación
Nivel de data warehouse
Nivel de organización de datos
2.2 OPERACIONES EN UN DATA WAREHOUSE En la Figura , se muestran algunos de los tipos de operaciones que se efectúan dentro de un ambiente data warehousing.
Funciones ETL (extracción, transformación y carga)
Los procesos de extracción, transformación y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacén de datos. Implican las siguientes operaciones: •Extracción. Acción de obtener la información deseada a partir de los datos almacenados en fuentes externas.
•Transformación. Cualquier operación realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de éste a otra base de datos. •Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacén de datos objetivo normal.
Por ejemplo: Creación. Escritura de todos sus registros. Es la primera operación que sufrirá el almacén de datos de datos. Implica la elección de un entorno descriptivo que permita un ágil, rápido y eficaz tratamiento de los datos. Por lo tanto, la creación exige organización, estructura, localización o reserva de espacio en el soporte de almacenamiento, transferencia del archivo o datos del soporte antiguo al nuevo.
Clasificación. Reubicación de los registros de tal forma que queden ordenados según determinados criterios. Una operación muy importante en los datos de un almacén es la clasificación u ordenación (sort, en inglés). Esta clasificación se realizará de acuerdo con el valor de un campo específico, pudiendo ser ascendente (creciente) o descendente (decreciente): alfabética o numérica.
Reorganización de los datos. Las operaciones de los datos modifican la estructura inicial o la óptima de un almacén de datos.
Inserción de un registro nuevo en el almacén de datos.
Consulta. Lectura de todos sus registros. Es la operación que permite al acceder al archivo de datos para conocer el contenido de uno, varios o todos los registros.
de final Los s acceden al data warehouse por medio de herramientas de productividad basadas en GUI
Plataforma del data warehouse La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional.
Datos Externos Dependiendo de la aplicación, el alcance del data warehouse puede extenderse por la capacidad de acceder a la data externa. Por ejemplo, los datos accesibles por medio de servicios de computadora en línea y/o vía Internet, pueden estar disponibles a los s del data warehouse.
ACTIVIDAD DE CLASE Y TAREA: CONTINUAR CON SU PROYECTO…
2.3 EVOLUCIÓN DEL DEPÓSITO
Construir un data warehouse es una tarea grande. No es recomendable emprender el desarrollo del data warehouse de la empresa como un proyecto cualquiera. Más bien, se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementación más gradual e iterativo. No existe ninguna organización que haya triunfado en el desarrollo del data warehouse de la empresa, en un sólo paso. Muchas, sin embargo, lo han logrado luego de un desarrollo paso a paso. Los pasos previos evolucionan conjuntamente con la materia que está siendo agregada.
2.4 TRANSFORMACIÓN DE DATOS Y METADATA La transformación se encarga de las inconsistencias en los formatos de datos y la codificación, que pueden existir dentro de una base de datos única y que casi siempre existen cuando múltiples bases de datos contribuyen al data warehouse.
Se requiere una planificación cuidadosa y detallada para transformar datos inconsistentes en conjuntos de datos conciliables y consistentes para cargarlos en el data warehouse.
Metadata es la información sobre los datos que se alimenta, se transforma y existe en el data warehouse. Metadata es un concepto genérico, pero cada implementación de la metadata usa técnicas y métodos específicos.
Estos métodos y técnicas son dependientes de los requerimientos de cada organización, de las capacidades existentes y de los requerimientos de interfaces de . Hasta ahora, no hay normas para la metadata, por lo que la metadata debe definirse desde el punto de vista del software data warehousing, seleccionado para una implementación específica.
La metadata sirve, en un sentido, como el corazón del ambiente data warehousing.
2.5 FLUJO DE DATOS Existe un flujo de datos normal y predecible dentro del data warehouse. Al ingresar al data warehouse, la información va al nivel de detalle actual, tal como se muestra. Se queda allí y se usa hasta que ocurra uno de los tres eventos siguientes:
Sea eliminado
Sea resumido
Sea archivado
MUCHAS GRACIAS