lunes, 13 de julio de 2009

UNIDAD 3 "Bases de datos para el soporte en la toma de decisiones"

DATA WAREHOUSE

Es un conjunto de datos integrados o orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración y esta orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.

Estos datos cubren largos períodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.

RIESGOS.

- Desactualización de esquemas a nuevas necesidades del negocio.

- Acceso no restringido a objetos de Data Warehouese.

- Respaldo de los datos almacenados.



DEFINICION Y OBJETIVO DE BODEGAS DE DATOS

Data warehouse o bodega de datos es una colección de información coorporativa derivada directamente de los sistemas operacionales (DB) y de algunos datos externos.

Su propósito es soportar la toma de decisiones en un negocio (no las operaciones del negocio).

Para construir una bodega de datos se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia la bodega de datos.

Ya construida la bodega de datos necesitamos de herramientas para manejar grandes volumenes de información.

FUNCIONAMIENTO DATAWAREHOUSE


Un data warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales. La data extraída es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse. El proceso de transformar,crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la información Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más responsabilidad.

La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse.


CONSIDERACIONES DISEÑO DATAWAREHOUSE


El diseño de un DW debe estar orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar. Tal y como se planteó anteriormente, esto conduce a una estructura en estrella en la que el centro es la tabla “fact” o “hecho” que representa al factor principal por el que se desea analizar la base de datos. Alrededor de esta tabla aparecen las tablas “dimensión”, que representan los diferentes aspectos relacionados con el principal y que influyen en el estudio.

Entre los aspectos a tener en cuenta al afrontar el diseño de un DW hay que tener especial cuidado al:

• Identificar las tablas de hechos, ya que es posible tener más de una. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos.

• Identificar las tablas de dimensión (esto es, decidir cuáles son los parámetros por los que interesa realizar el estudio).

• Comprobar que ninguna de las tablas de hechos oculta tablas de dimensiones. Al heredar la estructura de las bases de datos operacionales, esto ocurre muy a menudo al encontrarnos que no se han eliminado atributos que ya no interesan.

• Comprobar que ninguna de las tablas de dimensión oculta una tabla de hechos. Esto conduciría a la tabla a un crecimiento anormal muy por encima de los límites aceptables para este tipo de tablas (por otra parte, este síntoma ayuda a identificar el error cometido en el diseño).


HERRAMIENTAS PARA EXTRAER TRANSFORMAR Y CARGAR FUENTES DE DATOS


Componentes:

Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, …) y la carga del AD, realizando:

extracción de los datos.

filtrado de los datos: limpieza, consolidación, etc.

carga inicial del almacén: ordenación, agregaciones, etc.

refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos

Repositorio Propio de Datos: información relevante, metadatos.

Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).

Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad.


PROCESAMIENTO Y ANALISIS EN LINEA OLAP

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.

La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional.

La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE.



DEFINICIONES Y CONCEPTOS OLAP

El procesamiento analítico en línea (OLAP) le permite obtener acceso a datos organizados y agregados de orígenes de datos empresariales, como por ejemplo almacenamientos de datos, en una estructura multidimensional denominada cubo. Microsoft SQL Server 2005 Analysis Services (SSAS) proporciona herramientas y características para OLAP que puede utilizar para diseñar, implementar y mantener cubos y otros objetos compatibles. Antes de empezar a integrar cubos y otras funciones OLAP en las soluciones de Business Intelligence, asegúrese de que conoce los conceptos y decisiones siguientes.

La función de un modelo UDM (Unified Dimensional Model) es aproximar los orígenes de datos al usuario. Un UDM se genera a partir de uno o varios orígenes de datos físicos. El usuario emite consultas en el UDM mediante diversas herramientas de cliente, como Microsoft Excel.

Existen ventajas para el usuario final aun cuando el modelo UDM sólo se genere como una fina capa sobre el origen de datos: un modelo de datos más sencillo y más fácil de comprender, el aislamiento de orígenes de datos de servidor heterogéneos y un rendimiento mejorado para las consultas de tipo de resumen. En algunos escenarios, un modelo UDM simple se puede generar automáticamente. Una mayor inversión en la generación del modelo UDM puede generar ventajas adicionales por la gran cantidad de metadatos que puede proporcionar el modelo.

La interfaz de diseño que se muestra en este ejemplo está disponible en las herramientas de desarrollo incluidas en Microsoft SQL Server 2005. Con todo, se podría usar cualquier interfaz compatible con el modelo UDM, incluidas herramientas cliente como Office Excel u Office Web Components (OWC), o una de las muchas herramientas de análisis y creación de informes.


OPERADORES PARA MANEJO DE CUBOS DE DATOS DEL ESTANDAR SQL3

Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.

A la información de un cubo puede acceder el ejecutivo mediante “tablas dinámicas” en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.


DISEÑO DE CONSULTAS DE BASES DE DATOS MULTIDIMENSIONALES

El modelo UDM proporciona las siguientes ventajas: Mejora notablemente el modelo del usuario. Proporciona consultas de alto rendimiento que admiten un análisis interactivo, incluso con grandes volúmenes de datos. Captura las reglas de negocio del modelo para proporcionar un análisis mejorado. Admite “cerrar el ciclo”, lo que permite que los usuarios actúen según los datos que ven.

 Modelo básico del usuario final

Imagine un ejemplo en el que un usuario desee comparar las ventas con las cuotas de distintos períodos.

Los datos de ventas se almacenan en la base de datos principal Sales and Inventory, que también contiene otras tablas. Incluso después de identificar las tablas relevantes, puede que el usuario observe que los datos de una entidad única, como Product, se reparten en distintas tablas. Dado que la integridad referencial se aplica en la lógica de la aplicación, no se definen relaciones entre las tablas. Las cuotas de venta se almacenan en la base de datos de otra aplicación. Ninguna base de datos captura las reglas de negocio, como el hecho de que al comparar las cuotas con las ventas reales, debe utilizarse la fecha de envío del pedido, en lugar de las otras fechas para pedidos (fecha de pedido, fecha de entrega, fecha programada, etc.). Obtener acceso directo a los orígenes de datos

En primer lugar, imagine que el usuario obtuviese acceso directo a los orígenes de datos. En la siguiente ilustración se muestra un ejemplo de una consulta que se genera con una herramienta de ejemplo.

Hasta el momento, el usuario ha progresado considerablemente. Este progreso incluye: Buscar tablas de su interés entre una gran cantidad de tablas con nombres cifrados. Identificar las columnas que se deben utilizar para combinar las tablas. Seleccionar las columnas que contienen los detalles de interés, de muchas tablas con gran cantidad de detalles orientados al sistema. Por ejemplo, de las 11 columnas de las tablas que almacenan detalles sobre categorías de producto, sólo dos columnas con nombre son relevantes para el usuario.


UTILIZACION HERRAMIENTAS PARA OLAP

Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.

Modelo Multidimensional: Modelo estilo hoja de cálculo.

a. Elementos:

Medidas: Valores de interés

Dimensiones, Atributos, Propiedades Visión de Cubos, Datos representados en forma de arreglos multidimensionales.

b. Visión de Relaciones :

Tablas de hechos (Fact Table): Ejemplo: ventas.

Tablas de dimensiones: Ejemplo: tiempo, producto, geografía.

Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalización genera un efecto denominado copos de nieve, es preferible usar el método de la estrella, donde las relaciones son mas claras. La actualización se hace por periodos, no en línea.


MERCADO DE DATOS DATA MART


Un Data Mart es una version especial almacén de datos (data warehouse). Como los almacenes de datos, los data marts contienen una visión de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el análisis de tendencias y experiencias pasadas. La diferencia principal es que la creación de un data mart es especifica para una necesidad de datos seleccionados, enfatizando el fácil acceso a una información relevante.

Introduccion de data Mart

Los productos Data Warehouse han nacido para resolver problemas de análisis de grandes masas de información, en empresas donde una pequeña diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dólares.

Data Mart se destaca por una definición de requerimientos más fácil y rápida. También se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, así como su duración. Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicación que integre todas ellas y proporciona las funciones de un EIS (Executive Information System)


DEFINICIONES CONCEPTOS Y MERCADOS DE DATOS

Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica.

  • Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
  • Datamart es un almacén de datos históricos relativos a un departamento de una organización, así que puede ser simplemente una copia de parte de un DWH para uso departamental.

    Por lo tanto para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información.


Diferencias entre Data Mart y Datawarehouse

El Data Mart se centra solamente en los requerimientos de usuarios asociados con un departamento o función de negocio.

Los Data Marts normalmente no contienen datos operacionales detallados a diferencia de datawarehouse.

Debido a que los data marts contienen menos información comparados con los datawarehouse, los data marts son más fácilmente entendibles y navegables.

FASES DE CONSTRUCCIÓNDE MERCADO DE DATOS

1.- Construcción del Data mart:

Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotación y La Arquitectura del Modelo Multidimensional en la herramienta de explotación.

2.- Construcción de los Procesos de Cargas:

En ésta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc.

3.- Construcción de los reportes analíticos:

Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc .

4.- Construcción de los procesos de prueba:

Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.


TECNOLOGÍAS DE MERCADOS DE DATOS

TECNOLOGIAS DATAMART:

Aspect Data Mart es una solución completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios y reduce el tiempo que consumen estas tareas. Esta solución consolida datos de múltiples fuentes para darle una perspectiva de las operaciones del centro de contacto de su empresa y así poder identificar rápidamente los procesos de cambio necesarios.

Destacados

Consolidación y fácil análisis de datos de múltiples sitios, canales y plataformas.

Perspectiva a nivel empresarial de las operaciones del centro de contacto.

Informe integral que ayuda a dar un servicio al cliente personalizado.

Integración de datos desde el almacén de datos corporativo actual para tener un panorama completo de sus negocios.

Interfaces customizables para fuentes de datos comunes de centros de contacto.



HERRAMIENTAS FRONT-END

También conocidas como herramientas de acceso a los datos o herramientas de presentación.

El front-end es la parte del software que interactúa con el o los usuarios

Herramientas “front-end”

• Herramientas de consulta: usan consultas predefinidas y las capacidades de información incorporadas para que los usuarios tenga accesos a los datos.

• Aplicaciones de usuarios: Muchos programas de aplicación comunes como Microsoft Excel pueden proporcionar acceso “front-end” a bases de datos de apoyo.

• Herramientas de desarrollos de programas: Muchas instalaciones cliente-servidor necesitan aplicaciones “front-end” especiales personalizados para sus tareas de obtención de datos.

Son esenciales para acceder y analizar los datos en el datamart.

El valor de un datamart es difícil de determinar por la habilidad del usuario para extraer la información más significativa sobre la cual se toman las decisiones del negocio.

Un interfaz de usuario efectivo minimiza el número de acciones de usuario requeridas para obtener el resultado deseado por lo que deberá estar navegando intuitivamente a no ser que el usuario memorice los comandos.

Las herramientas de acceso a la información pueden soportar acceso, análisis, visualización y data mining de los datos de una forma predefinida

Interfaz Front-End. Es una aplicación donde los usuarios interactúan directamente con las funciones del sistema, cubre todas las interfaces con las cuales un usuario interactúa con los sistemas, ya sean locales o remotos, sus funciones principales son:

Diseño de formatos.

Presentación.

Lógica de la aplicación.

Manipulación de datos.

Herramientas de consulta.

Utilerías/menús.


HERRAMIENTAS DE BASES DE DATOS

HERRAMIENTAS DE BASE DE DATOS

• Base de Datos Multidimensional: Llamada DATAMART en la cual se guardan los datos históricos correspondientes a los indicadores de gestión de calidad de bd Access Todas las bases de dato se construyeron con SQL Server 2000.

3.1.2.1 Modelo Estrella de la Base de Datos Multidimensional

En la fase de análisis y diseño se realizaron los modelos estrellas, constituidos por las tablas de hecho y tablas de dimensiones para los indicadores de gestión de calidad de DB Access: Satisfacción del Cliente y Porcentaje de Utilización de Planta.

3.3.3.2 HERRAMIENTAS DE BD

Queries Básicas y Reporting:

En este tipo de herramientas el usuario accede directamente a la estructura de las bases de datos relacionales para construir consultas e informes, vía SQL (estándar para el acceso a las bases de datos relacionales).

El SQL es un lenguaje muy extendido entre los programadores, pero no tanto entre los usuarios finales. Aunque estas herramientas escondan en cierta forma los comandos del SQL, sigue siendo necesario tener claro el modelo relacional en cuanto se quiere hacer algún informe complejo, por lo que su utilización directa no está recomendada a usuarios finales.


PROCESO DE DISEÑO DE CONSULTAS DE MERCADOS DE DATOS

El diseño de bases de datos es el proceso por el que se determina la organización de una base de datos, incluidos su estructura, contenido y las aplicaciones que se han de desarrollar .

PALO

• es un motor orientado a celdas, multidimensional, que está específicamente diseñado para mostrar información desde excel, para todo tipo de análisis.


MINERÍA DE DATOS DATA MINING

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.


DEFINICIONES Y CONCEPTOS DE MINERÍA DATOS

Según Fallad y sus coautores (1996): “La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”.

Según Molina y sus colaboradores (2001): “Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión”.

Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperación y extracción de información, presentación, resumen de multidocumentos, minería de datos aplicada a textos, etcétera. Es un término que en dependencia del autor que lo emplee se restringen o se amplían sus esferas de aplicación.

consiste en la búsqueda de regularidades o patrones que se encuentran en un texto, a partir de técnicas de aprendizaje automático; por tanto, se considera como una de las muchas ramas de la lingüística computacional.Como proceso se ocupa del descubrimiento del conocimiento que no existe en el texto, pero que surge al relacionar el contenido de varios textos y se divide en varias etapas.


APLICACIONES DE MINERÍA DE DATOS

En la actualidad existe una gran cantidad de aplicaciones , en areas tales como:

Negocios

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.

Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.

En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar que clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, …) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.

Hábitos de compra en supermercados

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

Patrones de fuga

Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

Fraudes

Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.


DISEÑO DE MINEROS DE DATOS

Un proceso típico de minería de datos consta de los siguientes pasos generales:

1. Selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.

2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).

3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema.

4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.

5. Evaluar los resultados contrastándolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.


TÉCNICAS DE HERRAMIENTAS DE MINERÍA DE DATOS

Como ya se ha comentado, las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

  • Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:

o El Perceptrón.

o El Perceptrón multicapa.

o Los Mapas Autoorganizados, también conocidos como redes de Kohonen.

  • Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:

o Algoritmo ID3.

o Algoritmo C4.5.

  • Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
  • Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:

o Algoritmo K-means.

o Algoritmo K-medoids.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

  • Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.
  • Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

TENDENCIAS EN MINERÍA DE DATOS

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son:

  • La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.)
  • La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.
  • La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, que frente a un fraude con una tarjeta de crédito).
  • Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

No hay comentarios:

Publicar un comentario