lunes, 13 de julio de 2009

UNIDAD 3 "Bases de datos para el soporte en la toma de decisiones"

DATA WAREHOUSE

Es un conjunto de datos integrados o orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración y esta orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.

Estos datos cubren largos períodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.

RIESGOS.

- Desactualización de esquemas a nuevas necesidades del negocio.

- Acceso no restringido a objetos de Data Warehouese.

- Respaldo de los datos almacenados.



DEFINICION Y OBJETIVO DE BODEGAS DE DATOS

Data warehouse o bodega de datos es una colección de información coorporativa derivada directamente de los sistemas operacionales (DB) y de algunos datos externos.

Su propósito es soportar la toma de decisiones en un negocio (no las operaciones del negocio).

Para construir una bodega de datos se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia la bodega de datos.

Ya construida la bodega de datos necesitamos de herramientas para manejar grandes volumenes de información.

FUNCIONAMIENTO DATAWAREHOUSE


Un data warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales. La data extraída es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse. El proceso de transformar,crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la información Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más responsabilidad.

La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse.


CONSIDERACIONES DISEÑO DATAWAREHOUSE


El diseño de un DW debe estar orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar. Tal y como se planteó anteriormente, esto conduce a una estructura en estrella en la que el centro es la tabla “fact” o “hecho” que representa al factor principal por el que se desea analizar la base de datos. Alrededor de esta tabla aparecen las tablas “dimensión”, que representan los diferentes aspectos relacionados con el principal y que influyen en el estudio.

Entre los aspectos a tener en cuenta al afrontar el diseño de un DW hay que tener especial cuidado al:

• Identificar las tablas de hechos, ya que es posible tener más de una. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos.

• Identificar las tablas de dimensión (esto es, decidir cuáles son los parámetros por los que interesa realizar el estudio).

• Comprobar que ninguna de las tablas de hechos oculta tablas de dimensiones. Al heredar la estructura de las bases de datos operacionales, esto ocurre muy a menudo al encontrarnos que no se han eliminado atributos que ya no interesan.

• Comprobar que ninguna de las tablas de dimensión oculta una tabla de hechos. Esto conduciría a la tabla a un crecimiento anormal muy por encima de los límites aceptables para este tipo de tablas (por otra parte, este síntoma ayuda a identificar el error cometido en el diseño).


HERRAMIENTAS PARA EXTRAER TRANSFORMAR Y CARGAR FUENTES DE DATOS


Componentes:

Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, …) y la carga del AD, realizando:

extracción de los datos.

filtrado de los datos: limpieza, consolidación, etc.

carga inicial del almacén: ordenación, agregaciones, etc.

refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos

Repositorio Propio de Datos: información relevante, metadatos.

Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).

Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad.


PROCESAMIENTO Y ANALISIS EN LINEA OLAP

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.

La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional.

La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE.



DEFINICIONES Y CONCEPTOS OLAP

El procesamiento analítico en línea (OLAP) le permite obtener acceso a datos organizados y agregados de orígenes de datos empresariales, como por ejemplo almacenamientos de datos, en una estructura multidimensional denominada cubo. Microsoft SQL Server 2005 Analysis Services (SSAS) proporciona herramientas y características para OLAP que puede utilizar para diseñar, implementar y mantener cubos y otros objetos compatibles. Antes de empezar a integrar cubos y otras funciones OLAP en las soluciones de Business Intelligence, asegúrese de que conoce los conceptos y decisiones siguientes.

La función de un modelo UDM (Unified Dimensional Model) es aproximar los orígenes de datos al usuario. Un UDM se genera a partir de uno o varios orígenes de datos físicos. El usuario emite consultas en el UDM mediante diversas herramientas de cliente, como Microsoft Excel.

Existen ventajas para el usuario final aun cuando el modelo UDM sólo se genere como una fina capa sobre el origen de datos: un modelo de datos más sencillo y más fácil de comprender, el aislamiento de orígenes de datos de servidor heterogéneos y un rendimiento mejorado para las consultas de tipo de resumen. En algunos escenarios, un modelo UDM simple se puede generar automáticamente. Una mayor inversión en la generación del modelo UDM puede generar ventajas adicionales por la gran cantidad de metadatos que puede proporcionar el modelo.

La interfaz de diseño que se muestra en este ejemplo está disponible en las herramientas de desarrollo incluidas en Microsoft SQL Server 2005. Con todo, se podría usar cualquier interfaz compatible con el modelo UDM, incluidas herramientas cliente como Office Excel u Office Web Components (OWC), o una de las muchas herramientas de análisis y creación de informes.


OPERADORES PARA MANEJO DE CUBOS DE DATOS DEL ESTANDAR SQL3

Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.

A la información de un cubo puede acceder el ejecutivo mediante “tablas dinámicas” en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.


DISEÑO DE CONSULTAS DE BASES DE DATOS MULTIDIMENSIONALES

El modelo UDM proporciona las siguientes ventajas: Mejora notablemente el modelo del usuario. Proporciona consultas de alto rendimiento que admiten un análisis interactivo, incluso con grandes volúmenes de datos. Captura las reglas de negocio del modelo para proporcionar un análisis mejorado. Admite “cerrar el ciclo”, lo que permite que los usuarios actúen según los datos que ven.

 Modelo básico del usuario final

Imagine un ejemplo en el que un usuario desee comparar las ventas con las cuotas de distintos períodos.

Los datos de ventas se almacenan en la base de datos principal Sales and Inventory, que también contiene otras tablas. Incluso después de identificar las tablas relevantes, puede que el usuario observe que los datos de una entidad única, como Product, se reparten en distintas tablas. Dado que la integridad referencial se aplica en la lógica de la aplicación, no se definen relaciones entre las tablas. Las cuotas de venta se almacenan en la base de datos de otra aplicación. Ninguna base de datos captura las reglas de negocio, como el hecho de que al comparar las cuotas con las ventas reales, debe utilizarse la fecha de envío del pedido, en lugar de las otras fechas para pedidos (fecha de pedido, fecha de entrega, fecha programada, etc.). Obtener acceso directo a los orígenes de datos

En primer lugar, imagine que el usuario obtuviese acceso directo a los orígenes de datos. En la siguiente ilustración se muestra un ejemplo de una consulta que se genera con una herramienta de ejemplo.

Hasta el momento, el usuario ha progresado considerablemente. Este progreso incluye: Buscar tablas de su interés entre una gran cantidad de tablas con nombres cifrados. Identificar las columnas que se deben utilizar para combinar las tablas. Seleccionar las columnas que contienen los detalles de interés, de muchas tablas con gran cantidad de detalles orientados al sistema. Por ejemplo, de las 11 columnas de las tablas que almacenan detalles sobre categorías de producto, sólo dos columnas con nombre son relevantes para el usuario.


UTILIZACION HERRAMIENTAS PARA OLAP

Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.

Modelo Multidimensional: Modelo estilo hoja de cálculo.

a. Elementos:

Medidas: Valores de interés

Dimensiones, Atributos, Propiedades Visión de Cubos, Datos representados en forma de arreglos multidimensionales.

b. Visión de Relaciones :

Tablas de hechos (Fact Table): Ejemplo: ventas.

Tablas de dimensiones: Ejemplo: tiempo, producto, geografía.

Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalización genera un efecto denominado copos de nieve, es preferible usar el método de la estrella, donde las relaciones son mas claras. La actualización se hace por periodos, no en línea.


MERCADO DE DATOS DATA MART


Un Data Mart es una version especial almacén de datos (data warehouse). Como los almacenes de datos, los data marts contienen una visión de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el análisis de tendencias y experiencias pasadas. La diferencia principal es que la creación de un data mart es especifica para una necesidad de datos seleccionados, enfatizando el fácil acceso a una información relevante.

Introduccion de data Mart

Los productos Data Warehouse han nacido para resolver problemas de análisis de grandes masas de información, en empresas donde una pequeña diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dólares.

Data Mart se destaca por una definición de requerimientos más fácil y rápida. También se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, así como su duración. Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicación que integre todas ellas y proporciona las funciones de un EIS (Executive Information System)


DEFINICIONES CONCEPTOS Y MERCADOS DE DATOS

Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica.

  • Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
  • Datamart es un almacén de datos históricos relativos a un departamento de una organización, así que puede ser simplemente una copia de parte de un DWH para uso departamental.

    Por lo tanto para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información.


Diferencias entre Data Mart y Datawarehouse

El Data Mart se centra solamente en los requerimientos de usuarios asociados con un departamento o función de negocio.

Los Data Marts normalmente no contienen datos operacionales detallados a diferencia de datawarehouse.

Debido a que los data marts contienen menos información comparados con los datawarehouse, los data marts son más fácilmente entendibles y navegables.

FASES DE CONSTRUCCIÓNDE MERCADO DE DATOS

1.- Construcción del Data mart:

Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotación y La Arquitectura del Modelo Multidimensional en la herramienta de explotación.

2.- Construcción de los Procesos de Cargas:

En ésta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc.

3.- Construcción de los reportes analíticos:

Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc .

4.- Construcción de los procesos de prueba:

Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.


TECNOLOGÍAS DE MERCADOS DE DATOS

TECNOLOGIAS DATAMART:

Aspect Data Mart es una solución completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios y reduce el tiempo que consumen estas tareas. Esta solución consolida datos de múltiples fuentes para darle una perspectiva de las operaciones del centro de contacto de su empresa y así poder identificar rápidamente los procesos de cambio necesarios.

Destacados

Consolidación y fácil análisis de datos de múltiples sitios, canales y plataformas.

Perspectiva a nivel empresarial de las operaciones del centro de contacto.

Informe integral que ayuda a dar un servicio al cliente personalizado.

Integración de datos desde el almacén de datos corporativo actual para tener un panorama completo de sus negocios.

Interfaces customizables para fuentes de datos comunes de centros de contacto.



HERRAMIENTAS FRONT-END

También conocidas como herramientas de acceso a los datos o herramientas de presentación.

El front-end es la parte del software que interactúa con el o los usuarios

Herramientas “front-end”

• Herramientas de consulta: usan consultas predefinidas y las capacidades de información incorporadas para que los usuarios tenga accesos a los datos.

• Aplicaciones de usuarios: Muchos programas de aplicación comunes como Microsoft Excel pueden proporcionar acceso “front-end” a bases de datos de apoyo.

• Herramientas de desarrollos de programas: Muchas instalaciones cliente-servidor necesitan aplicaciones “front-end” especiales personalizados para sus tareas de obtención de datos.

Son esenciales para acceder y analizar los datos en el datamart.

El valor de un datamart es difícil de determinar por la habilidad del usuario para extraer la información más significativa sobre la cual se toman las decisiones del negocio.

Un interfaz de usuario efectivo minimiza el número de acciones de usuario requeridas para obtener el resultado deseado por lo que deberá estar navegando intuitivamente a no ser que el usuario memorice los comandos.

Las herramientas de acceso a la información pueden soportar acceso, análisis, visualización y data mining de los datos de una forma predefinida

Interfaz Front-End. Es una aplicación donde los usuarios interactúan directamente con las funciones del sistema, cubre todas las interfaces con las cuales un usuario interactúa con los sistemas, ya sean locales o remotos, sus funciones principales son:

Diseño de formatos.

Presentación.

Lógica de la aplicación.

Manipulación de datos.

Herramientas de consulta.

Utilerías/menús.


HERRAMIENTAS DE BASES DE DATOS

HERRAMIENTAS DE BASE DE DATOS

• Base de Datos Multidimensional: Llamada DATAMART en la cual se guardan los datos históricos correspondientes a los indicadores de gestión de calidad de bd Access Todas las bases de dato se construyeron con SQL Server 2000.

3.1.2.1 Modelo Estrella de la Base de Datos Multidimensional

En la fase de análisis y diseño se realizaron los modelos estrellas, constituidos por las tablas de hecho y tablas de dimensiones para los indicadores de gestión de calidad de DB Access: Satisfacción del Cliente y Porcentaje de Utilización de Planta.

3.3.3.2 HERRAMIENTAS DE BD

Queries Básicas y Reporting:

En este tipo de herramientas el usuario accede directamente a la estructura de las bases de datos relacionales para construir consultas e informes, vía SQL (estándar para el acceso a las bases de datos relacionales).

El SQL es un lenguaje muy extendido entre los programadores, pero no tanto entre los usuarios finales. Aunque estas herramientas escondan en cierta forma los comandos del SQL, sigue siendo necesario tener claro el modelo relacional en cuanto se quiere hacer algún informe complejo, por lo que su utilización directa no está recomendada a usuarios finales.


PROCESO DE DISEÑO DE CONSULTAS DE MERCADOS DE DATOS

El diseño de bases de datos es el proceso por el que se determina la organización de una base de datos, incluidos su estructura, contenido y las aplicaciones que se han de desarrollar .

PALO

• es un motor orientado a celdas, multidimensional, que está específicamente diseñado para mostrar información desde excel, para todo tipo de análisis.


MINERÍA DE DATOS DATA MINING

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.


DEFINICIONES Y CONCEPTOS DE MINERÍA DATOS

Según Fallad y sus coautores (1996): “La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”.

Según Molina y sus colaboradores (2001): “Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión”.

Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperación y extracción de información, presentación, resumen de multidocumentos, minería de datos aplicada a textos, etcétera. Es un término que en dependencia del autor que lo emplee se restringen o se amplían sus esferas de aplicación.

consiste en la búsqueda de regularidades o patrones que se encuentran en un texto, a partir de técnicas de aprendizaje automático; por tanto, se considera como una de las muchas ramas de la lingüística computacional.Como proceso se ocupa del descubrimiento del conocimiento que no existe en el texto, pero que surge al relacionar el contenido de varios textos y se divide en varias etapas.


APLICACIONES DE MINERÍA DE DATOS

En la actualidad existe una gran cantidad de aplicaciones , en areas tales como:

Negocios

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.

Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.

En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar que clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, …) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.

Hábitos de compra en supermercados

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

Patrones de fuga

Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

Fraudes

Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.


DISEÑO DE MINEROS DE DATOS

Un proceso típico de minería de datos consta de los siguientes pasos generales:

1. Selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.

2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).

3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema.

4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.

5. Evaluar los resultados contrastándolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.


TÉCNICAS DE HERRAMIENTAS DE MINERÍA DE DATOS

Como ya se ha comentado, las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

  • Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:

o El Perceptrón.

o El Perceptrón multicapa.

o Los Mapas Autoorganizados, también conocidos como redes de Kohonen.

  • Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:

o Algoritmo ID3.

o Algoritmo C4.5.

  • Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
  • Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:

o Algoritmo K-means.

o Algoritmo K-medoids.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

  • Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.
  • Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

TENDENCIAS EN MINERÍA DE DATOS

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son:

  • La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.)
  • La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.
  • La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, que frente a un fraude con una tarjeta de crédito).
  • Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

miércoles, 27 de mayo de 2009

"E-COMMERCE Y E-BUSSINESS"




"E-COMMERCE Y E-BUSSINESS"







e-commerce...

(del anglicismo Electronic Commerce)


QUÉ ES?

Consiste en comprar y vender productos o servicios a través de sistemas electrónicos como Internet y otras redes computacionales. El intercambio conducido electrónicamente ha crecido de manera espectacular desde la masificación de Internet. Una gran variedad de comercio es conducido de esta manera,.El comercio electrónico moderno usualmente se vale de la WWW (World Wide Web) en algún punto del ciclo de la transacción, aunque puede incluir otras tecnologías como el correo electrónico.

CARACTERÍSTICAS
  • Un pequeño porcentaje de eCommerce es enteramente conducido electrónicamente para productos o servicios "virtuales" como el acceso a particularidades "Premium" de contenidos en una Web. Pero la mayor parte del comercio electrónico implica la transportación de bienes físicos en alguna manera.



  • El e-Commerce es generalmente considerado como el aspecto de ventas de los e-Business o negocios electrónicos.

  • Es estimulado y aprovechado en las innovaciones de transferencias financieras, gestión de cadenas de suministros, transacciones en línea, intercambio electrónico de datos (EDI), sistemas de gestión de inventarios, etc.










e-bussiness...


QUÉ ES?

Es una "interacción con los socios de negocio, donde la interacción es permitida por tecnología de información". Esto es una definición exacta, pero no nos da mucha penetración en el eBusiness, o también se le define como un sistema de información o aplicación a la cual se le delegan procesos de negocios.

CARACTERÍSTICAS

  • El uso tanto de tecnología como de nuevas estrategias de negocios para realizar negocios en línea. El negocio en línea provee un canal de ventas, marketing, e información on-line. (Negocio en línea).


  • Otra definición podría ser como: "cualquier actividad empresarial que se efectúa a través de Internet, no sólo de compra y venta, sino también dando servicio a los clientes y/o colaborando con socios comerciales".

  • e-business es la aplicación de las tecnologías de la información para facilitar la compraventa de productos, servicios e información a través de redes públicas basadas en estándares de comunicaciones.

  • El paradigma del e-business, comprende la combinación del Internet con los sistemas de información tradicionales de una organización (Web + Tecnología de Información) y permite potenciar los procesos vitales de negocios que constituyen la base y esencia de una empresa.

  • Las aplicaciones basadas en los conceptos de e-business se caracterizan por ser interactivas, con alta intensidad de transacciones, y porque permiten un relanzamiento de los negocios hacia nuevos mercados.

lunes, 25 de mayo de 2009

E-LEARNING


"E-LEARNING"

QUÉ ES?
Es un concepto de educación a distancia en el que se integra el uso de las tecnologías de la información y otros elementos pedagógicos (didácticos) para la formación, capacitación y enseñanza de los usuarios o estudiantes en línea, es decir, se puede entender como una modalidad de aprendizaje dentro de la Educación a distancia y se define como e-learning.

QUÉ UTILIZA?
Utiliza herramientas y medios diversos como Internet, intranets, CD-ROM, producciones multimedia (Textos, imagenes, audio, video, etc.), entre otros... Literalmente e-learning es aprendizaje con medios electrónicos: enseñanza dirigida por la tecnología.




CARACERISTICAS PRINCIPALES
  • Es principalmente un medio electrónico para el aprendizaje a distancia o virtual, donde puedes interactuar con tus profesores por medio de internet. Además tu mismo eres el que maneja los horarios, es un medio completamente autónomo.

  • Constituye una propuesta de formación que contempla su implementación predominantemente mediante internet, haciendo uso de los servicios y herramientas que esta tecnología provee.

  • Es una de las opciones que actualmente se utiliza con mayor frecuencia para atender la necesidad de educación continua o permanente. La generación de programas de perfeccionamiento profesional no reglados está en crecimiento debido a que existe un reconocimiento de que los trabajadores se capaciten y se adapten a los nuevos requerimientos productivos.

En Conclusión...

El e-learning, dadas sus características y el soporte tecnológico que lo respalda, se constituye en una alternativa para aquellos que combinan trabajo y actualización, ya que no es necesario acudir a una aula permanentemente...

Intercambio Electronico de Datos

INTERCAMBIO ELECTRONICO DE DATOS


Definiciones:


Es un Conjunto coherente de datos, estructurados conforme a normas de mensajes acordadas, para la transmisión por medios electrónicos, preparados en un formato capaz de ser leído por el ordenador y de ser procesado automáticamente y sin ambigüedad.
Es aquella parte de un sistema de información capaz de cooperar con otros sistemas de información mediante el intercambio de mensajes EDI.


¿Qué funcionalidad ofrece el EDI?


Intercambio electrónico de datos es el intercambio entre sistemas de información, por medios electrónicos, de datos estructurados de acuerdo con normas de mensajes acordadas. A través del EDI, las partes involucradas cooperan sobre la base de un entendimiento claro y predefinido acerca de un negocio común, que se lleva a cabo mediante la transmisión de datos electrónicos estructurados.


En el EDI, las interacciones entre las partes tienen lugar por medio de aplicaciones informáticas que actúan a modo de interfaz con los datos locales y pueden intercambiar información comercial estructurada. El EDI establece cómo se estructuran, para su posterior transmisión, los datos de los documentos electrónicos y define el significado comercial de cada elemento de datos. Para transmitir la información necesita un servicio de transporte adicional (por ejemplo, un sistema de tratamiento de mensajes o de transferencia de ficheros).


Debe destacarse que el EDI respeta la autonomía de las partes involucradas, no impone restricción alguna en el procesamiento interno de la información intercambiada o en los mecanismos de transmisión.


SERVICIOS EDI


Como ya mencionamos anteriormente EDI es el intercambio electrónico de documentos estandarizados, a través de redes de telecomunicaciones, entre aplicaciones informáticas de empresas relacionadas comercialmente. El EDI sustituye el soporte papel de los relacionadas comercialmente. El EDI sustituye el soporte papel de los documentos comerciales más habituales (órdenes de compra, remito, factura, lista de precios, etc.) por transacciones electrónicas con formato normalizados y acordados previamente entre los usuarios del servicio.


Este servicio, a diferencia del correo electrónico, relaciona aplicaciones informáticas que residen en las computadoras de las distintas empresas. Por lo tanto, el intercambio de información se realiza entre aplicaciones informáticas y no entre personas.


Principales Beneficios


EDI sin duda nos ofrece una amplia gama de oportunidades de trabajo y beneficios para nuestra empresa entre los que se destacan :


* Agilización de procesos comerciales
* Importante disminución de errores en los documentos
* Disminución de stocks, debido a la facilidad de aplicación de técnicas "Just-in-Time"
* Ahorro de costos de administración
* Mejora de la competitividad de la empresa que lo adopta
Componentes de EDI
EDI cuenta con algunos componentes que a continuación se describen uno a uno.


CENTRO DE COMPENSACIÓN


La función básica del Centro de Compensación es la de recibir, almacenar y reenviar a sus destinatarios los documentos comerciales que los usuarios del servicios intercambian. Así, se asegura la integridad y confidencialidad de la información. En él cada empresa tiene asignado un buzón electrónico, a través del cual el usuario recibe y recupera la información que sus interlocutores comerciales le envían. La plataforma hardware del Centro es "Fault Tolerant", lo cual garantiza la plena disponibilidad del servicio: 24 horas por día, 365 días del año.


Los aspectos de seguridad tales como: control de acceso, suministro de energía eléctrica, etc. han sido especialmente cuidados, con el objeto de garantizar a los usuarios la plena integridad y confidencialidad de su información.


Los clientes sólo necesitan realizar una conexión física para intercambiar documentos con todos sus interlocutores, circunstancia que facilita el uso diario del Servicio. Además de esta simplificación introducida por el centro Servidor, existe otra serie de ventajas, como las siguientes:


* Una sola conexión sirve para enviar a TODOS los destinatarios y
recibir de TODOS los remitentes
* Alta disponibilidad - Confidencialidad absoluta
* Integridad de datos implícita en los protocolos utilizados
* Mantiene y facilita control de documentos


RED DE TELECOMUNICACIONES


Las empresas usuarias del servicio tiene acceso al Centro de Compensación a través de la red Terrestre y/o Satelital de STARTEL. El ingreso a la misma podrá ser por medio de acceso directos (X.25, X.28) o por la red telefónica conmutada al centro más cercano (acceso RAC X.28). La elección del vínculo se determina en función del tráfico que las empresas necesitan cursar.


Los accesos a la red terrestre con que cuenta el Centro de Compensación


tiene la facilidad de cobro revertido. Es decir, los clientes que se comunican con el Centro no abonan el tráfico generado en la Red.


El protocolo utilizado es el OFTP (Odette File Transfer Protocol), el cual fue diseñado especialmente para intercambios EDI y es en la actualidad el de mayor difusión.


ESTACIÓN DE USUARIO


La estación de trabajo es la herramienta software que permite realizar la conexión del sistema informático de cada Cliente con el Centro de Compensación. La misma cubre la siguientes funciones:
* Comunicaciones
* Traducción de mensajes al formato estandarizado
* Interfase con las aplicaciones del sistema informático del Cliente
* Entrada manual de datos e impresión de documentos recibidos
El equipo necesario para soportar la Estación de Trabajo, en su configuración básica, es una computadora AT, un modem compatible Hayes y una conexión telefónica.



jueves, 23 de abril de 2009

SEGURIDAD WEB

SEGURIDAD WEB





La seguridad en web tiene 3 etapas primarias:

Ø Seguridad de la computadora del usuario
Ø Seguridad del servidor web y de los datos almacenados ahí
Ø Seguridad de la información que viaja entre el servidor web y el usuario

Seguridad de la computadora del usuario

Los usuarios deben contar con navegadores y plataformas seguras, libres de virus y vulnerabilidades. También debe garantizarse la privacidad de los datos del usuario.

Seguridad del servidor web y de los datos almacenados ahí

Se debe garantizar la operación continua del servidor, que los datos no sean modificados sin autorización (integridad) y que la información sólo sea distribuida a las personas autorizadas (control de acceso).

Seguridad de la información que viaja entre el servidor web y el usuario

Garantizar que la información en tránsito no sea leída (confidencialidad), modificada o destruida por terceros. También es importante asegurar que el enlace entre cliente y servidor no pueda interrumpirse fácilmente (disponibilidad).

---Limitación de acceso en función de direcciones IP o dominio. Sólo los usuarios de un dominio u organización tendrán acceso a la información.



---Limitación de acceso por nombres de usuario y claves de acceso. Sólo los usuarios que conozcan una clave de acceso válida pueden acceder a la información.



Otro aspecto que está cobrando especial importancia es la seguridad de la información que se intercambia en el Web. La explotación comercial de Internet exige disponer de sistemas de comunicación seguros, capaces de adaptarse a las necesidades de los nuevos servicios, como la compra electrónica o la banca a distancia. En estos servicios, se manejan dos conceptos fundamentales, la autentificación (garantizar que tanto el usuario de un cliente Web como un determinado servidor de información son quienes dicen ser) y la confidencialidad (hacer que la información intercambiada no pueda ser interceptada por terceros).



Con los sistemas de comunicación actualmente en uso, es técnicamente posible ‘pinchar’ un enlace de comunicaciones e interceptar el contenido de las comunicaciones TCP/IP que por él se transmiten. Cuando se envía información privada, por ejemplo un número de tarjeta de crédito en un formulario de compra, es vital garantizar que la información sea recibida exclusivamente por su destinatario, y que la identidad es la esperada.

OTRAS TECNOLOGIAS


OTRAS TECNOLOGIAS

DHTML

El HTML Dinámico o DHTML (del inglés Dynamic HTML) designa el conjunto de técnicas que permiten crear sitios web interactivos utilizando una combinación de lenguaje HTML estático, un lenguaje interpretado en el lado del cliente (como JavaScript), el lenguaje de hojas de estilo en cascada (CSS) y la jerarquía de objetos de un DOM.

Una página de HTML Dinámico es cualquier página web en la que los scripts en el lado del cliente cambian el HTML del documento, después de que éste haya cargado completamente, lo cual afecta a la apariencia y las funciones de los objetos de la página. La característica dinámica del DHTML, por tanto, es la forma en que la página interactúa con el usuario cuando la está viendo, siendo la página la misma para todos los usuarios.

En contraste, el término más general "página web dinámica" lo usamos para referirnos a alguna página específica que es generada de manera diferente para cada usuario, en cada recarga de la página o por valores específicos de variables de entorno. Este término no debe ser confundido con DHTML. Estas páginas dinámicas son el resultado bien de la ejecución de un programa en algún tipo de lenguaje de programación en el servidor de la página web (como por ejemplo ASP.NET, PHP o Perl), el cual genera la página antes de enviarla al cliente, o bien de la ejecución en la parte cliente de un código que crea la página completa antes de que el programa cliente (usualmente, un navegador) la visualice.

En una página DHTML, una vez ésta ha sido cargada completamente por el cliente, se ejecuta un código (como por ejemplo en lenguaje JavaScript) que tiene efectos en los valores del lenguaje de definición de la presentación (por ejemplo CSS), logrando así una modificación en la información presentada o el aspecto visual de la página mientras el usuario la está viendo.


PHP

Es un lenguaje de programación interpretado, diseñado originalmente para la creación de páginas web dinámicas. Es usado principalmente en interpretación del lado del servidor (server-side scripting) pero actualmente puede ser utilizado desde una interfaz de línea de comandos o en la creación de otros tipos de programas incluyendo aplicaciones con interfaz gráfica usando las bibliotecas Qt o GTK+.

PHP es un acrónimo recursivo que significa PHP Hypertext Pre-processor (inicialmente PHP Tools, o, Personal Home Page Tools). Fue creado originalmente por Rasmus Lerdorf en 1994; sin embargo la implementación principal de PHP es producida ahora por The PHP Group y sirve como el estándar de facto para PHP al no haber una especificación formal. Publicado bajo la PHP License, la Free Software Foundation considera esta licencia como software libre.




Active Server Pages (ASP)

Es una tecnología de Microsoft del tipo "lado del servidor" para páginas web generadas dinámicamente, que ha sido comercializada como un anexo a Internet Information Services (IIS).

La tecnología ASP está estrechamente relacionada con el modelo tecnológico de su fabricante. Intenta ser solución para un modelo de programación rápida ya que programar en ASP es como programar en Visual Basic, por supuesto con muchas limitaciones.

Lo interesante de este modelo tecnológico es poder utilizar diversos componentes ya desarrollados como algunos controles ActiveX así como componentes del lado del servidor, tales como CDONTS, por ejemplo, que permite la interacción de los scripts con el servidor SMTP que integra IIS.
Se facilita la programación de sitios web mediante varios objetos integrados, como por ejemplo un objeto de sesión basada en cookies, que mantiene las variables mientras se pasa de página a página.






JavaServer Pages (JSP)

Es una tecnología Java que permite generar contenido dinámico para web, en forma de documentos HTML, XML o de otro tipo.

Esta tecnología es un desarrollo de la compañía Sun Microsystems. La Especificación JSP 1.2 fue la primera que se liberó y en la actualidad está disponible la Especificación JSP 2.1.
Las JSP's permiten la utilización de código Java mediante scripts. Además, es posible utilizar algunas acciones JSP predefinidas mediante etiquetas. Estas etiquetas pueden ser enriquecidas mediante la utilización de Librerías de Etiquetas (TagLibs o Tag Libraries) externas e incluso personalizadas.

SERVIDORES WEB

SERVIDORES WEB



El servidor HTTP Apache

Es un servidor web HTTP de código abierto para plataformas Unix (BSD, GNU/Linux, etc.), Windows, Macintosh y otras, que implementa el protocolo HTTP/1.1[1] y la noción de sitio virtual. Cuando comenzó su desarrollo en 1995 se basó inicialmente en código del popular NCSA HTTPd 1.3, pero más tarde fue reescrito por completo. Su nombre se debe a que Behelendorf eligió ese nombre porque quería que tuviese la connotación de algo que es firme y enérgico pero no agresivo, y la tribu Apache fue la última en rendirse al que pronto se convertiría en gobierno de EEUU, y en esos momentos la preocupación de su grupo era que llegasen las empresas y "civilizasen" el paisaje que habían creado los primeros ingenieros de internet. Además Apache consistía solamente en un conjunto de parches a aplicar al servidor de NCSA. Era, en inglés, a patchy server (un servidor "parcheado").

El servidor Apache se desarrolla dentro del proyecto HTTP Server (httpd) de la Apache Software Foundation.
Apache presenta entre otras características mensajes de error altamente configurables, bases de datos de autenticación y negociado de contenido, pero fue criticado por la falta de una interfaz gráfica que ayude en su configuración.
Apache tiene amplia aceptación en la red: desde 1996, Apache, es el servidor HTTP más usado. Alcanzó su máxima cuota de mercado en 2005 siendo el servidor empleado en el 70% de los sitios web en el mundo, sin embargo ha sufrido un descenso en su cuota de mercado en los últimos años. (Estadísticas históricas y de uso diario proporcionadas por Netcraft[] ).

La mayoría de las vulnerabilidades de la seguridad descubiertas y resueltas tan sólo pueden ser aprovechadas por usuarios locales y no remotamente. Sin embargo, algunas se pueden accionar remotamente en ciertas situaciones, o explotar por los usuarios locales malévolos en las disposiciones de recibimiento compartidas que utilizan PHP como módulo de Apache.





Servidor HTTP Cherokee


Es Servidor web libre, multiplataforma, abierto bajo la licencia GPL. Apunta a ser un servidor web bastante rápido que también soporta las funcionalidades más comunes de servidor. Esta escrito completamente en C, es escalable y puede usarse como un Sistema integrado.

Internet Information Server

IIS, es una serie de servicios para los ordenadores que funcionan con Windows. Originalmente era parte del Option Pack para Windows NT. Luego fue integrado en otros sistemas operativos de Microsoft destinados a ofrecer servicios, como Windows 2000 o Windows Server 2003. Windows XP Profesional incluye una versión limitada de IIS. Los servicios que ofrece son: FTP, SMTP, NNTP y HTTP/HTTPS.

Este servicio convierte a un ordenador en un servidor de Internet o Intranet es decir que en las computadoras que tienen este servicio instalado se pueden publicar páginas web tanto local como remotamente (servidor web).

Los Servicios de Internet Information Services (IIS) proporcionan las herramientas y funciones necesarias para administrar de forma sencilla un servidor Web seguro. Si ha pensado alojar un sitio Web y FTP (File Transfer Protocol, Protocolo de transferencia de archivos) con IIS, configure el servidor como un servidor de aplicaciones.

El servidor web se basa en varios módulos que le dan capacidad para procesar distintos tipos de páginas, por ejemplo Microsoft incluye los de Active Server Pages (ASP) y ASP.NET. También pueden ser incluidos los de otros fabricantes, como PHP o Perl.



JBoss


Es un servidor de aplicaciones J2EE de código abierto implementado en Java puro. Al estar basado en Java, JBoss puede ser utilizado en cualquier sistema operativo que lo soporte. Los principales desarrolladores trabajan para una empresa de servicios, JBoss Inc., adquirida por Red Hat en Abril del 2006, fundada por Marc Fleury, el creador de la primera versión de JBoss. El proyecto está apoyado por una red mundial de colaboradores. Los ingresos de la empresa están basados en un modelo de negocio de servicios.


JBoss implementa todo el paquete de servicios de J2EE. Por ejemplo, Los Sims online utilizan JBoss para sus juegos multiusuario.


Lighttpd

Es un servidor web diseñado para ser rápido, seguro, flexible, y fiel a los estándares. Está optimizado para entornos donde la velocidad es muy importante, y por eso consume menos CPU y memoria RAM que otros servidores. Por todo lo que ofrece, lighttpd es apropiado para cualquier servidor que tenga problemas de carga.

lighttpd es software libre y se distribuye bajo la licencia BSD. Funciona en GNU/Linux y UNIX de forma oficial. Para Microsoft Windows actualmente hay una distribución conocida como Lighttpd For Windows mantenida por Kevin Worthington.