El Data Mining es la fase central de un proceso de análisis de la información
conocido como KDD (Knowledge Discovery from Data Bases).
El KDD es un proceso no trivial de identificación de patrones válidos,
relevantes, potencialmente útiles i en última instancia comprensible a
partir de los datos:
* Validos: |
---|
Los patrones o conclusiones extraídos de los datos han de ser extrapolables a nuevos datos a partir de la información utilizada para obtenerlos. |
* Relevantes: |
Cuando aportan nueva información desconocida a partir de un análisis trivial. |
* Potencialmente útiles: |
Las conclusiones han de conducir a acciones que aporten beneficio para la organización. |
* Comprensibles: |
La extracción de patrones comprensibles facilita la interpretación validación y uso en la toma de decisiones. |
***Consiste en transformar los datos en información útil.
La obtención de información útil representa una ventaja competitiva para las empresas.
Permite tomar decisiones más precisas en un menor tiempo.
* Comprensión de las necesidades: |
---|
Se han de conocer las necesidades de la organización para establecer un objetivo básico de negocio. |
A partir de aquí se establece el objetivo del Data Mining que pueda modelar o resolver el objetivo de la organización. |
* Comprensión de los datos: |
Familiarización y exploración de los datos para identificar problemas de calidad, empezar a perfilar el subconjunto de atributos que nos interesan y para nuestro objetivo de Data Mining. |
* Preparación de los datos: |
El objetivo de esta fase consiste en obtener la “Tabla Minable” con la que trabajaremos el propio Data Mining. Esto puede requerir la transformación de datos, creación de nuevos, limpiar, seleccionar y finalmente obtener la tabla minable. |
* Data Mining: |
Construcción del modelo con las tecnologías propias de la minería de datos. |
* Evaluación: |
Evaluar el modelo respecto del objetivo establecido en la fase anterior. Es decir, comprobar que las conclusiones del modelo efectivamente nos resuelven de alguna manera el objetivo de Data Mining decidido. |
* Difusión: |
Explotar la potencialidad de los modelos, difundir los informes e incorporar estos resultados a los cuadros de mando. Todo ello con la finalidad de reunir esta información para la toma de decisiones. |
***El KDD es la fase central del modelo e implica decidir tareas y algoritmos
Las tareas se dividen en dos grupos: descriptivas y predictivas.
Tareas descriptivas:
- Clustering
- Correlaciones
- Reglas de asociación
- Análisis de secuencias
Tareas predictivas:
- Clasificación
- Regresión
Entre los algoritmos utilizados se encuentran:
- Árboles de decisión
- Redes neuronales
- Componentes principales
- Algoritmos evolutivos
- Maquinas de vectores soporte
- K-means
- Redes bayesianas
- Otros