ejercicio de simulación de minería de datos


El tema dos de la asignatura de minería de datos del máster está dedicado a la fase de preparación de los datos dentro del proceso más general de descubrimiento de conocimiento a partir de los datos (KDD) Esta fase tiene como objetivo localizar las fuentes de datos, caracterizarlas completamente en estructura y tipo, fusionarlas (opcionalmente) en un almacén central de datos (datawarehouse) para poder visualizarlos y tratarlos mejor, mejorar la calidad de los datos eliminando datos faltantes, corrigiendo datos erróneos, etc. y obtener una vista minable sobre la que poder aplicar las técnicas de minería de datos. Esta vista minable puede requerir un procesado adicional para seleccionar las variables más significativas dentro de un conjunto posible, reducir dichas variables a un número adecuado para la técnica que queremos aplicar (la escalabilidad de algunas es limitada), combinar ciertas variables que están muy relacionadas o que funcionan mejor combinadas, adaptar los datos al tipo adecuado para el algoritmo (pasar de numeéricos a literales o viceversa, escalado, centrado, …), etc.

En el contexto de la selección de las variables, un proceso muy interesante y sobre el que se está investugando bastante (será objeto de la próxima actividad), es en el que se encuadra la primera actividad que hay que realizar en el curso:

El estudiante generará un conjunto de datos artificial compuesto por 100 instancias caracterizadas por una variable relevante en sentido fuerte, tres variables relevantes en sentido débil y una variable totalmente irrelevante. Esta última se puede generar mediante números aleatorios extraídos de una distribución de probabilidad uniforme o normal (gaussiana) Como indicación sugerimos extender el ejemplo XOR a tres dimensiones. A continuación, aplicará diferentes técnicas de selección de variables disponibles en weka (un mínimo de tres de filtrado, el análisis de componentes principales y la técnica de envoltura, WrapperSubsetEval, con BayesNet como clasificador y empleando todos los valores por defecto, salvo el número máximo de padres que se debe modificar a 3).

Entregables (5 horas prácticas):

El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

1. Descripción del experimento.

2. Tabla de resultados obtenidos para las 5 aproximaciones.

3. Discusión de los resultados.

He encontrado una aplicación práctica con weka (en español): Aplicación de métodos de selección de atributos para determinar factores relevantes en la evaluación nutricional de los niños, que puede ser clarificador. Finalmente me hubiera venido bien que no se hubieran suspendido dos de los Tutoriales del último CAEPIA – TTIA (12 y 13 de Noviembre de 2007): TM1. Clasificación de texto con WEKA y especialmente TM2. Selección, Extracción y Construcción de Características:

TM2. Selección, Extracción y Construcción de Características

José Carlos Cortizo Pérez (Artificial Intelligence & Network Solutions)

En este tutorial se pretende ofrecer una panorámica aplicada de las distintas técnicas de preprocesado de características, muy útil en procesos de minería de datos y aprendizaje automático.

Dentro de las técnicas de preprocesado de datos, se abordarán tanto aquellas orientadas a la reducción de dimensionalidad (filtros y wrappers para la selección automática de características), como aquellas orientadas a la transformación del espacio (proyecciones y extracción de características) y al aumento de la dimensionalidad (creación de características utilizando conocimiento del dominio, relaciones existentes, redes neuronales, clustering, etc.).

El objetivo del tutorial es organizar y poner en práctica un conocimiento muy útil para áreas como el Aprendizaje Automático, pero sobre el que existe bastante desconocimiento por haber sido “segundo plato” durante mucho tiempo (hasta hace relativamente poco tiempo apenas se han dedicado esfuerzos a este preprocesado de características mientras que se han volcado en el desarrollo de algoritmos de aprendizaje) pero que ha cobrado mucho peso específico los últimos años debido a la aparición de conjuntos de datos con gran cantidad de características sobre los que es inviable realizar un aprendizaje sin la ayuda de alguna de estas técnicas.

El tutorial se desarrollará mediante transparencias para la parte teórica que se intercalará con demos y ejercicios. También se tratarán unos prácticos finales para acabar de poner los conocimientos en práctica, permitiendo una mayor proactividad del público (se pretende abordar este tutorial desde una cierta perspectiva de metodología activa para el máximo aprovechamiento del mismo).

[…]

NOTA: El autor tiene otra presentación realizada en otra reunión que también me puede servir.

3 comentarios en “ejercicio de simulación de minería de datos

    1. Michael, lo mejor que puedes hacer es estudiarte la herramienta weka y su documentación donde tienes muchos ejemplos de tareas de minería de datos con todos los procesos que hay que seguir. César Ferreri Ramírez de la Universidad Politécnica de valencia tiene una página personal donde explica muy bien el uso de la herramienta. Yo he hablado muy por encima sobre la instalación de esa herramienta. Lo mejor es estudiarse la documentación que viene en la web de la herramienta. También es una buena idea consultar un buen libro de minería de datos (he hablado de este asunto con anterioridad)

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s