libros de minería de datos


El libro básico de la asignatura de minería de datos del máster es el de “Introducción a la Minería de Datos” de José Hernández Orallo, M.José Ramírez Quintana y Cèsar Ferri Ramírez. El temario de la asignatura sigue fielmente la estructura del libro.

Además el libro trae un apéndice con una descripción de herramientas software propietarias y open source para hacer minería de datos, algunas de las a cuales ya no están disponibles o están integradas en paquetes de software más complejos (en cualquier caso inaccesibles)

Librerías:

* Xelopes

* MLC++

Suites:

* SPSS Clementine,

* SAS Enterprise Miner

* Oracle Data mining Suite

* STATISTICA Data Miner

* Weka (actualmente integrada en una plataforma de business intelligence llamada pentaho) (uno de los autores tiene una página personal sobre este software con un ejemplo para ir fogeándose)

* DBMiner

* YALE (Yet Another Learning Environment) ahora rebautizado para su explotación comercial como RapidMiner.

* Kepler, ahora convertido en una herramienta integrada de minería de datos espacial.

Herramientas específicas, que se centran en un determinado modelo (redes neuronales. árboles de decisión, modelos estadísticos) o una determinada tarea de minería de datos (clasificación, agrupamiento, etc.)

* CART

* AutoCLASS

* Neural Planner, NeuroDiet, y Easy NN-Plus

* NeuroShell

* See5, C5.0

Y además en el segundo apéndice se encuentran referencias a los datasets o conjuntos de datos de ejemplo que se utilizan para probar los algoritmos y para diseñar experimentos de minería de datos (cosa que vamos a tener que hacer durante el curso) Estos datos están sacados de un repositorio general llamado UCI (UC Irvine Machine Learning Repository)

10 comentarios en “libros de minería de datos

  1. He encontrado otro libro muy interesante y muy práctico sobre minería de datos en la biblioteca de teleco que me puede servir para realizar experimentos extras de minería de datos (si bien el libro está enfocado a usar la herramienta propietaria de SAS)

    Se trata del libro:

    IND-M-C61B-185 Applied Data Mining. Statistical Methods for Business and Industry. Wiley. Paolo Giudici, Faculty of Economics, University of Pavia, Italy

    El libro ofrece una visión muy sucinta y práctica de los métodos y algoritmos para la realización de minería de datos, entre los sacados del aprendizaje automático (machine learning) que en el libro denominan computational data mining (tema 4) como los sacados de la estadística (tema 5) Lo más interesante sin duda son los capítulos dedicados a las aplicaciones prácticas donde se pueden ver los métodos y algoritmos en el contexto de importantes aplicaciones de negocio.

    Este es el contenido estructurado del libro:

    Preface.

    1. Introduction.

    PART I: METHODOLOGY.

    2. Organisation of the data.
    3. Exploratory data analysis.
    4. Computational data mining.
    5. Statistical data mining.
    6. Evaluation of data mining methods.

    PART II: BUSINESS CASES.

    7. Market basket analysis.
    8. Web clickstream analysis.
    9. Profiling website visitors.
    10. Customer relationship management.
    11. Credit scoring.
    12. Forecasting television audience.

    Bibliography.
    Index.

  2. En la página web asociada al libro principal de la asignatura, al final de la misma, hay unos enlaces muy interesantes relacionados con la minería de datos:

    * KDNet: Red de excelencia europea de extracción de conocimiento desde bases de datos (KDD).

    The KDNet (= Knowledge Discovery Network of Excellence) is an open Network of participants from science, industry and the public sector.

    The major purpose of this international project is to integrate real-life business problems into research discussions and to collaborate in shaping the future of Knowledge Discovery and Data Mining.

    The project is funded by the European Commission under IST-2001-33086 and has started in February 2002.

    * KDNuggets: Portal de información sobre minería de datos orientado a los negocios.

    KDnuggets.com (KD stands for Knowledge Discovery) is the leading source of information on Data Mining, Web Mining, Knowledge Discovery, and Decision Support Topics, including News, Software, Solutions, Companies, Jobs, Courses, Meetings, Publications, and more.

    * UCI: UC Irvine Machine Learning Repository.

    The UCI Machine Learning Repository is a collection of databases, domain theories, and data generators that are used by the machine learning community for the empirical analysis of machine learning algorithms. The archive was created as an ftp archive in 1987 by David Aha and fellow graduate students at UC Irvine. Since that time, it has been widely used by students, educators, and researchers all over the world as a primary source of machine learning data sets.

    * The Data Mine: Wiki con información general sobre minería de datos.

    The Data Mine, established in 1994 to provide high quality information about Data Mining and Knowledge Discovery.

    Topic Areas

    – Data Mining Software
    – Data Mining Events
    – Data Mining General/Misc
    – People working in Data Mining
    – Data Mining Companies and Organizations

    * KDubiq: Knowledge Discovery in Ubiquitous Environments.

    KDubiq – Knowledge Discovery in Ubiquitous Environments – is the first Coordination Action (CA) for Ubiquitous Knowledge Discovery, 100% funded by the European Union under IST (Information Society Technology), FET Open (Future and Emerging Technologies) in the 6th Framework Programme under the number IST-6FP-021321. The KDubiq project has started in December 2005 and will last until May 2008.

    * Red MIDAS: Red española de minería de datos y aprendizaje.

    La red española de Minería de Datos y Aprendizaje (TIC2002-11124-E) tiene como principal objetivo la puesta en común y la colaboración, dentro de las líneas anteriormente descritas, de los grupos de investigación adheridos.

  3. Buenas tardes,

    Lo que sucede es q necesito unos libros de aprendizade de máquina o IA que utilcen el repositorio de datos UCI. El problema es q necesito q esos libros sean descargables.

    Agradezco tu ayuda

  4. Hola fernando,

    ¿estás estudiando aprendizaje automático (machine learning)?

    Creo recordar que el repositorio UCI contiene ejemplos de conjuntos de datos para probar algoritmos de aprendizaje automático o técnicas de minerías de datos de una forma medible y controlable.

    Los algoritmos de aprendizaje automático que suelen venir en los libros creo que se pueden estudiar de forma independiente del conjunto de datos que se utilice para probarlos. Los conjuntos de datos UCI siempre te los puedes descargar de su página web.

    No conozco libros descargables de aprendizaje automático, entiendo por estos libros en formato PDF o similar que se puedan leer de forma electrónica en computadores o ebooks pero supongo que si debe existir dado que estos formatos electrónicos se están popularizando bastante.

  5. Hola Gerardo. Estoy estudiando minería de datos y me he encontrado navegando por internet con este tu block. Parece ser que para acceder a determinados sitios tienes que “invitarme”

    Podrías hacerlo?

    Sea cual sea tu respuesta, te felicito por tu blog, me ha parecido muy interesante (me interesa muchísimo la nanotecnología).

    Un cordial saludo.

    Joaquín

  6. Muy interesante el material referenciado. Estaba leyendo una version del libro INTRODUCCION A LA MINERIA DE DATOS pero me faltan los capitulos que me resultan de mayor interes. Podrias dejarme acceder a tu versionpara bajarlo ? Desde ya muchas gracias

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s