weka


Hoy me he instalado una herramienta open source fundamental para la minería de datos (que además ha sido integrada en la suite open source pentaho) como es weka. La herramienta está realizada en java. Para ejecutarla he utilizado el JRE 5.0 de Sun, aunque se ha quejado de que le faltan drivers JDBC:

—Registering Weka Editors—
Trying to add JDBC driver: RmiJdbc.RJDriver – Error, not in CLASSPATH?
Trying to add JDBC driver: jdbc.idbDriver – Error, not in CLASSPATH?
Trying to add JDBC driver: org.gjt.mm.mysql.Driver – Error, not in CLASSPATH?
Trying to add JDBC driver: com.mckoi.JDBCDriver – Error, not in CLASSPATH?
Trying to add JDBC driver: org.hsqldb.jdbcDriver – Error, not in CLASSPATH?

Es fundamental para el uso y buen aprovechamiento de la herramienta leerse bien la documentación que viene en su web, en especial los tutoriales y la FAQ. Para entrenarse con la herramienta se dispone de datasets en formato nativo. Es importante también mirarse la cantidad de proyectos relacionados con Weka que existen actualmente y su relación con el paquete estadístico open source R, que le pueden aportar el componente gráfico de resultados del que carece.

2 comentarios en “weka

  1. Para comenzar a experimentar con weka (que voy a utilizar en las primeras actividades del tema 2 de la asignatura de minería de datos del máster) he considerado conveniente primero visitar la página oficial web del proyecto para enterarme de las características generales de esta potente herramienta.

    Después, he visitado la página web de Cèsar Ferri, profesor de la Universidad Politécnica de Valencia y coautor del libro base de la asignatura de minería de datos, en donde he podido encontrar su página de weka. En esta página se encuentra un documento donde se describen unos ejercicios sencillos de introducción a la herramienta (junto con los datasets que hay que utilizar) procedentes de un curso de doctorado. También tiene un montón de enlaces interesantes a recursos relacionados con weka (por ejemplo un manual en español de Diego García Morate que cofundador de una empresa llamada metaemotion, dedicada a las aplicaciones de tecnologías como la minería de datos)

    Quiero destacar también la página de un individuo sueco, hakanks hemsida, que tiene su porpia página weka (en inglés) donde se presentan ejemplos que me pueden ser útiles para aprender a utilizar la herramienta, aunque están más orientados a machine learning.

    Otra página sin duda interesante es la de Jesús Aguilar Ruiz, del Grupo de Investigación de Bioinformática de la Universidad Pablo de Olavide de Sevilla, que tiene un repositorio de datasets de perfiles de diversas enfermedades con posible origen genético analizadas con la técnica de Gene Expression Profiling. Muchos de estos datasets son complemento de artículos publicados. Por ejemplo la del LYMPHOMA es del artículo:

    Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.

    Ash A. Alizadeh, Michael B. Eisen, R. Eric Davis, Chi Ma, Izidore S. Lossos, Andreas Rosenwald, Jennifer C. Boldrick, Hajeer Sabet, Truc Tran, Xin Yu, John I. Powell, Liming Yang, Gerald E. Marti, Troy Moore, James Hudson Jr, Lisheng Lu, David B. Lewis, Robert Tibshirani, Gavin Sherlock, Wing C. Chan, Timothy C. Greiner, Dennis D. Weisenburger, James O. Armitage, Roger Warnke, Ronald Levy, Wyndham Wilson, Michael R. Grever, John C. Byrd, David Botstein, Patrick O. Brown & Louis M. Staudt

    NATURE, VOL 403, Nº 3, pp. 503-511, February 2000.

    que tiene una página suplementaria web (Lymphoma/Leukemia Molecular Profiling Project) con información adicional.

    También indicar que existe otra alternativa open source para la minería de datos que además tiene la ventaja de utilizar un paquete estadístico para analizar y presentar los resultados que se llama Rattle, de Togaware, y the R Project for statistical computing.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s