Weka - Data Mining

Pendahuluan

Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho.

Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling.

Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan.

Algoritma Pemodelan / Classifier

Weka saat ini sudah cukup banyak mendukung algoritma untuk pemodelan data atau biasa disebut classifier, diantaranya adalah sebagai berikut :
  • J48, atau kloning versi open source dari algoritma C4.5 yang dapat digunakan untuk pembentukan pohon keputusan (decision tree
  • Linear Regression, algoritma untuk menghasilkan formulasi numerik dengan metode statistik regresi linear
  • Naive Bayes, salah satu classifier numerik
  • dan lain-lain

Format Data Masukan / Input

Format-format data yang dapat dijadikan input Weka adalah sebagai berikut :
  • Attribute-Relation File Format (ARFF), adalah tipe file teks yang berisi berbagai instance data yang berhubungand dengan suatu set atribut data yang dideskripsikan juga dalam file tersebut.

    iris.arff - contoh data Weka dengan format ARFF

    @RELATION iris

    @ATTRIBUTE sepallength    REAL
    @ATTRIBUTE sepalwidth     REAL
    @ATTRIBUTE petallength     REAL
    @ATTRIBUTE petalwidth    REAL
    @ATTRIBUTE class     {Iris-setosa,Iris-versicolor,Iris-virginica}

    @DATA
    5.1,3.5,1.4,0.2,Iris-setosa
    4.9,3.0,1.4,0.2,Iris-setosa
    4.7,3.2,1.3,0.2,Iris-setosa
    4.6,3.1,1.5,0.2,Iris-setosa
    5.0,3.6,1.4,0.2,Iris-setosa
    5.4,3.9,1.7,0.4,Iris-setosa
    4.6,3.4,1.4,0.3,Iris-setosa

  • Comma Separated Values (CSV), file teks dengan pemisah tanda koma (,) yang cukup umum digunakan

    data.csv

    Nama, Kondisi, Aksi
    Feris, lapar, makan
    Feris, kenyang, tidur
    Budi, lapar, makan
    Budi, kenyang, tidur
    PHI, lapar, makan
    PHI, kenyang, makan
    Jon, lapar, makan
    Jon, kenyang, tidur

  • Format C4.5, untuk penjelasan dan contoh dari format file ini dapat dilihat di http://www.cs.washington.edu/dm/vfml/appendixes/c45.htm
  • Serialisasi data biner oleh Weka

Video Demo


Weka J48 - Contoh Sample Data dari PHI


Bacaan Lebih Lanjut