PendahuluanAnda sering membutuhkan informasi yang bersumber beberapa halaman situs website ? Dengan berasumsi jika Anda memiliki hak atas isi tersebut - atau menggunakannya hanya untuk kepentingan pribadi - maka Kettle dapat menjadi solusi. Hanya saja ini perlu "campur tangan" coding Java yang cukup intensif yang kita masukkan pada step Modified Java Script Values. Pengambilan isi dari web untuk diolah tanpa fasilitas sindikasi biasanya diistilahkan dengan screen scraping. Berikut adalah contoh transformation untuk screen scraping dari halaman web Yahoo Movies. File ini dapat Anda download pada bagian lampiran di akhir artikel ini. Screen Scraping
Pola Regular Expression yang DigunakanUntuk mengambil nama bioskop, tanggal, judul film dan jadwal film maka saya membuat 3 pola regex :
HasilBerikut adalah hasil preview dari eksekusi transformation ini. Preview dilakukan pada step akhir yaitu "Finalisasi". Kekurangan ContohKekurangan contoh yang digunakan adalah penggunaan code Java yang cukup intensif sehingga menyulitkan pengguna yang tidak mengetahui konstruksi bahasa Java. Pengembangan ContohDengan memanfaatkan penggantian parameter URL maka kita dapat mengambil data beberapa jadwal bioskop lainnya. Semoga bermanfaat.
Ingin mendiskusikan contoh ini lebih lanjut ? Silahkan bergabung dengan komunitas Pentaho Indonesia di http://groups.google.com/group/pentaho-id.
|