Posted in Blogger, Data Mining, Kuliah S2, MKOM

Tool Analisa untuk Penambangan Data (Data Mining)

Penambangan Data (Data Mining) merupakan sebuah istilah untuk metode usaha mencari pengetahuan dalam suatu kumpulan data / dataset. Dalam data analitik sering disebut dengan Knowledge Discovery in Database (KDD). Walaupun dalam prakteknya Data Mining adalah bagian dari proses KDD itu sendiri. Dekade ini sudah banyak publikasi dan riset tentang Data Mining. Banyak pihak sudah merasakan manfaat positif penerapannya yang membantu pada pengambilan keputusan.

Proses Menemukan Pengetahuan dalam Database (KDD)

Alhamdulillah, Saya mendapatkan wawasan lebih tentang Data Mining sewaktu mengikuti perkuliahan  “Advance Database”  di Program Pascasarjana (S2)  Magister Ilmu Komputer, Universitas Putra Indonesia-YPTK Padang yang diampu oleh Prof. Dr. Sarjon Defit, S.Kom, Msc, saat ini beliau juga sedang menjabat sebagai Rektor. Association Rule, Algoritma Apriori, Rough Set, FP-Growth, Decision Tree, C4.5, Algoritma Genetika adalah sebagian materi bahasan pada Mata Kuliah ini.

Padahal istilah yang familiar yang saya ingat dari dulu adalah “analisa data“, analisa statistik.  Di Perusahaan manufaktur tempat saya bekerja, oleh rekan-rekan personel QA/QC pengolahan data statistik untuk menghitung probalitas “defect” pada suatu produk. Menarik sekali menyaksikan mereka menerapkan metode statistik Six-Sigma DMAIC yang terdiri dari lima langkah itu : Define –> Measure –> Analyze –> Improve –> Control.

Sekitar empat tahun lalu saya mengenal dan tertarik dengan BigData, satu tahun kemudian saya mengikuti sebuah meetup IDBigData di Fasilkom UI. Beda Big Data dengan Data Mining sejauh ini yang saya tangkap adalah pada besarnya jumlah data, proses dan algoritma yang digunakan. Wow, Ternyata perkembangan di Data Science cukup pesat.

Tool Software Analisa 

Untuk yang mempunyai hobi coding, mempelajari Data Mining dan Big Data  bisa lebih menikmati sensasi pengolahan data via baris-baris kode. Menguasai Phyton atau R, adalah keuntungan besar. Coba saja hehehe…

Bagi yang tidak hobi coding atau belum punya dasar coding, bisa memanfaatkan aplikasi atau software yang sudah jadi. Beberapa aplikasi atau program siap pakai yang dapat membantu dalam pengolahan data mining itu ada yang komersial, ada yang open source alias gratis, seperti :

  • RapidMiner
  • Weka
  • R  dan  R Studio
  • Orange
  • Phyton
  • SPSS   Clementine
  • SAS
  • Matlab
  • NLTK
  • KNIME
  • TANAGRA
  • Scikit-learn

Dari  daftar tool di  atas masing-masing mempunyai kelebihan dan kekurangannya. Saya  sendiri memilih  Orange3 dan R , alasan memilihnya pertama karena kebutuhan yang berhubungan dengan tugas kelompok, saat ini kami diberi tugas mempelajari software data mining untuk metode k-means clustering dan software ini menyediakan feature-nya. Selain itu karena kemudahan pemakaian dan juga Visualisasi yang  menarik, sehingga kami sepakat memilih Orange. Selain GUI, Orange juga dapat dioperasikan dengan script (phyton base).  Orange Software bersifat open source dan cross platform, bila tertarik untuk mencoba silahkan di unduh aplikasinya di sini.

Website Data Analisis terkenal KDnuggets sejak tahun 2007 melakukan polling  software data mining yang paling banyak digunakan oleh Data Scientist dalam setahun terakhir, hasil polling terakhir yang sudah tampil adalah polling 2016, untuk polling tahun 2017 saat tulisan ini saya publikasi belum dikeluarkan hasilnya.

 

Ada sebuah artikel ilmiah yang membahas tentang Software Data Mining Open Source yang sering di publikasi, seperti terlihat pada grafik berikut :

R paling sering dipublikasi

penulisnya juga membuat pertimbangan yang bagus dalam memilih software data mining open source, mau baca artikelnya lengkapnya saya tampilkan citation-nya :

Panagiotis Barlas Ivor Lanning Cathal Heavey , (2015),”A survey of open source data science tools”,
International Journal of Intelligent Computing and Cybernetics, Vol. 8 Iss 3 pp. 232 – 261  DOI : 10.1108/IJICC-07-2014-0031

Dewasa ini banyak sekali penerapan Data Mining dalam hal membantu pengambilan keputusan berdasarkan analisa data pada institusi perusahaan di berbagai bidang. Salah satu contoh penerapan Data Mining bidang pemasaran (marketing) adalah penentuan layout penempatan barang disebuah swalayan, memanfaatkan data transaksi sebelumnya. Melalui pendekatan data mining rule asosiasi  dapat diketahui perilaku pelanggan (barang yang dibeli) kemudian dengan data ini dapat menjadi acuan penentuan lokasi penempatan barang (display) yang strategis. Selain itu bisa juga membantu dalam menentukan prediksi  jumlah stok barang yang disediakan.  Di lain sisi dengan pendekatan Data Mining dapat juga di analisa segmentasi pelanggan menggunakan metode clustering semisal K-Mean.

 

Catatan Kuliah dan contoh dataset

Buku Teks Data Mining

 

Advertisements

Author:

Mahasiswa Pasca Sarjana Fakultas Ilmu Komputer Universitas Putra Indonesia "YPTK" Padang.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s