Konsep Data Mining
Data mining merupakan suatu proses penjelajahan atau mencari otomatis untuk mendapatkan informasi berguna dalam suatu repository data yang sangat besar.
Ada banyak nama lain dari data mining seperti Knowledge discovery databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence.
Data Mining merupakan bagian yang terintegrasi dari Knowledge Discovery in Databases (KDD). Bertujuan untuk proses transformasi data mentah menjadi informasi berguna.
Jika di gambarkan secara detail tahapan KDD menjadi 5 tahap. Berikut Tahapannya :
1. Seleksi
Bertujuan mentransformasikan data mentah ke format yang sesuai untuk analisis. Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data. Proses penyeleksian atau segmentasi data menurut beberapa criteria. Misal, Orang – orang yang mempunyai mobil.
2. Preprocessing
Bertujuan untuk menjamin bahwa hasil proses data mining yang diintegrasikan pada system penunjang keputusan, benar-benar hasil yang valid. Proses pembersihan data, dimana informasi yang tidak dibutuhkan dibuang. Misal, Jenis kelamin pasien untuk analisis kehamilan.
Data dikonfigurasi ulang untuk memastikan format yang konsisten karena berasal dari berbagai sumber. Misal, Jenis kelamin disimpan dengan bentuk f atau m dan 1 atau 0.
3. Transformasi
Proses transformasi sehingga data menjadi berguna dan dapat ditelusuri.
4. Data Mining
Proses yg berfokus pada ekstraksi pola-pola data. Pola dapat didefinisikan sebagai sekumpulan fakta-fakta (data) F, bahasa L, dan beberapa measure of certainty (pengukuran kepastian) C.
Suatu pola dinyatakan S dalam L menggambarkan keterhubungan antara subset Fs dari F dengan kepastian c dimana S adalah simpel dibandingkan perhitungan semua fakta dalam Fs.
5. Interpretasi & Evaluasi
Pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg dapat digunakan untuk mendukung pengambilan keputusan manusia, contoh :
- Tugas, prediksi & klasifikasi.
- Meringkas konten suatu database.
- Menjelaskan fenomena yang diamati.
Fungsi Umum Data Mining
Fungsi dalam data mining bisa diartikan sebagai sub kegiatan yang ada dalam rangka menemukan, menggali, atau menambang pengetahuan. Secara global fungsi utama data mining adalah sebagai berikut :
1. Clustering (Pengelompokan)
Clustering adalah metode penganalisaan data yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.
2. Classification (Klasifikasi)
Proses untuk menyatakan suatu objek kesalah satu kategori yang sudah didefinisikan sebelumnya. Proses pembelajaran fungsi target (model klasifikasi) yang memetakan setiap sekumpulan atribut x (input) kesalah satu kelas yang didefinisikan sebelumnya.
Perbedaan clustering dengan classification
Dataset yang digunakan pada clustering tidak menampilkan class / target attribute, sedangkan dataset yang digunakan pada classification mutlak harus menampilkan class / target attribute.
Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item.
Contoh aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah dapat diketahuinya berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu.
Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.