Data Mining - Data Reduction

Written By Mekhels Linxets on Thursday, November 1, 2012 | 7:15 PM


Menurut ilmu komputer, Data Reduction adalah proses transformasi data mentah menjadi bentuk yang lebih berguna, sedangkan bila dilihat dari arti statistik, Data Reduction merupakan Konversi semua informasi dalam data set ke dalam dimensi yang lebih sedikit untuk tujuan tertentu, seperti, ukuran tunggal intuk mengukur kehandalan.

Sedangkan Data reduction menurut wikipedia adalah "the transformation of numerical or alphabetical digital information derived empirical or experimentally into a corrected, ordered, and simplified form. The basic concept is the reduction of multitudinous amounts of data down to the meaningful parts."

Dibawah ini merupakan sebuah pertanyaan yang sering muncul pada Data Mining - Data Reduction..
  1. Explain what we gain and what we lose with dimensionality reduction in large data sets in the preprocessing phase of data mining?
    Dengan adanya dimensionality reduction didapatkan data yang lebih sederhana sehingga tidak membutuhkan waktu yang lama untuk proses preprocessing. Selain itu data/fitur yang dihasilkan akan lebih relevan sehingga dapat memberikan pembelajaran yang cepat dan tingkat keakuratannya tinggi yang akan membuat pemodelan data mining dapat dilakukan secara tepat. Dan juga dimensionality reduction dapat membuat data mining model lebih sederhana dan lebih mudah dimengerti. Namun, dari semua keuntungan tersebut ternyata mekanisme dimensionality reduction tidak dapat diimplementasikan pada semua aplikasi, bergantung pada ‘knowledge’ yang terdapat pada aplikasi tersebut.
  2. Use one typical application of data mining in a retail industry to explain monotonicity and interruptability of data-reduction algorithms?
    Monotonisitas-algoritma biasanya berulang, dan kualitas hasil adalah fungsi nondecreasing waktu dan kualitas input data. Interruptability-algoritma dapat dihentikan setiap saat dan memberikan beberapa jawaban. Data mining pada industry retail digunakan untuk mencatat besarnya data penjualan, sejarah belanja pelanggan dan sebagainya. Aplikasi dari retail data mining yaitu :
    •Mengidentifikasi perilaku pembelian pelanggan
    •Menentukan kecenderungan pola belanja pelanggan
    •Meningkatkan mutu dari layanan pelanggan
    •Mencapai kepuasan pelanggan
    •Tingkatkan perbandingan konsumsi barang-barang
    •Mendisain keefektifan distribusi dan transportasi barang 

    Konstruksi dari gudang data didasarkan pada keuntungan penggunaan data mining untuk analisa multidimensional dari penjualan, pelanggan, produk, waktu dan lokasi.
  3. Explain the differences between averaged and voted combined solutions when random samples are used to reduce dimensionality of a large data set?
    Ketika solusi yang ditemukan dari subset acak banyak sampel rata-rata  atau voted, solusi gabungan dapat melakukan  dengan baik atau bahkan lebih baik daripada solusi tunggal yang ditemukan pada koleksi data lengkap. Harga dari pendekatan ini adalah proses berulang-ulang dari data mining pada set yang lebih kecil dari sampel, selain itu, definisi kriteria heuristik untuk membandingkan beberapa solusi subset data yang berbeda. Biasanya, proses pemungutan suara dilakukan untuk menyelesaikan masalah klasifikasi (jika tiga solusi yang class1 dan satu solusinya adalah class2, maka solusi akhir adalah sebagai class1) dan rata-rata untuk masalah regresi (jika salah satu solusinya adalah 6, yang kedua adalah 6,5, dan ketiga 6,7, maka solusi akhir adalah rata-rata 6.4). Ketika sampel baru yang akan disajikan dan dianalisis dengan metodologi ini, jawaban harus diberikan oleh setiap solusi, dan hasil akhir akan diperoleh dengan membandingkan dan mengintegrasikan solusi dengan heuristik yang diusulkan
  4. How can the-incremental samples approach and the average-samples approach be combined to reduce cases in large data sets?
    Incremental samples approach memungkinkan adanya penambahan data untuk mendukung suatu pengambilan keputusan, sedangkan average-samples approach memungkinkan sample yang ada, di sumarisasi sehingga menghasilkan data yang dibutuhkan saja sesuai dengan sumarisasi yang dingiinnkan