Sabtu, 13 Februari 2016

Data Maining


RESUME APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

 
BAB I
PENDAHULUAN
I. 1. Latar Belakang
Dengan kemajuan teknologi informasi dewasa ini, kebutuhan akan informasi yang akurat sangat dibutuhkan dalam kehidupan sehari-hari, sehingga informasi akan menjadi suatu elemen penting dalam perkembangan masyarakat saat ini dan waktu mendatang. Namun kebutuhaninformasi yang tinggi kadang tidak diimbangi dengan penyajian informasi yang memadai, sering kali informasi tersebut masih harus di gali ulang dari data yang jumlahnya sangat besar. Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data jauh meninggalkan kemampuan untuk menganalisis, meringkas dan mengekstrak pengetahuan dari data. Metode tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam jumlah besar. Pemanfaatan data yang ada di dalam sistem informasi untuk menunjang kegiatan pengambilan keputusan, tidak cukup hanya mengandalkan data operasional saja, diperlukan suatu analisis data untuk menggali potensi-potensi informasi yang ada. Para pengambil keputusan berusaha untuk memanfaatkan gudang data yang sudah dimiliki untuk menggali informasi yang berguna membantu mengambil keputusan, hal ini mendorong munculnya cabang ilmu baru untuk mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari data dalam jumlah besar, yang disebut dengan data mining. Penggunaan teknik data mining diharapkan dapat memberikan pengetahuan-pengetahuan yang sebelumnya tersembunyi di dalam gudang data sehingga menjadi informasi yang berharga. Perguruan tinggi saat ini dituntut untuk memiliki keunggulan bersaing dengan memanfaatkan semua sumber daya yang dimiliki. Selain sumber daya sarana, prasarana, dan manusia, sistem informasi adalah salah satu sumber daya yang dapat digunakan untuk meningkatkan keunggulan bersaing. Sistem informasi dapat digunakan untuk mendapatkan, mengolah dan menyebarkan informasi untuk menunjang kegiatan operasional sehari-hari sekaligus menunjang kegiatan pengambilan keputusan strategis.  Di dalam peraturan akademik Universitas Diponegoro bidang pendidikan tahun 2009 pada BAB I pasal 1 ayat 2 di sebutkan bahwa “Program Sarjana (S1) reguler adalah program pendidikan akademik setelah pendidikan menengah, yang memiliki beban studi sekurang-kurangnya 144 (seratus empat puluh empat) sks (satuan kredit semester) dan sebanyak-banyaknya 160 (seratus enam puluh ) sks yang dijadwalkan untuk 8 (delapan) semester dan dapat ditempuh dalam waktu kurang dari 8 (delapan) semester dan paling lama 14 (empat belas) semester” (Peraturan Akademik, 2009). Berdasarkan buku wisuda angkatan ke-115, 48 dari 80 peserta wisuda Program Sarjana (S1) reguler di Fakultas Matematika dan Ilmu Pengetahuan Alam (MIPA) menempuh masa studi lebih dari 8 semester. Hal ini menunjukkan bahwa masih banyak mahasiswa Program Sarjana (S1) reguler di Fakultas MIPA yang menempuh lama studi lebih dari 8 semester dari yang dijadwalkan 8 semester. Oleh karena itu, dengan memanfaatkan data induk mahasiswa dan data kelulusan mahasiswa, dapat diketahui informasi tingkat kelulusan mahasiswa melalui teknik data mining.

I. 2. Rumusan Masalah
Tingkat kelulusan mahasiswa dapat dilihat dari lama studi dan IPK (Indeks Prestasi Kumulatif) yang terdapat pada data kelulusan mahasiswa. Data mining diharapkan dapat membantu menyajikan informasi tentang tingkat kelulusan mahasiswa dengan menggunakan data kelulusan mahasiswa dan data induk mahasiswa. Permasalahan yang dibahas dalam tugas akhir ini adalah bagaimana membuat aplikasi untuk menghasilkan informasi yang berguna tentang hubungan tingkat kelulusan dengan data induk mahasiswa dengan teknik data mining. Informasi yang ditampilkan berupa nilai support dan confidence hubungan antara tingkat kelulusan dengan data induk mahasiswa.
I. 3. Tujuan dan Manfaat

Tujuan yang ingin dicapai dari pelaksanaan dan penulisan tugas akhir ini adalah menghasilkan aplikasi untuk mendapatkan informasi yang berguna tentang tingkat kelulusan mahasiswa dengan teknik data mining.
Adapun beberapa manfaat yang diharapkan pada pembuatan tugas akhir ini adalah:

1. Bagi Penulis
Penulis dapat lebih mengetahui cara menerapkan ilmu-ilmu yang telah dipelajari selama ini dalam merancang dan membuat aplikasi sistem dengan teknik data mining, serta sebagai syarat dalam memperoleh gelar sarjana komputer.
           
2. Bagi Fakultas MIPA
Diharapkan dengan adanya aplikasi ini dapat membantu menyajikan informasi tentang hubungan tingkat kelulusan dengan data induk mahasiswa. Pihak fakultas dapat mengetahui tingkat kelulusan mahasiswanya dan mengetahui faktor yang mempengaruhi tingkat kelulusan.

I. 4. Batasan Masalah
Pada tugas akhir ini, pembahasan dibatasi pada menyajikan informasi tentang tingkat kelulusan mahasiswa dengan teknik data mining. Informasi yang ditampilkan berupa nilai support dan confidence hubungan antara tingkat kelulusan dengan data induk mahasiswa. Dalam penulisan tugas akhir ini tidak membahas pada sistem pendukung keputusan maupun sistem informasi akademik. Dalam membangun data mining membutuhkan suatu data warehouse, oleh karena itu dalam pembahasan tugas akhir ini dibahas mengenai pembangunan data warehouse sederhana yang dibangun untuk memenuhi kebutuhan dari proses data mining. Data warehouse yang dibangun bukan merupakan data warehouse yang menyimpan seluruh data transaksional, hanya merupakan data warehouse yang menunjang pembangunan data mining, sehingga data dan formatnya pun disesuaikan dengan kebutuhan data mining.
Pembahasan juga dibatasi pada bagaimana menghasilkan aplikasi yang menerapkan teknik data mining guna menghasilkan informasi hubungan tingkat kelulusan dengan data induk mahasiswa. Dalam tugas akhir ini tidak membahas pada hasil proses data mining dan analisis hasil yang keluar. Pembahasan juga hanya pada Program Sarjana (S1) reguler di Fakultas MIPA Universitas Diponegoro secara umum. Data yang diambil adalah data mahasiswa untuk Program Sarjana (S1) reguler di Fakultas MIPA Universitas Diponegoro. Data induk mahasiswa adalah atribut yang melekat pada mahasiswa seperti nama, NIM (Nomor Induk Mahasiswa), alamat, asal sekolah, dan lain-lain. Tingkat kelulusan di ukur dari lama studi dan IPK. Dalam Penulisan tugas akhir ini, lama studi dan IPK mengacu pada peraturan akademik tahun 2009 nomor : 364/PER/H7/2009 tanggal 24 Juli 2009. Lama studi dikategorikan berdasarkan peraturan akademik BAB I pasal 1 ayat 2, sedangkan IPK dikategorikan berdasarkan predikat kelulusan yang diatur dalam peraturan akademik BAB IV pasal 19 ayat 1. Implementasi program menggunakan SQL Server 2005 dan Visual Studio 2010 dengan bahasa pemrograman Visual Basic. Net.



I. 5. Metode Pengambilan Data
Metode yang digunakan dalam pengumpulan data adalah sebagai berikut :

1.                  Metode Pengamatan Langsung
Melakukan pengamatan langsung ke bagian Akademik Fakultas MIPA untuk mendapatkan data yang dibutuhkan.

2. Metode Wawancara
Mengadakan wawancara dengan pihak-pihak yang berkaitan langsung dengan permasalahan yang sedang dibahas pada tugas akhir ini untuk memperoleh gambaran dan penjelasan secara mendasar.
3. Metode Studi Pustaka
Merupakan sumber yang dapat dijadikan rujukan dari sumber data atau literatur–literatur.

4. Metode Browsing
Melakukan pengumpulan rujukan yang bersumber dari internet.
I. 6. Sistematika Penulisan
Sistematika dari penulisan tugas sarjana ini adalah sebagai berikut :
BAB I PENDAHULUAN
Pada bab ini dijelaskan mengenai latar belakang permasalahan, rumusan masalah, tujuan penelitian, manfaat penelitian, batasan masalah, dan sistematika penulisan.
BAB II DASAR TEORI
Pada bab ini dijelaskan mengenai dasar-dasar teori, rujukan dan metode yang digunakan sebagai dasar dan alat untuk menyelesaikan permasalahan.

BAB III ANALISIS DAN PERANCANGAN APLIKASI DATA MINING
Pada bab ini dijelaskan tentang analisis serta perancangan Aplikasi Data Mining.


BAB IV IMPLEMENTASI PROGRAM DAN PENGUJIAN
            Pada bab ini berisi penerapan teknik data mining dalam aplikasi, pembuatan prototype Aplikasi Data Mining dan pengujian.

BAB V KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan dari hasil pembuatan Aplikasi Data Mining dan saran-saran yang ditujukan kepada semua pihak yang bersangkutan.


BAB II
DASAR TEORI
Bab ini menjelaskan tentang dasar teori yang digunakan dalam penyusunan tugas akhir ini. Dijelaskan pengertian tentang data mining beserta macam-macamnya, selain itu juga dijelaskan tentang data wareouse, database serta analisis perancangan perangkat lunak.
II. 1. Data warehouse
Data warehouse adalah sebuah sistem yang mengambil dan menggabungkan data secara periodik dari sistem sumber data ke penyimpanan data bentuk dimensional atau normal (Rainardi, 2008). Data warehouse merupakan penyimpanan data yang berorientasi objek, terintegrasi, mempunyai variant waktu, dan menyimpan data dalam bentuk nonvolatile sebagai pendukung manejemen dalam proses pengambilan keputusan (Han, 2006).
Data warehouse menyatukan dan menggabungkan data dalam bentuk multidimensi. Pembangunan data warehouse meliputi pembersihan data, penyatuan data dan transformasi data dan dapat dilihat sebagai praproses yang penting untuk digunakan dalam data mining. Selain itu data warehouse mendukung On-line Analitycal Processing (OLAP), sebuah kakas yang digunakan untuk menganalisis secara interaktif dari bentuk multidimensi yang mempunyai data yang rinci. Sehingga dapat memfasilitasi secara efektif data generalization dan data mining.
Banyak metode-metode data mining yang lain seperti asosiasi, klasifikasi, prediksi, dan clustering, dapat diintegrasikan dengan operasi OLAP untuk meningkatkan proses mining yang interaktif dari beberapa level dari abstraksi. Oleh karena itu data warehouse menjadi platform yang penting untuk data analisis dan OLAP untuk dapat menyediakan platform yang efektif untuk proses data mining.
Empat karakteristik dari data warehouse meliputi :
1.       Subject oriented : sebuah data warehouse disusun dalam subjek utama, seperti pelanggan, suplier, produk, dan sales. Meskipun data warehouse terkonsentrasi pada operasi harian dan proses transaksi dalam perusahaan, data warehouse
fokus pada pemodelan dan analisis data untuk pembuat keputusan. Oleh karena itu data warehouse mempunyai karakter menyediakan secara singkat dan sederhana gambaran seputar subjek lebih detail yang dibuat dari data luar yang tidak berguna dalam proses pendukung keputusan.
2.      2. Integrated : Data warehouse biasanya dibangun dari bermacam-macam sumber yang berbeda, seperti database relasional, flat files, dan on-line transaction records. Pembersihan dan penyatuan data diterapkan untuk menjamin konsistensi dalam penamaan, struktur kode, ukuran atribut, dan yang lainnya.
3.      3. Time Variant : data disimpan untuk menyajikan informasi dari sudut pandang masa lampau (misal 5 – 10 tahun yang lalu). Setiap struktur kunci dalam data warehouse mempunyai elemen waktu baik secara implisit maupun eksplisit

4.      Nonvolatile : sebuah data warehouse secara fisik selalu disimpan terpisah dari data aplikasi operasional. Penyimpanan yang terpisah ini, data warehouse tidak memerlukan proses transaksi, recovery dan mekanisme pengendalian konkurensi. Biasanya hanya membutuhkan dua operasi dalam akses data yaitu initial load of data dan access of data

Dari pengertian tersebut, sebuah data warehouse merupakan penyimpanan data tetap sebagai implementasi fisik dari pendukung keputusan model data. Data warehouse juga biasanya dilihat sebagai arsitektur, pembangunan dan penyatuan data dari bermacam macam sumber data yang berbeda untuk mendukung struktur dan atau query tertentu, laporan analisis, dan pembuatan keputusan (Han, 2006). Extract, transform, dan load (ETL) merupakan sebuah sistem yang dapat membaca data dari suatu data store, merubah bentuk data, dan menyimpan ke data store yang lain. Data store yang dibaca ETL disebut data source, sedangkan data store yang disimpan ETL disebut target. Proses pengubahan data digunakan agar data sesuai dengan format dan kriteria, atau sebagai validasi data dari source system. Proses ETL tidak hanya menyimpan data ke data warehouse, tetapi juga digunakan untuk berbagai proses pemindahan data.


Berdasarkan siapa yang memindahkan data, ETL dapat dibedakan menjadi empat seperti yang dapat dilihat pada gambar 2.1, yaitu :

1.   Proses ETL menarik data keluar dengan query tertentu di source system database secara periodik.
2.   Triggers pada source system mendorong data keluar. Triggers adalah Suatu SQL statement yang dijalankan setiap ada perintah insert, update, atau delete dalam tabel.
3.   Penjadwalan proses dalam source system untuk mengekspor data secara periodik. Hal ini mirip dengan proses yang pertama namun query disimpan dalam data source.
4.   Sebuah log reader yang bertugas membaca log dalam source system untuk mengidentifikasi perubahan data. Log reader merupakan program yang membaca log file. Setelah dibaca, kemudian data dipindahkan keluar ke tempat penyimpanan yang lain.






Berdasarkan dimana proses pembangkitan ETL, ETL dibedakan menjadi tiga macam seperti yang digambarkan pada gambar 2.2, yaitu :
A. ETL dijalankan dalam server terpisah diantara source system dan data warehouse sistem. Pendekatan ini menghasilkan kinerja tinggi, ETL berjalan di server sendiri, sehingga tidak menggunakan sumber daya dari data warehouse server atau data source server. Namun hal ini lebih mahal karena harus menambah server lagi.
B. ETL dijalankan dalam data warehouse server. Pendekatan ini dapat digunakan jika mempunyai kapasitas lebih dalam data warehouse server atau jika mempunyai iddle time ketika data warehouse tidak digunakan (misal pada
waktu malam). Pendekatan ini lebih murah dibandingkan pendekatan pertama karena tidak membutuhkan tambahan server.




C. ETL dijalankan pada server data source. Pendekatan ini diimplementasikan ketika membutuhkan real time data warehousing. Dengan kata lain, jika data dalam source system berubah, perubahan ini dilakukan juga ke dalam data warehouse. Hal ini dapat dilakukan dengan penggunaan trigger dalam source system.


II. 2. Pengertian Data Mining
Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar (Davies, 2004). Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data (Pramudiono, 2007). Data mining, sering juga disebut sebagai knowledge discovery in database (KDD). KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar (Santoso, 2007).
Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu – ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar (Witten, 2005).

Karakteristik data mining sebagai berikut
1.      Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
2.      Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya.
3.      Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi (Davies, 2004).

Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2007).

II. 3. Pengenalan Pola, Data Mining, dan Machine Learning
Pengenalan pola adalah suatu disiplin ilmu yang mempelajari cara-cara mengklasifikasikan obyek ke beberapa kelas atau kategori dan mengenali kecenderungan data. Tergantung pada aplikasinya, obyek-obyek ini bisa berupa pasien, mahasiswa, pemohon kredit, image atau signal atau pengukuran lain yang perlu diklasifikasikan atau dicari fungsi regresinya (Santoso, 2007).
Data mining, sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition jarang digunakan karena termasuk bagian dari data mining (Santoso, 2007).

II. 4. Tahap-Tahap Data mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap yang diilustrasikan di Gambar 2.5. Tahap-tahap tersebut bersifat interaktif,
pemakai terlibat langsung atau dengan perantaraan knowledge base.

Tahap-tahap data mining ada 6 yaitu :
1. Pembersihan data (data cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang tidak
konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari
database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang
tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan
dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga
lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari
teknik data mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.

2. Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.

3. Seleksi Data (Data Selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.
4. Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data.
5. Proses mining,
Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi pola (pattern evaluation),
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

7. Presentasi pengetahuan (knowledge presentation),
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining (Han, 2006).
II. 5. Metode Data mining
Dengan definisi data mining yang luas, ada banyak jenis metode analisis yang dapat digolongkan dalam data mining.

II. 5. 1. Association rules
Association rules (aturan asosiasi) atau affinity analysis (analisis afinitas) berkenaan dengan studi tentang “apa bersama apa”. Sebagai contoh dapat berupa berupa studi transaksi di supermarket, misalnya seseorang yang membeli susu bayi juga membeli sabun mandi. Pada kasus ini berarti susu bayi bersama dengan sabun mandi. Karena awalnya berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga sering dinamakan market basket analysis.
Aturan asosiasi ingin memberikan informasi tersebut dalam bentuk hubungan “if-then” atau “jika-maka”. Aturan ini dihitung dari data yang sifatnya probabilistik (Santoso, 2007).
Analisis asosiasi dikenal juga sebagai salah satu metode data mining yang menjadi dasar dari berbagai metode data mining lainnya. Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis pola frekuensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu prosentase kombinasi item tersebut. dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif. Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence) (Pramudiono, 2007).
II. 5. 2. Decision Tree
Dalam decision tree tidak menggunakan vector jarak untuk mengklasifikasikan obyek. Seringkali data observasi mempunyai atribut-atribut yang bernilai nominal. Seperti yang diilustrasikan pada gambar 2.6, misalkan obyeknya adalah sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau dikurangkan. Dalam atribut warna ada beberapa nilai yang mungkin yaitu hijau, kuning, merah. Dalam atribut ukuran ada nilai besar, sedang dan kecil. Dengan nilai-nilai atribut ini, kemudian dibuat decision tree untuk menentukan suatu obyek termasuk jenis buah apa jika nilai tiap-tiap atribut diberikan (Santoso, 2007).
II. 5. 3. Clustering
Clustering termasuk metode yang sudah cukup dikenal dan banyak dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data mining masih melakukan berbagai usaha untuk melakukan perbaikan model clustering karena metode yang dikembangkan sekarang masih bersifat heuristic. Usaha-usaha untuk menghitung jumlah cluster yang optimal dan pengklasteran yang paling baik masih terus dilakukan. Dengan demikian menggunakan metode yang sekarang, tidak bisa menjamin hasil pengklasteran sudah merupakan hasil yang optimal. Namun, hasil yang dicapai biasanya sudah cukup bagus dari segi praktis.


BAB III
ANALISIS DAN PERANCANGAN APLIKASI DATA MINING
Bab ini menjelaskan tentang analisis dan perancangan dalam membangun Aplikasi Data Mining. Analisis meliputi analisis data mining, analisis lingkungan sistem serta analisis dalam membangun aplikasi.
III. 1. Analisis Data Mining
Dalam penulisan tugas akhir ini akan dicari nilai support dan confidence dari hubungan tingkat kelulusan dengan data induk mahasiswa. Tidak semua data induk siswa akan dicari hubungannya dengan data kelulusan, hanya beberapa atribut yang kira-kira berguna dan sebarannya tidak terlalu acak. Karena data yang terlalu acak akan membuat proses mining memakan waktu lama dan tingkat hubungannya pun rendah. Data induk mahasiswa yang akan dicari hubungannya meliputi proses masuk, asal sekolah, kota asal sekolah, dan program studi. Adapun yang akan diproses mining meliputi :
1. Hubungan tingkat kelulusan dengan proses masuk
Hasil dari proses mining ini dapat membantu untuk mengetahui sejauh mana tingkat keberhasilan PSSB dan SPMB.

2. Hubungan tingkat kelulusan dengan asal sekolah dan proses masuk
Dari atribut proses masuk dan asal sekolah dicari hubungan tingkat kelulusan dengan asal sekolah yang melalui proses masuk PSSB dengan harapan dapat mengetahui tingkat keberhasilan mahasiswa dengan sekolah tertentu.

3. Hubungan tingkat kelulusan dengan kota asal sekolah
Hubungan tingkat kelulusan dengan asal kota bermanfaat untuk mengetahui daerah-daerah mana yang mempunyai tingkat keberhasilan tinggi ataupun rendah. Diasumsikan bahwa kota asal sekolah merupakan kota tempat asal mahasiswa.

4. Hubungan tingkat kelulusan dengan program studi
Dari atribut program studi dapat diketahui hubungan tingkat kelulusun dan program studi untuk megetahui tingkat kelulusan program studi.
III. 1. 3. Integrasi Data
Dalam penulisan tugas akhir kali ini diasumsikan bahwa data yang diambil sudah berupa tabel-tabel dalam satu server. Untuk proses mining, data kelulusan dan data induk mahasiswa digabungkan dengan primary key NIM. Setelah itu baru dilakukan proses mining. Proses integrasi data dilakukan ketika proses ETL (ekstract, transform, and Load) ketika membangun data warehouse, dalam proses ETL data dalam data source digabungkan menjadi satu dalam data warehouse dengan key NIM.
III. 1. 4. Transformasi Data
Transformasi data merupakan proses pengubahan atau penggabungan data ke dalam format yang sesuai untuk diproses dalam data mining. Seringkali data yang akan digunakan dalam proses data mining mempunyai format yang belum langsung bisa digunakan, oleh karena itu perlu dirubah formatnya.
III. 1. 5. Penggunaan Algoritma Apriori
Algoritma apriori adalah algoritma paling terkenal untuk menemukan pola frekuensi tinggi. Pola frekuensi tinggi adalah pola-pola item di dalam suatu database yang memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan istilah minimum support atau threshold. Threshold adalah batas minimum transaksi. Jika jumlah transaksi kurang dari threshold maka item atau kombinasi item tidak akan diikutkan perhitungan selanjutnya. Penggunaan threshold dapat mempercepat perhitungan. Algoritma apriori dibagi menjadi beberapa tahap yang disebut iterasi. Tiap iterasi menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari pass pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu. Di iterasi pertama ini, support dari setiap item dihitung dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support lebih besar dari minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set yang terdiri dari k item.







III. 3. 2. Spesifikasi Kebutuhan Fungsional
Spesifikasi kebutuhan fungsional pada Aplikasi Data Mining ini merujuk pada kebutuhan akan perancangan data mining, seperti yang tertera berikut ini :

1. Dapat menggabungkan data yang akan diproses mining dari data kelulusan dan data induk mahasiswa
2. Dapat menghapus data-data yang tidak relevan serta atribut yang tidak dipakai
3. Dapat merubah data menjadi data yang siap diproses
4. Dapat memproses data untuk dimining meliputi :
ü  Hubungan tingkat kelulusan dengan proses masuk
ü  Hubungan tingkat kelulusan dengan asal sekolah yang melalui proses masuk PSSB
ü  Hubungan tingkat kelulusan dengan asal kota
ü  Hubungan tingkat kelulusan dengan program studi

5. Dapat menampilkan hasil proses mining dengan nilai support dan confidence.







1. Import Data
Proses import data adalah proses load data dari database kelulusan dan database induk mahasiswa ke data warehouse. Semua data akan dimasukkan tanpa ada penyaringan.

2. Cleaning, Integrasi, Selection, dan transformasi
a) Cleaning data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data yang tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Dalam tahap ini semua data yang akan digunakan baik data kelulusan, data induk mahasiswa maupun data nilai semester dibersihkan dari record data yang tidak mempunyai atribut lengkap. Selain pembersihan record data yang tidak valid, juga dilakukan penghapusan atribut yang tidak dipakai, misalnya atribut gaji orang tua, nama orang tua dan lain-lain. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
b) Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Data induk mahasiswa, data nilai dan data kelulusan tidak disimpan dalam satu database, Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas dengan satu atribut unik yaitu NIM
c) Selection data adalah proses menyeleksi atribut apa yang akan diproses pada mining selanjutnya.
d) Transformasi data merupakan proses mengubah data atau digabung ke dalam format yang sesuai untuk diproses dalam data mining.



BAB V
PENUTUP
1. Kesimpulan
Kesimpulan yang dapat diambil dalam pengerjaan tugas akhir ini adalah Aplikasi Data Mining ini dapat digunakan untuk menampilkan informasi tingkat kelulusan. Informasi yang ditampilkan berupa nilai support dan confidence hubungan antara tingkat kelulusan dengan data induk mahasiswa. Semakin tinggi nilai confidence dan support maka semakin kuat nilai hubungan antar atribut. Data induk mahasiswa yang diproses mining meliputi data proses masuk, data asal sekolah, data kota mahasiswa, dan data program studi. Hasil dari proses data mining ini dapat digunakan sebagai pertimbangan dalam mengambil keputusan lebih lanjut tentang faktor yang mempengaruhi tingkat kelulusan khususnya faktor dalam data induk mahasiswa.
 2. Saran
Untuk pengembangan Aplikasi Data Mining lebih lanjut, dapat menggunakan algoritma lain, misal algoritma FP-Growth. Perbedaannya adalah algoritma apriori harus melakukan scan database setiap kali iterasi, sedangkan algoritma FP-Growth hanya melakukan satu kali scan database diawal.

Tidak ada komentar:

Posting Komentar