RESUME APLIKASI DATA MINING
UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA
BAB I
PENDAHULUAN
I. 1. Latar Belakang
Dengan kemajuan
teknologi informasi dewasa ini, kebutuhan akan informasi yang akurat sangat
dibutuhkan dalam kehidupan sehari-hari, sehingga informasi akan menjadi suatu
elemen penting dalam perkembangan masyarakat saat ini dan waktu mendatang.
Namun kebutuhaninformasi yang tinggi kadang tidak diimbangi dengan penyajian
informasi yang memadai, sering kali informasi tersebut masih harus di gali
ulang dari data yang jumlahnya sangat besar. Kemampuan teknologi informasi
untuk mengumpulkan dan menyimpan berbagai tipe data jauh meninggalkan kemampuan
untuk menganalisis, meringkas dan mengekstrak pengetahuan dari data. Metode
tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam
jumlah besar. Pemanfaatan data yang ada di dalam sistem informasi untuk
menunjang kegiatan pengambilan keputusan, tidak cukup hanya mengandalkan data
operasional saja, diperlukan suatu analisis data untuk menggali potensi-potensi
informasi yang ada. Para pengambil keputusan berusaha untuk memanfaatkan gudang
data yang sudah dimiliki untuk menggali informasi yang berguna membantu
mengambil keputusan, hal ini mendorong munculnya cabang ilmu baru untuk
mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari
data dalam jumlah besar, yang disebut dengan data mining. Penggunaan teknik
data mining diharapkan dapat memberikan pengetahuan-pengetahuan yang sebelumnya
tersembunyi di dalam gudang data sehingga menjadi informasi yang berharga.
Perguruan tinggi saat ini dituntut untuk memiliki keunggulan bersaing dengan
memanfaatkan semua sumber daya yang dimiliki. Selain sumber daya sarana,
prasarana, dan manusia, sistem informasi adalah salah satu sumber daya yang
dapat digunakan untuk meningkatkan keunggulan bersaing. Sistem informasi dapat
digunakan untuk mendapatkan, mengolah dan menyebarkan informasi untuk menunjang
kegiatan operasional sehari-hari sekaligus menunjang kegiatan pengambilan
keputusan strategis. Di
dalam peraturan akademik Universitas Diponegoro bidang pendidikan tahun 2009
pada BAB I pasal 1 ayat 2 di sebutkan bahwa “Program Sarjana (S1) reguler adalah
program pendidikan akademik setelah pendidikan menengah, yang memiliki beban
studi sekurang-kurangnya 144 (seratus empat puluh empat) sks (satuan kredit
semester) dan sebanyak-banyaknya 160 (seratus enam puluh ) sks yang dijadwalkan
untuk 8 (delapan) semester dan dapat ditempuh dalam waktu kurang dari 8
(delapan) semester dan paling lama 14 (empat belas) semester” (Peraturan
Akademik, 2009). Berdasarkan buku wisuda angkatan ke-115, 48 dari 80 peserta
wisuda Program Sarjana (S1) reguler di Fakultas Matematika dan Ilmu Pengetahuan
Alam (MIPA) menempuh masa studi lebih dari 8 semester. Hal ini menunjukkan
bahwa masih banyak mahasiswa Program Sarjana (S1) reguler di Fakultas MIPA yang
menempuh lama studi lebih dari 8 semester dari yang dijadwalkan 8 semester.
Oleh karena itu, dengan memanfaatkan data induk mahasiswa dan data kelulusan
mahasiswa, dapat diketahui informasi tingkat kelulusan mahasiswa melalui teknik
data mining.
I. 2.
Rumusan Masalah
Tingkat
kelulusan mahasiswa dapat dilihat dari lama studi dan IPK (Indeks Prestasi
Kumulatif) yang terdapat pada data kelulusan mahasiswa. Data mining diharapkan
dapat membantu menyajikan informasi tentang tingkat kelulusan mahasiswa dengan
menggunakan data kelulusan mahasiswa dan data induk mahasiswa. Permasalahan yang
dibahas dalam tugas akhir ini adalah bagaimana membuat aplikasi untuk
menghasilkan informasi yang berguna tentang hubungan tingkat kelulusan dengan
data induk mahasiswa dengan teknik data mining. Informasi yang ditampilkan
berupa nilai support dan confidence hubungan antara tingkat kelulusan dengan
data induk mahasiswa.
I. 3. Tujuan dan
Manfaat
Tujuan
yang ingin dicapai dari pelaksanaan dan penulisan tugas akhir ini adalah
menghasilkan aplikasi untuk mendapatkan informasi yang berguna tentang tingkat
kelulusan mahasiswa dengan teknik data mining.
Adapun
beberapa manfaat yang diharapkan pada pembuatan tugas akhir ini adalah:
1.
Bagi Penulis
Penulis
dapat lebih mengetahui cara menerapkan ilmu-ilmu yang telah dipelajari selama
ini dalam merancang dan membuat aplikasi sistem dengan teknik data mining,
serta sebagai syarat dalam memperoleh gelar sarjana komputer.
2.
Bagi Fakultas MIPA
Diharapkan
dengan adanya aplikasi ini dapat membantu menyajikan informasi tentang hubungan
tingkat kelulusan dengan data induk mahasiswa. Pihak fakultas dapat mengetahui
tingkat kelulusan mahasiswanya dan mengetahui faktor yang mempengaruhi tingkat
kelulusan.
I. 4. Batasan
Masalah
Pada tugas akhir ini, pembahasan dibatasi pada menyajikan informasi
tentang tingkat kelulusan mahasiswa dengan teknik data mining. Informasi
yang ditampilkan berupa nilai support dan confidence hubungan
antara tingkat kelulusan dengan data induk mahasiswa. Dalam penulisan tugas
akhir ini tidak membahas pada sistem pendukung keputusan maupun sistem
informasi akademik. Dalam membangun data mining membutuhkan suatu data
warehouse, oleh karena itu dalam pembahasan tugas akhir ini dibahas
mengenai pembangunan data warehouse sederhana yang dibangun untuk
memenuhi kebutuhan dari proses data mining. Data warehouse yang
dibangun bukan merupakan data warehouse yang menyimpan seluruh data
transaksional, hanya merupakan data warehouse yang menunjang pembangunan
data mining, sehingga data dan formatnya pun disesuaikan dengan
kebutuhan data mining.
Pembahasan juga dibatasi pada bagaimana
menghasilkan aplikasi yang menerapkan teknik data mining guna
menghasilkan informasi hubungan tingkat kelulusan dengan data induk mahasiswa.
Dalam tugas akhir ini tidak membahas pada hasil proses data mining dan
analisis hasil yang keluar. Pembahasan juga hanya pada Program Sarjana (S1)
reguler di Fakultas MIPA Universitas Diponegoro secara umum. Data yang diambil
adalah data mahasiswa untuk
Program
Sarjana (S1) reguler di Fakultas MIPA Universitas Diponegoro. Data induk
mahasiswa adalah atribut yang melekat pada mahasiswa seperti nama, NIM (Nomor
Induk Mahasiswa), alamat, asal sekolah, dan lain-lain. Tingkat kelulusan di
ukur dari lama studi dan IPK. Dalam Penulisan tugas akhir ini, lama studi dan
IPK mengacu pada peraturan akademik tahun 2009 nomor : 364/PER/H7/2009 tanggal
24 Juli 2009. Lama studi dikategorikan berdasarkan peraturan akademik BAB I
pasal 1 ayat 2, sedangkan IPK dikategorikan berdasarkan predikat kelulusan yang
diatur dalam peraturan akademik BAB IV pasal 19 ayat 1. Implementasi program
menggunakan SQL Server 2005 dan Visual Studio 2010 dengan bahasa
pemrograman Visual Basic. Net.
I. 5. Metode
Pengambilan Data
Metode
yang digunakan dalam pengumpulan data adalah sebagai berikut :
1.
Metode Pengamatan Langsung
Melakukan
pengamatan langsung ke bagian Akademik Fakultas MIPA untuk mendapatkan data
yang dibutuhkan.
2. Metode Wawancara
Mengadakan
wawancara dengan pihak-pihak yang berkaitan langsung dengan permasalahan yang
sedang dibahas pada tugas akhir ini untuk memperoleh gambaran dan penjelasan
secara mendasar.
3. Metode Studi Pustaka
Merupakan
sumber yang dapat dijadikan rujukan dari sumber data atau literatur–literatur.
4. Metode Browsing
Melakukan
pengumpulan rujukan yang bersumber dari internet.
I. 6. Sistematika
Penulisan
Sistematika dari penulisan tugas sarjana ini adalah
sebagai berikut :
BAB I PENDAHULUAN
Pada bab ini dijelaskan mengenai latar belakang
permasalahan, rumusan masalah, tujuan penelitian, manfaat penelitian, batasan
masalah, dan sistematika penulisan.
BAB II DASAR TEORI
Pada
bab ini dijelaskan mengenai dasar-dasar teori, rujukan dan metode yang
digunakan sebagai dasar dan alat untuk menyelesaikan permasalahan.
BAB III ANALISIS DAN
PERANCANGAN APLIKASI DATA MINING
Pada
bab ini dijelaskan tentang analisis serta perancangan Aplikasi Data Mining.
BAB IV IMPLEMENTASI
PROGRAM DAN PENGUJIAN
Pada bab ini
berisi penerapan teknik data mining dalam aplikasi, pembuatan prototype
Aplikasi Data Mining dan pengujian.
BAB V KESIMPULAN DAN
SARAN
Bab
ini berisi tentang kesimpulan dari hasil pembuatan Aplikasi Data Mining dan
saran-saran yang ditujukan kepada semua pihak yang bersangkutan.
BAB II
DASAR TEORI
Bab ini menjelaskan tentang dasar teori yang digunakan
dalam penyusunan tugas akhir ini. Dijelaskan pengertian tentang data mining
beserta macam-macamnya, selain itu juga dijelaskan tentang data wareouse,
database serta analisis perancangan perangkat lunak.
II. 1. Data
warehouse
Data warehouse adalah
sebuah sistem yang mengambil dan menggabungkan data secara periodik dari sistem
sumber data ke penyimpanan data bentuk dimensional atau normal (Rainardi,
2008). Data warehouse merupakan penyimpanan data yang berorientasi
objek, terintegrasi, mempunyai variant waktu, dan menyimpan data dalam
bentuk nonvolatile sebagai pendukung manejemen dalam proses pengambilan
keputusan (Han, 2006).
Data warehouse menyatukan
dan menggabungkan data dalam bentuk multidimensi. Pembangunan data warehouse
meliputi pembersihan data, penyatuan data dan transformasi data dan dapat
dilihat sebagai praproses yang penting untuk digunakan dalam data mining.
Selain itu data warehouse mendukung On-line Analitycal Processing
(OLAP), sebuah kakas yang digunakan untuk menganalisis secara interaktif dari
bentuk multidimensi yang mempunyai data yang rinci. Sehingga dapat
memfasilitasi secara efektif data generalization dan data mining.
Banyak
metode-metode data mining yang lain seperti asosiasi, klasifikasi,
prediksi, dan clustering, dapat diintegrasikan dengan operasi OLAP untuk
meningkatkan proses mining yang interaktif dari beberapa level dari
abstraksi. Oleh karena itu data warehouse menjadi platform yang penting
untuk data analisis dan OLAP untuk dapat menyediakan platform yang efektif
untuk proses data mining.
Empat
karakteristik dari data warehouse meliputi :
1.
Subject oriented : sebuah data
warehouse disusun dalam subjek utama, seperti pelanggan, suplier, produk,
dan sales. Meskipun data warehouse terkonsentrasi pada operasi harian
dan proses transaksi dalam perusahaan, data warehouse
fokus pada pemodelan dan
analisis data untuk pembuat keputusan. Oleh karena itu data warehouse mempunyai
karakter menyediakan secara singkat dan sederhana gambaran seputar subjek lebih
detail yang dibuat dari data luar yang tidak berguna dalam proses pendukung
keputusan.
2.
2. Integrated : Data
warehouse biasanya dibangun dari bermacam-macam sumber yang berbeda,
seperti database relasional, flat files, dan on-line
transaction records. Pembersihan dan penyatuan data diterapkan untuk
menjamin konsistensi dalam penamaan, struktur kode, ukuran atribut, dan yang
lainnya.
3.
3. Time Variant : data
disimpan untuk menyajikan informasi dari sudut pandang masa lampau (misal 5 –
10 tahun yang lalu). Setiap struktur kunci dalam data warehouse mempunyai
elemen waktu baik secara implisit maupun eksplisit
4.
Nonvolatile : sebuah data warehouse secara fisik selalu disimpan terpisah
dari data aplikasi operasional. Penyimpanan yang terpisah ini, data warehouse
tidak memerlukan proses transaksi, recovery dan mekanisme
pengendalian konkurensi. Biasanya hanya membutuhkan dua operasi dalam akses
data yaitu initial load of data dan access of data
Dari
pengertian tersebut, sebuah data warehouse merupakan penyimpanan data
tetap sebagai implementasi fisik dari pendukung keputusan model data. Data
warehouse juga biasanya dilihat sebagai arsitektur, pembangunan dan
penyatuan data dari bermacam macam sumber data yang berbeda untuk mendukung
struktur dan atau query tertentu, laporan analisis, dan pembuatan
keputusan (Han, 2006). Extract, transform, dan load (ETL) merupakan
sebuah sistem yang dapat membaca data dari suatu data store, merubah
bentuk data, dan menyimpan ke data store yang lain. Data store yang
dibaca ETL disebut data source, sedangkan data store yang
disimpan ETL disebut target. Proses pengubahan data digunakan agar data sesuai
dengan format dan kriteria, atau sebagai validasi data dari source system.
Proses ETL tidak hanya menyimpan data ke data warehouse, tetapi juga
digunakan untuk berbagai proses pemindahan data.
Berdasarkan siapa yang memindahkan data, ETL dapat dibedakan menjadi
empat seperti yang dapat dilihat pada gambar 2.1, yaitu :
1. Proses ETL menarik data keluar dengan query tertentu di source
system database secara periodik.
2. Triggers pada source system mendorong
data keluar. Triggers adalah Suatu SQL statement yang dijalankan setiap
ada perintah insert, update, atau delete dalam tabel.
3. Penjadwalan proses dalam source system untuk mengekspor data
secara periodik. Hal ini mirip dengan proses yang pertama namun query disimpan
dalam data source.
4. Sebuah log reader yang bertugas membaca log dalam source system untuk
mengidentifikasi perubahan data. Log reader merupakan program yang membaca log
file. Setelah dibaca, kemudian data dipindahkan keluar ke tempat penyimpanan
yang lain.
Berdasarkan dimana proses pembangkitan ETL, ETL dibedakan menjadi tiga
macam seperti yang digambarkan pada gambar 2.2, yaitu :
A. ETL dijalankan dalam server
terpisah diantara source system dan data warehouse sistem.
Pendekatan ini menghasilkan kinerja tinggi, ETL berjalan di server sendiri,
sehingga tidak menggunakan sumber daya dari data warehouse server atau data
source server. Namun hal ini lebih mahal karena harus menambah server lagi.
B. ETL
dijalankan dalam data warehouse server. Pendekatan ini dapat digunakan
jika mempunyai kapasitas lebih dalam data warehouse server atau jika
mempunyai iddle time ketika data warehouse tidak digunakan (misal
pada
waktu malam). Pendekatan ini
lebih murah dibandingkan pendekatan pertama karena tidak membutuhkan tambahan server.
C. ETL dijalankan pada server data source. Pendekatan ini diimplementasikan ketika membutuhkan real time data warehousing. Dengan kata lain, jika data dalam source system berubah, perubahan ini dilakukan juga ke dalam data warehouse. Hal ini dapat dilakukan dengan penggunaan trigger dalam source system.
II. 2. Pengertian Data Mining
Secara sederhana data mining adalah penambangan
atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari
sejumlah data yang sangat besar (Davies, 2004). Data mining juga disebut
sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang
selama ini tidak diketahui secara manual dari suatu kumpulan data (Pramudiono,
2007). Data mining, sering juga disebut sebagai knowledge discovery in database
(KDD). KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis
untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar
(Santoso, 2007).
Data mining adalah kegiatan menemukan pola yang
menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data
warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan
bidang ilmu – ilmu lain, seperti database system, data warehousing, statistik,
machine learning, information retrieval, dan komputasi tingkat tinggi. Selain
itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan
pola, spatial data analysis, image database, signal processing (Han, 2006).
Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses
ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti
dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi.
Data yang dibutuhkan dalam jumlah besar (Witten, 2005).
Karakteristik data
mining sebagai berikut
1.
Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data
tertentu yang tidak diketahui sebelumnya.
2.
Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar
digunakan untuk membuat hasil lebih dipercaya.
3.
Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi
(Davies, 2004).
Berdasarkan
beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah
suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada
suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu
pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan
sedikit barang berharga dari sejumlah besar material dasar. Karena itu data
mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan (artificial intelligent), machine learning, statistik dan
database. Beberapa metode yang sering disebut-sebut dalam literatur data mining
antara lain clustering, classification, association rules mining, neural
network, genetic algorithm dan lain-lain (Pramudiono, 2007).
II. 3. Pengenalan Pola, Data Mining, dan
Machine Learning
Pengenalan pola adalah suatu disiplin ilmu yang
mempelajari cara-cara mengklasifikasikan obyek ke beberapa kelas atau kategori
dan mengenali kecenderungan data. Tergantung pada aplikasinya, obyek-obyek ini
bisa berupa pasien, mahasiswa, pemohon kredit, image atau signal atau
pengukuran lain yang perlu diklasifikasikan atau dicari fungsi regresinya
(Santoso, 2007).
Data mining, sering juga disebut knowledge
discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan,
pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam
set data berukuran besar. Keluaran dari data mining ini bisa dipakai
untuk memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern
recognition jarang digunakan karena termasuk bagian dari data mining (Santoso,
2007).
II.
4. Tahap-Tahap Data mining
Sebagai suatu rangkaian proses, data mining
dapat dibagi menjadi beberapa
tahap yang diilustrasikan di Gambar 2.5.
Tahap-tahap tersebut bersifat interaktif,
pemakai terlibat langsung atau dengan
perantaraan knowledge base.
Tahap-tahap
data mining ada 6 yaitu :
1.
Pembersihan data (data cleaning)
Pembersihan
data merupakan proses menghilangkan noise dan data yang tidak
konsisten
atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari
database
suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang
tidak
sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar
salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan
dengan
hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga
lebih
baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari
teknik
data mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.
2.
Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari berbagai database ke
dalam satu database baru. Tidak jarang data yang diperlukan untuk data
mining tidak hanya berasal dari satu database tetapi juga berasal
dari beberapa database atau file teks. Integrasi data dilakukan pada
atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti
atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu
dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan
hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai
contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan
produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk
yang sebenarnya tidak ada.
3.
Seleksi Data (Data Selection)
Data
yang ada pada database sering kali tidak semuanya dipakai, oleh karena
itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli
dalam kasus market basket analysis, tidak perlu mengambil nama
pelanggan, cukup dengan id pelanggan saja.
4.
Transformasi data (Data Transformation)
Data
diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data
mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum
bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis
asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya
data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa
interval. Proses ini sering disebut transformasi data.
5.
Proses mining,
Merupakan
suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga
dan tersembunyi dari data.
6.
Evaluasi pola (pattern evaluation),
Untuk
mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan.
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun
model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa
alternatif yang dapat diambil seperti menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba metode data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang
mungkin bermanfaat.
7.
Presentasi pengetahuan (knowledge presentation),
Merupakan
visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk
memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data
mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis
yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak
memahami data mining. Karenanya presentasi hasil data mining dalam bentuk
pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan
dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu
mengkomunikasikan hasil data mining (Han, 2006).
II.
5. Metode Data mining
Dengan definisi data mining yang luas, ada banyak jenis metode
analisis yang dapat digolongkan dalam data mining.
II.
5. 1. Association rules
Association
rules (aturan asosiasi) atau affinity
analysis (analisis afinitas) berkenaan dengan studi tentang “apa bersama
apa”. Sebagai contoh dapat berupa berupa studi transaksi di supermarket,
misalnya seseorang yang membeli susu bayi juga membeli sabun mandi. Pada kasus
ini berarti susu bayi bersama dengan sabun mandi. Karena awalnya berasal dari
studi tentang database transaksi pelanggan untuk menentukan kebiasaan
suatu produk dibeli bersama produk apa, maka aturan asosiasi juga sering
dinamakan market basket analysis.
Aturan
asosiasi ingin memberikan informasi tersebut dalam bentuk hubungan “if-then”
atau “jika-maka”. Aturan ini dihitung dari data yang sifatnya probabilistik
(Santoso, 2007).
Analisis
asosiasi dikenal juga sebagai salah satu metode data mining yang menjadi
dasar dari berbagai metode data mining lainnya. Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis
pola frekuensi tinggi (frequent pattern mining) menarik perhatian banyak
peneliti untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu
aturan assosiatif dapat diketahui dengan dua parameter, support (nilai
penunjang) yaitu prosentase kombinasi item tersebut. dalam database dan
confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan
assosiatif. Analisis asosiasi didefinisikan suatu proses untuk menemukan semua
aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support)
dan syarat minimum untuk confidence (minimum confidence) (Pramudiono, 2007).
II.
5. 2. Decision Tree
Dalam
decision tree tidak menggunakan vector jarak untuk
mengklasifikasikan obyek. Seringkali data observasi mempunyai atribut-atribut
yang bernilai nominal. Seperti yang diilustrasikan pada gambar 2.6, misalkan
obyeknya adalah sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut
bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran
nominal, yaitu bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau
dikurangkan. Dalam atribut warna ada beberapa nilai yang mungkin yaitu hijau,
kuning, merah. Dalam atribut ukuran ada nilai besar, sedang dan kecil. Dengan
nilai-nilai atribut ini, kemudian dibuat decision tree untuk menentukan
suatu obyek termasuk jenis buah apa jika nilai tiap-tiap atribut diberikan
(Santoso, 2007).
II.
5. 3. Clustering
Clustering
termasuk metode yang sudah cukup dikenal dan banyak
dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data
mining masih melakukan berbagai usaha untuk melakukan perbaikan model clustering
karena metode yang dikembangkan sekarang masih bersifat heuristic.
Usaha-usaha untuk menghitung jumlah cluster yang optimal dan
pengklasteran yang paling baik masih terus dilakukan. Dengan demikian
menggunakan metode yang sekarang, tidak bisa menjamin hasil pengklasteran sudah
merupakan hasil yang optimal. Namun, hasil yang dicapai biasanya sudah cukup
bagus dari segi praktis.
BAB III
ANALISIS DAN PERANCANGAN APLIKASI DATA MINING
Bab
ini menjelaskan tentang analisis dan perancangan dalam membangun Aplikasi Data
Mining. Analisis meliputi analisis data mining, analisis lingkungan
sistem serta analisis dalam membangun aplikasi.
III.
1. Analisis Data Mining
Dalam penulisan tugas akhir ini akan dicari nilai support dan confidence
dari hubungan tingkat kelulusan dengan data induk mahasiswa. Tidak semua data induk siswa akan
dicari hubungannya dengan data kelulusan, hanya beberapa atribut yang kira-kira
berguna dan sebarannya tidak terlalu acak. Karena data yang terlalu acak akan
membuat proses mining memakan waktu lama dan tingkat hubungannya pun
rendah. Data induk mahasiswa yang akan dicari hubungannya meliputi proses
masuk, asal sekolah, kota asal sekolah, dan program studi. Adapun yang akan
diproses mining meliputi :
1.
Hubungan tingkat kelulusan dengan proses masuk
Hasil dari proses mining ini dapat membantu untuk mengetahui
sejauh mana tingkat keberhasilan PSSB dan SPMB.
2.
Hubungan tingkat kelulusan dengan asal sekolah dan proses masuk
Dari atribut proses masuk dan asal sekolah dicari hubungan tingkat
kelulusan dengan asal sekolah yang melalui proses masuk PSSB dengan harapan
dapat mengetahui tingkat keberhasilan mahasiswa dengan sekolah tertentu.
3.
Hubungan tingkat kelulusan dengan kota asal sekolah
Hubungan tingkat kelulusan dengan asal kota bermanfaat untuk mengetahui
daerah-daerah mana yang mempunyai tingkat keberhasilan tinggi ataupun rendah.
Diasumsikan bahwa kota asal sekolah merupakan kota tempat asal mahasiswa.
4.
Hubungan tingkat kelulusan dengan program studi
Dari
atribut program studi dapat diketahui hubungan tingkat kelulusun dan program
studi untuk megetahui tingkat kelulusan program studi.
III.
1. 3. Integrasi Data
Dalam
penulisan tugas akhir kali ini diasumsikan bahwa data yang diambil sudah berupa
tabel-tabel dalam satu server. Untuk proses mining, data
kelulusan dan data induk mahasiswa digabungkan dengan primary key NIM.
Setelah itu baru dilakukan proses mining. Proses integrasi data
dilakukan ketika proses ETL (ekstract, transform, and Load) ketika
membangun data warehouse, dalam proses ETL data dalam data source digabungkan
menjadi satu dalam data warehouse dengan key NIM.
III.
1. 4. Transformasi Data
Transformasi
data merupakan proses pengubahan atau penggabungan data ke dalam format yang
sesuai untuk diproses dalam data mining. Seringkali data yang akan
digunakan dalam proses data mining mempunyai format yang belum langsung
bisa digunakan, oleh karena itu perlu dirubah formatnya.
III.
1. 5. Penggunaan Algoritma Apriori
Algoritma
apriori adalah algoritma paling terkenal untuk menemukan pola frekuensi
tinggi. Pola frekuensi tinggi adalah pola-pola item di dalam suatu database yang
memiliki frekuensi atau support di atas ambang batas tertentu yang
disebut dengan istilah minimum support atau threshold. Threshold
adalah batas minimum transaksi. Jika jumlah transaksi kurang dari threshold
maka item atau kombinasi item tidak akan diikutkan perhitungan selanjutnya.
Penggunaan threshold dapat mempercepat perhitungan. Algoritma apriori
dibagi menjadi beberapa tahap yang disebut iterasi. Tiap iterasi
menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari pass
pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu. Di iterasi
pertama ini, support dari setiap item dihitung dengan men-scan database.
Setelah support dari setiap item didapat, item yang memiliki support lebih
besar dari minimum support dipilih sebagai pola frekuensi tinggi dengan
panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set
yang terdiri dari k item.
III.
3. 2. Spesifikasi Kebutuhan Fungsional
Spesifikasi kebutuhan fungsional pada Aplikasi Data Mining ini
merujuk pada kebutuhan akan perancangan data mining, seperti yang
tertera berikut ini :
1. Dapat menggabungkan data
yang akan diproses mining dari data kelulusan dan data induk mahasiswa
2. Dapat menghapus data-data
yang tidak relevan serta atribut yang tidak dipakai
3. Dapat merubah data menjadi
data yang siap diproses
4. Dapat memproses data untuk
dimining meliputi :
ü Hubungan tingkat kelulusan dengan proses masuk
ü Hubungan tingkat kelulusan dengan asal sekolah yang melalui proses
masuk PSSB
ü Hubungan tingkat kelulusan dengan asal kota
ü Hubungan tingkat kelulusan dengan program studi
5. Dapat menampilkan hasil proses mining dengan nilai support
dan confidence.
1. Import
Data
Proses import data adalah proses load data dari database
kelulusan dan database induk mahasiswa ke data warehouse.
Semua data akan dimasukkan tanpa ada penyaringan.
2. Cleaning, Integrasi,
Selection, dan transformasi
a) Cleaning data
merupakan proses menghilangkan noise dan data yang tidak konsisten atau
data yang tidak relevan. Pada umumnya data yang diperoleh, baik dari database
suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak
sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar salah ketik. Dalam tahap ini semua data yang akan digunakan baik data
kelulusan, data induk mahasiswa maupun data nilai semester dibersihkan dari record
data yang tidak mempunyai atribut lengkap. Selain pembersihan record data
yang tidak valid, juga dilakukan penghapusan atribut yang tidak dipakai,
misalnya atribut gaji orang tua, nama orang tua dan lain-lain. Pembersihan data
juga akan mempengaruhi performasi dari sistem data mining karena data
yang ditangani akan berkurang jumlah dan kompleksitasnya.
b) Integrasi data
merupakan penggabungan data dari berbagai database ke dalam satu database
baru. Data induk mahasiswa, data nilai dan data kelulusan tidak disimpan
dalam satu database, Integrasi data dilakukan pada atribut-aribut
yang mengidentifikasikan entitas-entitas dengan satu atribut unik yaitu NIM
c) Selection data adalah
proses menyeleksi atribut apa yang akan diproses pada mining selanjutnya.
d) Transformasi
data merupakan proses mengubah data atau digabung ke dalam format yang
sesuai untuk diproses dalam data mining.
BAB V
PENUTUP
1. Kesimpulan
Kesimpulan yang dapat diambil dalam pengerjaan tugas
akhir ini adalah Aplikasi Data Mining ini dapat digunakan untuk menampilkan
informasi tingkat kelulusan. Informasi yang ditampilkan berupa nilai support
dan confidence hubungan antara tingkat kelulusan dengan data induk mahasiswa.
Semakin tinggi nilai confidence dan support maka semakin kuat nilai hubungan
antar atribut. Data induk mahasiswa yang diproses mining meliputi data proses
masuk, data asal sekolah, data kota mahasiswa, dan data program studi. Hasil
dari proses data mining ini dapat digunakan sebagai pertimbangan dalam
mengambil keputusan lebih lanjut tentang faktor yang mempengaruhi tingkat
kelulusan khususnya faktor dalam data induk mahasiswa.
2. Saran
Untuk pengembangan Aplikasi Data Mining lebih lanjut,
dapat menggunakan algoritma lain, misal algoritma FP-Growth. Perbedaannya
adalah algoritma apriori harus melakukan scan database setiap kali iterasi,
sedangkan algoritma FP-Growth hanya melakukan satu kali scan database diawal.
Tidak ada komentar:
Posting Komentar