Dosen Ariesta Damayanti Email riestamayagmailcom Komunikasi via email wa Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan Sistem Penilaian 30 tugaspresentasi 35 UTS 35 UAS ID: 816546
Download The PPT/PDF document "Data Mining 1 Seputar Perkuliahan" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
Data Mining
1
Slide2Seputar Perkuliahan
Dosen: Ariesta Damayanti
Email: riestamaya@gmail.com
Komunikasi: via email, wa
Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan
Sistem Penilaian: 30 % tugas+presentasi, 35% UTS, 35% UAS
Batas Nilai: A:80, B:65, C:49, D:30
Buku: Data Mining: Concepts and Techiques, Jiawei Han dan beberapa referensi lain
Slide3Data Mining :
menemukan
pola-pola
tersembunyi maupun hubungan-hubungan dalam basis data yang besar menghasilkan pengetahuan / aturan-aturan yang digunakan untuk memperkirakan perilaku di masa medatang
3
Slide44
Data
Informasi
Pengetahuan
Masuk Sekolah jam 07.00
Jarak
dari
rumah ke sekolah 30 menitSupaya tidak terlambat berangkat ke sekolah maksimal jam 06.30Data Pelanggan, Data Produk, Data Transaksi Penjualan Daftar pelanggan, daftar produk, daftar produk yang paling laris- kelompok pelanggan yang menguntungkan (frekuensi pembelian sering atau jumlah pembelian sangat banyak)- pola pembelian produk
Contoh
Perbedaan
Data,
Informasi
,
Pengetahuan
Slide55
Contoh
dataset
Slide66
Pengetahuan
/
aturan
yg diperoleh
Slide77
Prediksi
pada
data uji……Benarkah prediksi tersebut ?* gold-standar : pakar, alat
Slide8Knowledge Discovery Process
Data mining: the core of knowledge discovery process.
Data Cleaning
Data Integration
Databases
Preprocessed Data
Knowledge
Task-relevant Data
Data transformations
Selection
Data Mining
Knowledge Interpretation
Slide9© Prentice Hall
9
Data Mining vs. KDD
Knowledge Discovery in Databases (KDD):
process of finding useful information and patterns in data.
Data Mining:
Use of algorithms to extract the information and patterns derived by the KDD process.
Slide10melakukan pembersihan data(
cleaning),
pengintegrasian data (
integration)
, transformasi data (transformation), dan reduksi data (reduction).10Preprocessing Data
Slide1111
/74
Data Preprocessing
Pembersihan data
Diskritisasi dan
pembuatan
konsep
hierarkiIntegrasi dan transformasi dataReduksi dataMengapa data di proses awal?
Slide1212
/74
Mengapa
Data
Diproses Awal?Data dalam dunia nyata kotor
Tak-lengkap: nilai-nilai
atribut
kurang
, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasiMisal, pekerjaan=“”Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain)Misal, Salary=“-10”
Slide1313
/74
Mengapa
Data
Diproses Awal?Tak-konsisten: memuat perbedaan dalam kode atau namaMisal, Age=“42” Birthday=“03/07/1997”Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”Misal, perbedaan antara duplikasi recordData yang lebih baik akan menghasilkan data mining yang lebih baik
Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.
Slide1414
/74
Mengapa
Data
Kotor?Ketaklengkapan data datang dariNilai data tidak tersedia saat
dikumpulkanPerbedaan pertimbangan
waktu
antara saat data dikumpulkan dan saat data dianalisa.Masalah manusia, hardware, dan softwareNoisy data datang dari proses dataPengumpulan Pemasukan (entry)Transmisi
Slide1515
/74
Mengapa
Data
Kotor?Ketak-konsistenan data datang dari Sumber data yang berbedaPelanggaran kebergantungan
fungsional
Slide1616
/74
Mengapa
Pemrosesan Awal Data Penting?
Kualitas
data
tidak
ada, kualitas hasil mining tidak ada!Kualitas keputusan harus didasarkan kepada kualitas dataMisal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau bahkan statistik yang menyesatkan.Data warehouse memerlukan kualitas integrasi data yang konsisten
Slide1717
/74
Bentuk-Bentuk
Dari
Pemrosesan Awal Data
Pembersihan Data
Integrasi Data
Transformasi Data
Reduksi Data
Slide1818
/74
Data
Hilang
Data tidak selalu tersediaMisal, banyak tuple atau record tidak memiliki
nilai yang tercatat untuk
beberapa
atribut
, seperti customer income dalam data salesHilangnya data bisa karena Kegagalan pemakaian peralatanKetak-konsistenan dengan data tercatat lainnya dan karenanya dihapusData tidak dimasukkan karena salah pengertianData tertentu bisa tidak dipandang penting pada saat entryTidak mencatat history atau tidak mencatat perubahan dataKehilangan data perlu disimpulkan
Slide1919
/74
Bagaimana
Menangani Data Hilang?Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhirBiasanya dilakukan saat label kelas hilangTidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi.Mengisi nilai-nilai yang hilang secara manual: Paling baikMembosankan
Paling mahal biayanyaTak mungkin dilakukan dalam banyak hal!
Slide2020
/74
Bagaimana
Menangani Data Hilang?Mengisi nilai-nilai yang hilang secara
otomatis menggunakan:Suatu
konstanta
global:
misal, “unknown”, “Null”, atau suatu kelas baru?! Suatu pola yang memuat “unknown” atau “Null” adalah buruk Gunakan rata-rata atributPengempisan data ke mean/medianRata-rata atribut untuk seluruh sampel yang masuk kedalam kelas yang samaLebih cerdas, dan suatu metoda yang baikGunakan informasi yang paling banyak dari data yang ada untuk memprediksi
Slide2121
/74
Noisy Data
Noise: error acak atau variansi dalam suatu variabel terukur
Nilai-nilai atribut tak benar mungkin karenaKegagalan instrumen pengumpulan dataProblem pemasukan dataProblem transmisi dataKeterbatasan teknologiKetak-konsistenan dalam konvensi penamaanProblem data lainnya yang memerlukan pembersihan dataDuplikasi record Data tak lengkap
Data tidak konsisten
Slide2222
/74
Transformasi
Data:
NormalisasiNormalisasi min-maxNormalisasi z-score (saat Min, Max tak diketahui)Normalisasi dengan penskalaan desimal
dimana
j
adalah integer terkecil sehingga Max(| |)<1
Slide2323
/74
Transformasi
Data
Penghalusan: menghilangkan noise dari dataAgregasi: ringkasan, konstruksi kubus dataGeneralisasi: konsep
hierarchy climbingNormalisasi: diskalakan agar
jatuh
didalam
suatu range kecil yang tertentuNormalisasi min-maxNormalisasi z-scoreNormalisasi dengan penskalaan desimalKonstruksi atribut/fiturAtribut-atribut baru dibangun dari atribut-atribut yang ada
Slide24Tujuan :Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining
Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik
Meningkatkan efisiensi dan kemudahan proses penambangan data
24
Prapemrosesan Data/Preprocessing Data
Slide25Pembersihan Integrasi
Reduksi
Penambahan
Transformasi
25Prapemrosesan data bisa dilakukan dengan
Slide26Data dikatakan tidak bersih jika masih mengandung nilai kosong dan atau derau dan atau pencilan/outlayer dan atau inkonsitensi.
Cara membersihkan data :
- Mengisi nilai yang kosong
Menghaluskan data berderau
Membuang pencilan/outlayerMemperbaiki inkosistensi26Pembersihan
Slide27Abaikan tuple tersebut
Isi atribut kosong secara manual
Gunakan konstanta global
Gunakan nila tendensi sentral (rata-rata atau median)
Gunakan nilai dari regresi atau inferensi (Bayesian atau Decision Tree)27Membersihkan nilai kosong
Slide28Binning (pewadahan)
Regresi
Clustering
28
Menghaluskan data berderau
Slide29Data-data pencilan dapat ditemukan menggunakan tendensi sentral, boxplot dll
29
Membuang pencilan
Slide30Inkosistensi karena :-kurang bagusnya form data
-kesalahan operator
-data kadaluarsa
-kesalahan pengisi data
Memperbaiki :-Manual-Tools (ETL)30Memperbaiki inkosistensi
Slide3131
Proses (
lebih
)
detilDatabase(s)DatasetDatasetDL dan DV
Latih
dan
validasiHasil model
Slide3232
Pembagian
dataset
Dataset
Data latih – 70%Data uji —30%
Slide33Examples: What is (not) Data Mining?
What is not Data Mining?
Look up phone number in phone directory Query a Web search engine for information about “Amazon”
What is Data Mining?
Certain names are more prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area) Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)
Slide3434
Aplikasi
Data Mining
Bidang
Contoh
Pemasaran
Mengidentifikasi
pembelian
yang dilakukan konsumenMenemukan hubungan di antara karakteristik demografi pelangganMemperkirakan tanggapan penawaran melalui suratBank
Mendeteksi pola penyalahgunaan kartu kredit
Mengidentifikasi tingkat loyalitas pelanggan
Asuransi
Analisis
klaim
Memperkirakan
pelanggan
yang
akan
membeli
produk
baru
Slide35© Prentice Hall
35
Database Processing vs. Data Mining Processing
Query
Well defined
SQL
Query
Poorly defined
No precise quer
y language Output Precise Subset of database Output Fuzzy Not a subset of database
Slide36© Prentice Hall
36
Query Examples
Database
Data Mining
Find all customers who have purchased milk
Find all items which are frequently purchased with milk. (association rules)
Find all credit applicants with last name of Smith.
Identify customers who have purchased more than $10,000 in the last month. Find all credit applicants who are poor credit risks. (classification) Identify customers with similar buying habits. (Clustering)
Slide37StatistikJaringan
saraf
(
neural network)Logika kabur (fuzzy logic)Algoritma genetikaSVMdll37Teknologi Untuk Data Mining
Slide38© Prentice Hall
38
Data Mining Models and Tasks
Slide3939
Data MINING
dan
Teknologi Databases
Increasing potential
to support
business decisions
End User
BusinessAnalystDataAnalyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Increasing potential
to support
business decisions
End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Slide40Slide41Slide42Slide43Slide44Slide45Slide46Slide47Slide48Slide49Slide50Slide51Slide52Slide53Slide54Slide55Slide56Slide57Slide58Slide59Slide60Slide61Slide62Slide63Slide64Slide65Slide66Slide67Slide68Slide69Slide70Slide71Slide72Slide73Slide74Naïve Bayesian Classification
Tabel Aturan
Aturan ke-
Harga tanah
(C1)
Jarak dari pusat kota
(C2)
Ada angkutan umum
(C3)
Dipilih untuk perumahan
(C4)
1
Murah
Dekat
Tidak
Ya
2
Sedang
Dekat
Tidak
Ya
3
Mahal
Dekat
Tidak
Ya
4
Mahal
Jauh
Tidak
Tidak
5
Mahal
Sedang
Tidak
Tidak
6
Sedang
Jauh
Ada
Tidak
7
Murah
Jauh
Ada
Tidak
8
Murah
Sedang
Tidak
Ya
9
Mahal
Jauh
Ada
Tidak
10
Sedang
Sedang
Ada
Ya
Slide75Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut
Harga Tanah
(C1)
Harga tanah
Jumlah kejadian “Dipilih”
Probabilitas
Ya
Tidak
Ya
Tidak
Murah
2
1
2/5
1/5
Sedang
2
1
2/5
1/5
Mahal
1
3
1/5
3/5
Jumlah
5
5
1
1
Slide76Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut
Jarak dari pusat kota
(C2)
Jarak dari pusat kota
Jumlah kejadian “Dipilih”
Probabilitas
Ya
Tidak
Ya
Tidak
Dekat
3
0
3/5
0
Sedang
2
1
2/5
1/5
Jauh
0
4
0
4/5
Jumlah
5
5
1
1
Slide77Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut
Ada angkutan umum
(C3)
Angkutan umum
Jumlah kejadian “Dipilih”
Probabilitas
Ya
Tidak
Ya
Tidak
Ada
1
3
1/5
3/5
Tidak
4
2
4/5
2/5
Jumlah
5
5
1
1
Slide78Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut
Dipilih untuk perumahan
(C4)
Dipilih sebagai perumahan
Jumlah kejadian “Dipilih”
Probabilitas
Ya
Tidak
Ya
Tidak
Jumlah
5
5
1/2
1/2
Slide79Naïve Bayesian Classification
Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung:
Likelihood Ya =
1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
Likelihood Tidak = 3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036
Slide80Naïve Bayesian Classification
Nilai
probabilitas
dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.Probabilitas Ya = Probabilitas Tidak = Karena nilai probabilitas Tidak lebih besar daripada probabilitas Ya, dan mendekati nilai 1, maka untuk harga tanah MAHAL, lokasi SEDANG terhadap pusat kota dan ADA angkutan umum dapat disimpulkan TIDAK dipilih sebagai lokasi perumahan
Slide81Latihan
No
Kelas
Kulit Buah
WarnaUkuranBau1AmanKasar
Coklat
Besar
keras
2
AmanKasarHijauBesarkeras3BerbahayaHalusMerahBesarLunak4AmanKasarHijauBesarLunak5AmanKasarMerahKecilKeras6AmanHalusMerahKecilKeras7Aman
Halus
Coklat
Kecil
Keras
8
Berbahaya
Kasar
Hijau
Kecil
Lunak
9
Berbahaya
Halus
Hijau
Kecil
Keras
10
Aman
Kasar
Merah
Besar
Keras
11
Aman
Halus
Coklat
Besar
Lunak
12
Berbahaya
Halus
Hijau
Kecil
Keras
13
Aman
Kasar
Merah
Kecil
Lunak
14
Berbahaya
Halus
Merah
Besar
Keras
15
Aman
Halus
Merah
Kecil
Keras
16
Berbahaya
Kasar
Hijau
Kecil
Keras
Slide82Naïve Bayesian Classification
Modifikasi data
Aturan ke-
Harga tanah
(C1)
Jarak dari pusat kota
(C2)
Ada angkutan umum
(C3)
Dipilih untuk perumahan
(C4)
1
100
2
Tidak
Ya
2
200
1
Tidak
Ya
3
500
3
Tidak
Ya
4
600
20
Tidak
Tidak
5
550
8
Tidak
Tidak
6
250
25
Ada
Tidak
7
75
15
Ada
Tidak
8
80
10
Tidak
Ya
9
700
18
Ada
Tidak
10
180
8
Ada
Ya
Slide83Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut
Harga Tanah
(C1)
Ya
Tidak
1
100
600
2
200
550
3
500
250
4
80
75
5
180
700
Mean (
)
Deviasi standar (
)
212
168,8787
435
261,9637
Slide84Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut
Jarak dari pusat kota
(C2)
Ya
Tidak
1
2
20
2
1
8
3
3
25
4
10
15
5
8
18
Mean (
)
Deviasi standar (
)
4,8
3,9623
17,2
6,3008
Slide85Naïve Bayesian Classification
Berdasarkan hasil penghitungan tersebut, apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:
Slide86Naïve Bayesian Classification
Sehingga:
Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10
= 0,000000756.
Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10 = 0,000016458.Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.Probabilitas Ya = Probabilitas Tidak =
Slide87Klastering – proses pengelompokkan obyek yg didasarkan pada kesamaan antar obyek
Tidak seperti proses klasifikasi yg bersifat supervised learning, pada clustering proses pengelompokkan dilakukan atas dasar unsupervised learning
Pada klasifikasi, akan ditentukan lokasi dari suatu kejadian pada kelas ttt dari bbrp klas yg telah teridentifikasi sebelumnya
Sedangkan pada proses klastering, proses pengelompokkan kejadian dlm kelas akan dilakukan sec alami tanpa mengidentifiaksi klas-klas sebelumnya.
87Klastering
Slide88Slide89Slide90Slide91Slide92Slide93Slide94Slide95Slide96Slide97Slide98Slide99Slide100Slide101Slide102Slide103Slide104Slide105No
Tes
Bhs
Inggris
Tes Akademik1892773 ( C1)984785676 ( C2)77710
5
105