/
Data Mining 1 Seputar Perkuliahan Data Mining 1 Seputar Perkuliahan

Data Mining 1 Seputar Perkuliahan - PowerPoint Presentation

sequest
sequest . @sequest
Follow
342 views
Uploaded On 2020-11-06

Data Mining 1 Seputar Perkuliahan - PPT Presentation

Dosen Ariesta Damayanti Email riestamayagmailcom Komunikasi via email wa Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan Sistem Penilaian 30 tugaspresentasi 35 UTS 35 UAS ID: 816546

tidak data nilai yang data tidak yang nilai mining dan probabilitas ada atau atribut dari untuk classification bayesian

Share:

Link:

Embed:

Download Presentation from below link

Download The PPT/PDF document "Data Mining 1 Seputar Perkuliahan" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Slide1

Data Mining

1

Slide2

Seputar Perkuliahan

Dosen: Ariesta Damayanti

Email: riestamaya@gmail.com

Komunikasi: via email, wa

Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan

Sistem Penilaian: 30 % tugas+presentasi, 35% UTS, 35% UAS

Batas Nilai: A:80, B:65, C:49, D:30

Buku: Data Mining: Concepts and Techiques, Jiawei Han dan beberapa referensi lain

Slide3

Data Mining :

menemukan

pola-pola

tersembunyi maupun hubungan-hubungan dalam basis data yang besar menghasilkan pengetahuan / aturan-aturan yang digunakan untuk memperkirakan perilaku di masa medatang

3

Slide4

4

Data

Informasi

Pengetahuan

Masuk Sekolah jam 07.00

Jarak

dari

rumah ke sekolah 30 menitSupaya tidak terlambat berangkat ke sekolah maksimal jam 06.30Data Pelanggan, Data Produk, Data Transaksi Penjualan Daftar pelanggan, daftar produk, daftar produk yang paling laris- kelompok pelanggan yang menguntungkan (frekuensi pembelian sering atau jumlah pembelian sangat banyak)- pola pembelian produk

Contoh

Perbedaan

Data,

Informasi

,

Pengetahuan

Slide5

5

Contoh

dataset

Slide6

6

Pengetahuan

/

aturan

yg diperoleh

Slide7

7

Prediksi

pada

data uji……Benarkah prediksi tersebut ?* gold-standar : pakar, alat

Slide8

Knowledge Discovery Process

Data mining: the core of knowledge discovery process.

Data Cleaning

Data Integration

Databases

Preprocessed Data

Knowledge

Task-relevant Data

Data transformations

Selection

Data Mining

Knowledge Interpretation

Slide9

© Prentice Hall

9

Data Mining vs. KDD

Knowledge Discovery in Databases (KDD):

process of finding useful information and patterns in data.

Data Mining:

Use of algorithms to extract the information and patterns derived by the KDD process.

Slide10

melakukan pembersihan data(

cleaning),

pengintegrasian data (

integration)

, transformasi data (transformation), dan reduksi data (reduction).10Preprocessing Data

Slide11

11

/74

Data Preprocessing

Pembersihan data

Diskritisasi dan

pembuatan

konsep

hierarkiIntegrasi dan transformasi dataReduksi dataMengapa data di proses awal?

Slide12

12

/74

Mengapa

Data

Diproses Awal?Data dalam dunia nyata kotor

Tak-lengkap: nilai-nilai

atribut

kurang

, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasiMisal, pekerjaan=“”Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain)Misal, Salary=“-10”

Slide13

13

/74

Mengapa

Data

Diproses Awal?Tak-konsisten: memuat perbedaan dalam kode atau namaMisal, Age=“42” Birthday=“03/07/1997”Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”Misal, perbedaan antara duplikasi recordData yang lebih baik akan menghasilkan data mining yang lebih baik

Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.

Slide14

14

/74

Mengapa

Data

Kotor?Ketaklengkapan data datang dariNilai data tidak tersedia saat

dikumpulkanPerbedaan pertimbangan

waktu

antara saat data dikumpulkan dan saat data dianalisa.Masalah manusia, hardware, dan softwareNoisy data datang dari proses dataPengumpulan Pemasukan (entry)Transmisi

Slide15

15

/74

Mengapa

Data

Kotor?Ketak-konsistenan data datang dari Sumber data yang berbedaPelanggaran kebergantungan

fungsional

Slide16

16

/74

Mengapa

Pemrosesan Awal Data Penting?

Kualitas

data

tidak

ada, kualitas hasil mining tidak ada!Kualitas keputusan harus didasarkan kepada kualitas dataMisal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau bahkan statistik yang menyesatkan.Data warehouse memerlukan kualitas integrasi data yang konsisten

Slide17

17

/74

Bentuk-Bentuk

Dari

Pemrosesan Awal Data

Pembersihan Data

Integrasi Data

Transformasi Data

Reduksi Data

Slide18

18

/74

Data

Hilang

Data tidak selalu tersediaMisal, banyak tuple atau record tidak memiliki

nilai yang tercatat untuk

beberapa

atribut

, seperti customer income dalam data salesHilangnya data bisa karena Kegagalan pemakaian peralatanKetak-konsistenan dengan data tercatat lainnya dan karenanya dihapusData tidak dimasukkan karena salah pengertianData tertentu bisa tidak dipandang penting pada saat entryTidak mencatat history atau tidak mencatat perubahan dataKehilangan data perlu disimpulkan

Slide19

19

/74

Bagaimana

Menangani Data Hilang?Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhirBiasanya dilakukan saat label kelas hilangTidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi.Mengisi nilai-nilai yang hilang secara manual: Paling baikMembosankan

Paling mahal biayanyaTak mungkin dilakukan dalam banyak hal!

Slide20

20

/74

Bagaimana

Menangani Data Hilang?Mengisi nilai-nilai yang hilang secara

otomatis menggunakan:Suatu

konstanta

global:

misal, “unknown”, “Null”, atau suatu kelas baru?! Suatu pola yang memuat “unknown” atau “Null” adalah buruk Gunakan rata-rata atributPengempisan data ke mean/medianRata-rata atribut untuk seluruh sampel yang masuk kedalam kelas yang samaLebih cerdas, dan suatu metoda yang baikGunakan informasi yang paling banyak dari data yang ada untuk memprediksi

Slide21

21

/74

Noisy Data

Noise: error acak atau variansi dalam suatu variabel terukur

Nilai-nilai atribut tak benar mungkin karenaKegagalan instrumen pengumpulan dataProblem pemasukan dataProblem transmisi dataKeterbatasan teknologiKetak-konsistenan dalam konvensi penamaanProblem data lainnya yang memerlukan pembersihan dataDuplikasi record Data tak lengkap

Data tidak konsisten

Slide22

22

/74

Transformasi

Data:

NormalisasiNormalisasi min-maxNormalisasi z-score (saat Min, Max tak diketahui)Normalisasi dengan penskalaan desimal

dimana

j

adalah integer terkecil sehingga Max(| |)<1

Slide23

23

/74

Transformasi

Data

Penghalusan: menghilangkan noise dari dataAgregasi: ringkasan, konstruksi kubus dataGeneralisasi: konsep

hierarchy climbingNormalisasi: diskalakan agar

jatuh

didalam

suatu range kecil yang tertentuNormalisasi min-maxNormalisasi z-scoreNormalisasi dengan penskalaan desimalKonstruksi atribut/fiturAtribut-atribut baru dibangun dari atribut-atribut yang ada

Slide24

Tujuan :Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining

Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik

Meningkatkan efisiensi dan kemudahan proses penambangan data

24

Prapemrosesan Data/Preprocessing Data

Slide25

Pembersihan Integrasi

Reduksi

Penambahan

Transformasi

25Prapemrosesan data bisa dilakukan dengan

Slide26

Data dikatakan tidak bersih jika masih mengandung nilai kosong dan atau derau dan atau pencilan/outlayer dan atau inkonsitensi.

Cara membersihkan data :

- Mengisi nilai yang kosong

Menghaluskan data berderau

Membuang pencilan/outlayerMemperbaiki inkosistensi26Pembersihan

Slide27

Abaikan tuple tersebut

Isi atribut kosong secara manual

Gunakan konstanta global

Gunakan nila tendensi sentral (rata-rata atau median)

Gunakan nilai dari regresi atau inferensi (Bayesian atau Decision Tree)27Membersihkan nilai kosong

Slide28

Binning (pewadahan)

Regresi

Clustering

28

Menghaluskan data berderau

Slide29

Data-data pencilan dapat ditemukan menggunakan tendensi sentral, boxplot dll

29

Membuang pencilan

Slide30

Inkosistensi karena :-kurang bagusnya form data

-kesalahan operator

-data kadaluarsa

-kesalahan pengisi data

Memperbaiki :-Manual-Tools (ETL)30Memperbaiki inkosistensi

Slide31

31

Proses (

lebih

)

detilDatabase(s)DatasetDatasetDL dan DV

Latih

dan

validasiHasil model

Slide32

32

Pembagian

dataset

Dataset

Data latih – 70%Data uji —30%

Slide33

Examples: What is (not) Data Mining?

What is not Data Mining?

Look up phone number in phone directory Query a Web search engine for information about “Amazon”

What is Data Mining?

Certain names are more prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area) Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)

Slide34

34

Aplikasi

Data Mining

Bidang

Contoh

Pemasaran

Mengidentifikasi

pembelian

yang dilakukan konsumenMenemukan hubungan di antara karakteristik demografi pelangganMemperkirakan tanggapan penawaran melalui suratBank

Mendeteksi pola penyalahgunaan kartu kredit

Mengidentifikasi tingkat loyalitas pelanggan

Asuransi

Analisis

klaim

Memperkirakan

pelanggan

yang

akan

membeli

produk

baru

Slide35

© Prentice Hall

35

Database Processing vs. Data Mining Processing

Query

Well defined

SQL

Query

Poorly defined

No precise quer

y language Output Precise Subset of database Output Fuzzy Not a subset of database

Slide36

© Prentice Hall

36

Query Examples

Database

Data Mining

Find all customers who have purchased milk

Find all items which are frequently purchased with milk. (association rules)

Find all credit applicants with last name of Smith.

Identify customers who have purchased more than $10,000 in the last month. Find all credit applicants who are poor credit risks. (classification) Identify customers with similar buying habits. (Clustering)

Slide37

StatistikJaringan

saraf

(

neural network)Logika kabur (fuzzy logic)Algoritma genetikaSVMdll37Teknologi Untuk Data Mining

Slide38

© Prentice Hall

38

Data Mining Models and Tasks

Slide39

39

Data MINING

dan

Teknologi Databases

Increasing potential

to support

business decisions

End User

BusinessAnalystDataAnalyst

DBA

Making

Decisions

Data Presentation

Visualization Techniques

Data Mining

Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data Sources

Paper, Files, Information Providers, Database Systems, OLTP

Increasing potential

to support

business decisions

End User

Business

Analyst

Data

Analyst

DBA

Making

Decisions

Data Presentation

Visualization Techniques

Data Mining

Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data Sources

Paper, Files, Information Providers, Database Systems, OLTP

Slide40

Slide41

Slide42

Slide43

Slide44

Slide45

Slide46

Slide47

Slide48

Slide49

Slide50

Slide51

Slide52

Slide53

Slide54

Slide55

Slide56

Slide57

Slide58

Slide59

Slide60

Slide61

Slide62

Slide63

Slide64

Slide65

Slide66

Slide67

Slide68

Slide69

Slide70

Slide71

Slide72

Slide73

Slide74

Naïve Bayesian Classification

Tabel Aturan

Aturan ke-

Harga tanah

(C1)

Jarak dari pusat kota

(C2)

Ada angkutan umum

(C3)

Dipilih untuk perumahan

(C4)

1

Murah

Dekat

Tidak

Ya

2

Sedang

Dekat

Tidak

Ya

3

Mahal

Dekat

Tidak

Ya

4

Mahal

Jauh

Tidak

Tidak

5

Mahal

Sedang

Tidak

Tidak

6

Sedang

Jauh

Ada

Tidak

7

Murah

Jauh

Ada

Tidak

8

Murah

Sedang

Tidak

Ya

9

Mahal

Jauh

Ada

Tidak

10

Sedang

Sedang

Ada

Ya

Slide75

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atribut

Harga Tanah

(C1)

Harga tanah

Jumlah kejadian “Dipilih”

Probabilitas

Ya

Tidak

Ya

Tidak

Murah

2

1

2/5

1/5

Sedang

2

1

2/5

1/5

Mahal

1

3

1/5

3/5

Jumlah

5

5

1

1

Slide76

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atribut

Jarak dari pusat kota

(C2)

Jarak dari pusat kota

Jumlah kejadian “Dipilih”

Probabilitas

Ya

Tidak

Ya

Tidak

Dekat

3

0

3/5

0

Sedang

2

1

2/5

1/5

Jauh

0

4

0

4/5

Jumlah

5

5

1

1

Slide77

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atribut

Ada angkutan umum

(C3)

Angkutan umum

Jumlah kejadian “Dipilih”

Probabilitas

Ya

Tidak

Ya

Tidak

Ada

1

3

1/5

3/5

Tidak

4

2

4/5

2/5

Jumlah

5

5

1

1

Slide78

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atribut

Dipilih untuk perumahan

(C4)

Dipilih sebagai perumahan

Jumlah kejadian “Dipilih”

Probabilitas

Ya

Tidak

Ya

Tidak

Jumlah

5

5

1/2

1/2

Slide79

Naïve Bayesian Classification

Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung:

Likelihood Ya =

1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008

Likelihood Tidak = 3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036

Slide80

Naïve Bayesian Classification

Nilai

probabilitas

dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.Probabilitas Ya = Probabilitas Tidak = Karena nilai probabilitas Tidak lebih besar daripada probabilitas Ya, dan mendekati nilai 1, maka untuk harga tanah MAHAL, lokasi SEDANG terhadap pusat kota dan ADA angkutan umum dapat disimpulkan TIDAK dipilih sebagai lokasi perumahan

Slide81

Latihan

No

Kelas

Kulit Buah

WarnaUkuranBau1AmanKasar

Coklat

Besar

keras

2

AmanKasarHijauBesarkeras3BerbahayaHalusMerahBesarLunak4AmanKasarHijauBesarLunak5AmanKasarMerahKecilKeras6AmanHalusMerahKecilKeras7Aman

Halus

Coklat

Kecil

Keras

8

Berbahaya

Kasar

Hijau

Kecil

Lunak

9

Berbahaya

Halus

Hijau

Kecil

Keras

10

Aman

Kasar

Merah

Besar

Keras

11

Aman

Halus

Coklat

Besar

Lunak

12

Berbahaya

Halus

Hijau

Kecil

Keras

13

Aman

Kasar

Merah

Kecil

Lunak

14

Berbahaya

Halus

Merah

Besar

Keras

15

Aman

Halus

Merah

Kecil

Keras

16

Berbahaya

Kasar

Hijau

Kecil

Keras

Slide82

Naïve Bayesian Classification

Modifikasi data

Aturan ke-

Harga tanah

(C1)

Jarak dari pusat kota

(C2)

Ada angkutan umum

(C3)

Dipilih untuk perumahan

(C4)

1

100

2

Tidak

Ya

2

200

1

Tidak

Ya

3

500

3

Tidak

Ya

4

600

20

Tidak

Tidak

5

550

8

Tidak

Tidak

6

250

25

Ada

Tidak

7

75

15

Ada

Tidak

8

80

10

Tidak

Ya

9

700

18

Ada

Tidak

10

180

8

Ada

Ya

Slide83

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atribut

Harga Tanah

(C1)

Ya

Tidak

1

100

600

2

200

550

3

500

250

4

80

75

5

180

700

Mean (

)

Deviasi standar (

)

212

168,8787

435

261,9637

Slide84

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atribut

Jarak dari pusat kota

(C2)

Ya

Tidak

1

2

20

2

1

8

3

3

25

4

10

15

5

8

18

Mean (

)

Deviasi standar (

)

4,8

3,9623

17,2

6,3008

Slide85

Naïve Bayesian Classification

Berdasarkan hasil penghitungan tersebut, apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

Slide86

Naïve Bayesian Classification

Sehingga:

Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10

= 0,000000756.

Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10 = 0,000016458.Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.Probabilitas Ya = Probabilitas Tidak =

Slide87

Klastering – proses pengelompokkan obyek yg didasarkan pada kesamaan antar obyek

Tidak seperti proses klasifikasi yg bersifat supervised learning, pada clustering proses pengelompokkan dilakukan atas dasar unsupervised learning

Pada klasifikasi, akan ditentukan lokasi dari suatu kejadian pada kelas ttt dari bbrp klas yg telah teridentifikasi sebelumnya

Sedangkan pada proses klastering, proses pengelompokkan kejadian dlm kelas akan dilakukan sec alami tanpa mengidentifiaksi klas-klas sebelumnya.

87Klastering

Slide88

Slide89

Slide90

Slide91

Slide92

Slide93

Slide94

Slide95

Slide96

Slide97

Slide98

Slide99

Slide100

Slide101

Slide102

Slide103

Slide104

Slide105

No

Tes

Bhs

Inggris

Tes Akademik1892773 ( C1)984785676 ( C2)77710

5

105