Oleh Rahmat Robi Waliyansyah MKom Curriculum vitae Nama Rahmat Robi Waliyansyah MKom TTL Jambi 25 Oktober 1988 Agama Islam Status Menikah Alamat Jl Sawah Besar XI No05 RT02 RW06 Kel Kaligawe Kec Gayamsari Kota ID: 713896
Download Presentation The PPT/PDF document "SISTEM TEMU KEMBALI INFORMASI" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
SISTEM TEMU KEMBALI INFORMASI
Oleh : Rahmat Robi Waliyansyah, M.Kom.Slide2
Curriculum vitae
Nama : Rahmat Robi Waliyansyah, M.Kom.
TTL : Jambi, 25 Oktober 1988
Agama : Islam
Status : Menikah
Alamat : Jl. Sawah Besar XI No.05 RT.02 RW.06 Kel. Kaligawe Kec. Gayamsari, Kota
Semarang 50164
E-Mail :
rahmat.robi.waliyansyah@gmail.com
Phone : +6285377479974 (WA)
Pendidikan :
S1 = Universitas Putra Indonesia-YPTK, Padang
S2 = Universitas Diponegoro, SemarangSlide3
KONTRAK PERKULIAHAN
Nama Matakuliah
: Sistem
Temu Kembali Informasi
Beban Kredit
: 2 SKS
Semester
: Gasal / V, 2017/2018Slide4
Manfaat Matakuliah
Matakuliah ini akan memberi manfaat bagi mahasiswa dalam menerapkan konsep temu kembali informasi untuk membuat sistem aplikasi temu kembali informasi teks.
Slide5
Deskripsi Perkuliahan
Matakuliah ini menjelaskan pengantar temu kembali informasi, dasar-dasar temu kembali informasi: pemodelan, evaluasi, query, operasi teks dan multimedia, indexing and searching. Topik dalam temu kembali informasi: relevance feedback, query expansion, text classification, text clustering, summarization, cross-language, question answering, web search.
Slide6
Tujuan
Setelah mengikuti matakuliah ini, mahasiswa diharapkan mampu menjelaskan konsep dalam temu kembali informasi, serta menerapkannya untuk membuat sistem aplikasi temu kembali informasi teks.
Slide7
Strategi Perkuliahan
Kuliah diberikan kepada mahasiswa S1 Informatika UPGRIS yang mengambil matakuliah ini sebagai pilihan. Perkuliahan dilakukan sebanyak 14 kali pertemuan kuliah tatap muka. Metode perkuliahan adalah kombinasi antara ceramah, diskusi, dan diakhiri dengan presentasi proyek akhir.
Mahasiswa wajib mengikuti perkuliahan minimal 80 persen, dan presentasi proyek akhir 100 persen. Mahasiswa pengulang matakuliah Temu Kembali Informasi diwajibkan mengikuti keseluruhan kegiatan kuliah dan presentasi proyek akhir selama satu semester.
Slide8
Tugas
Tugas terdiri dari dua jenis, yaitu
tugas perorangan
yang harus diselesaikan oleh mahasiswa pada waktu tertentu, dan
tugas kelompok
dalam bentuk proyek akhir yang merupakan tugas pemrograman, dan setiap kelompok terdiri atas beberapa orang. Topik yang dipilih adalah bebas, dengan syarat tidak ada yang sama di antara kelompok. Produk yang dihasilkan oleh setiap kelompok berupa program komputer, laporan hasil kajian sesuai dengan topik yang dipilih, dan slide presentasi. Slide9
Referensi
Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze . 2008. Introduction to Information Retrieval. Cambridge University Press.
C. J. van Rijsbergen. Information Retrieval. Information Retrieval Group, University of Glasgow.
Richardo Baeza-Yates and Berthier Rieiro-Neto. Modern Information Retrieval.
PERL Programming.
Henk Blanken, et.al. 2007. Multimedia Retrieval.
Text Summarization. Tutorial ACM SIGIR, Sheffield, UK July 25, 2004.
TREC. Question Anwsering System and Cross Language Informastion Retrieval.
Slide10
Kriteria Penilaian
Nilai akhir (NA) adalah nilai kumulatif dari nilai ujian tengah semester (UTS), ujian akhir semester (UAS), tugas perorangan (TP), dan tugas kelompok atau proyek akhir (PA). Metode dan bobot nilai sebagai berikut:
UTS (1-7) dan UAS (9-15) dilakukan melalui ujian tertulis dengan bobot masing-masing 35%. Kisi-kisi ujian akan disampaikan pada pertemuan ke-7 untuk UTS, dan pada pertemuan ke-15 untuk UAS.
Nilai TP adalah rata-rata dari semua tugas yang diberikan, dan diberi bobot 10%
Nilai PA terdiri dari nilai produk proyek (program komputer, laporan) dan presentasi. Bobot nilai PA adalah 20%.
Slide11
Jadwal Kuliah
Kuliah dilaksanakan pada
setiap
hari
Senin
pukul
13
:00-
14
:
4
0
di Ruang GP. 608Slide12
OUTLINE
Pendahuluan
Aplikasi pemrosesan teks
Inverted index
Model IR
Evaluasi IR
Relevance
Feedback and
Query
Expansion
Probabilistic IR
UTSSlide13
OUTLINE
Text Classification
Clustering
Text Summarization
XML Retrieval
Multimedia Information Retrieval System (MIRS)
Question
Answering
System and
CLIR
Web Search
UASSlide14
Database vs IR
DATABASE
IR
Data pada database terstruktur (
memiliki
table, field, record, entity
, dll.)
IR tidak terstruktur
File pada database clear semantic (satu kesatuan, menyeluruh)
IR tidak ada field
Query pada database dapat dijelaskan (contoh: SQL)
IR merupakan teks bebas seperti bahasa alami, bahasa manusia sehari-hari
Ukuran kesamaannya pada database pasti
IR butuh ukuran keefektifan tertentu, partial (diambil ukuran kesamaan terbaik)
Model pada database deterministic (bisa ditentukan)
IR non deterministicSlide15
Boolean Retrieval
Boolean Retrieval Model (BRM) adalah salah satu contoh Information Retrieval yang merupakan model proses pencarian informasi dari query yang menggunakan ekspresi boolean.
Dengan ekspresi boolean dengan menggunakan operator logika AND, OR dan NOT. Sedangkan dalam menentukan hasil perhitungannya hanya berupa nilai binary (1 atau 0).
Dengan hal itu, Boolean Retrieval Model (BRM) yang ada hanya dokumen relevan atau tidak sama sekali. Sehingga keunggulan dari Boolean Retrieval Model (BRM) tidak menghasilkan dokumen yang mirip.Slide16
Logical AND
Untuk menelusur marketing and library, kita memformulasikan pernyataan dengan
marketing
AND
library
. Dengan query tersebut maka kita akan menemukan dokumen yang mengandung unsur marketing dan perpustakaan saja, dan tidak mendapatkan dokumen yang hanya mengandung unsur marketing atau perpustakaan saja.Slide17
Logical OR
Contoh
marketing
OR
library
. Dengan query tersebut maka kita akan mendapatkan dokumen yang mengandung unsur marketing saja, perpustakaan saja atau yang mengandung unsur marketing dan perpustakaan.Slide18
Logical NOT
Contoh
markeing
NOT
library
. Ini artinya kita hanya menginginkan dokumen yang unsur marketing di dalamnya tidak ada unsur perpustakaannya.Slide19
Kombinasi Logical AND, OR, NOT
Contoh
marketing
AND
library
OR
information
centre
NOT
profit
organization. Artinya kita ingin mendapatkan dokumen yang mengandung unsur marketing dan perpustakaan tanpa unsur pusat informasi bukan untuk organisasi non profit.Slide20
pengertian dari TEKS
Ungkapan bahasa yang menurut isi, sintaks, dan pragmantik merupakan satu kesatuan.
Dokumen yang dapat dibaca oleh mesin.Slide21
Pengertian dari Korpus
Kumpulan dari beberapa file / dokumen yang dapat diolah oleh mesin.
Teks alami yang dipilih dengan cara tertentu.Slide22
Tokenisasi
Tokenisasi adalah suatu tahapan pemrosesan dimana teks input dibagi menjadi unit-unit kecil yang disebut token, yang dapat berupa suatu kata, suatu angka, atau suatu tanda baca.
Kemudian, untuk contoh dokumen teks adalah:
Korpus pada sebuah teks yang terdapat pada sebuah file. Misalnya yang berformat XML.
Kumpulan file / dokumen pada facebook.
Kumpulan
artikel
pada digital
library
.Slide23
Karakteristik Dokumen
A corpus of documents
: Setiap sistem harus memutuskan dokumen yang ada akan diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman, atau teks multipage.
Queries posed in a query language
. Sebuah query menjelaskan tentang apa yang user ingin peroleh. Query language dapat berupa list dari kata-kata, atau bisa juga menspesifikasikan sebuah frase dari kata-kata yang harus berdekatan.
A result set
. Ini adalah bagian dari dokumen yang dinilai oleh sistem IR sebagai yang relevan dengan query.
A presentation of the result set
. Maksud dari bagian ini adalah tampilan list judul dokumen yang sudah di ranking.Slide24
Contoh Proses dari pemrosesan TeksSlide25
Pengolahan teks mencakup :
Information Extraction
: Mengekstrak informasi yang dianggap penting dari suatu dokumen. Misalnya pada dokumen lowongan, walaupun memiliki format beragam dapat diekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb.
Text Summarization
: Menghasilkan ringkasan suatu dokumen secara otomatis.
Data Mining
: proses identifikasi valid, yang berpotensi berguna, dan pada akhirnya dapat dipahami pola data yang tersimpan dalam database yang terstruktur, dimana data diorganisir dalam catatan terstruktur dengan kategori, ordinal, atau variabel yang terus menerus.
Text Mining
(biasa dikenal juga dengan text data mining atau penemuan pengetahuan) dalam database tekstual adalah semi-otomatis proses ekstraksi pola (informasi yang berguna dan pengetahuan) dari sumber data yang tidak terstruktur dalam jumlah yang besar.Slide26
Pengolahan teks mencakup :
Information retrieval
: pencarian dokumen (contoh google: search engine).
Document Clustering
: mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan berita tentang kriminal karena didalamnya banyak memuat tentang orang yang tewas, cedera, rumah sakit dsb.