e di un motore di ricerca semantico basato sul contesto Tesi di laurea in Informatica Università degli studi di Modena e Reggio Emilia Dipartimento di Scienze Fisiche Matematiche e Informatiche ID: 622000
Download Presentation The PPT/PDF document "Realizzazion" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
Realizzazione di un motore di ricerca semantico basato sul contesto
Tesi di laurea in Informatica
Università degli studi di Modena e Reggio EmiliaDipartimento di Scienze Fisiche, Matematiche e Informatiche
Anno Accademico 2013/2014
Relatore:Ing. Riccardo Martoglia
Laureando:
Marco Valerio ManziniSlide2
AMBIT “Algorithms and Models for Building
context-dependent Information delivery Tools
”Obiettivi : Studiare e Sviluppare un’architettura software prototipale:Fornire servizi personalizzati ad utenti in base al contestoSoddisfare l’User
Information NeedIl Progetto AMBITSlide3
Ideare tecniche di ricerca per :Trovare il ranking ottimale delle pagine del sito di e-commerce, in linea con il contesto dell’utente
Obiettivo della tesiSlide4
Scenario del motore di ricerca
Profilo dell’utente
Sito di e-commerce
PAGINE CONSIGLIATE
RICHIESTA
Cronologia
ProdottiSlide5
Progettazione e Implementazione
Prove sperimentali e Risultati
Conclusione e Sviluppi FuturiRealizzazione di un motore di ricerca semantico basato sul contestoSlide6
Tipi di pagine web
COGITO
Espressioni regolariSlide7
Estrazione dei termini dal testo
Termini rilevanti
Libreria
PythonClassi IPTC*
ENTITIES
DOMAINS
MAINLEMMAS
Espressioni regolari
*Internation
Press
Telecomunication
Council
http://cv.iptc.org/newscodes/mediatopicSlide8
Generazione dei glossari dei terminiTermini rilevanti
Termini rilevanti
Termini rilevanti
EntitiesDomainsMainlemmas
Termini rilevantiEntitiesDomains
Mainlemmas
Glossario
Profilo
Glossario
Pagine sito
Glossario
Pagine sito
Glossario
Profilo
Array
Termine,
TF
Dict
Termine :
IDF
StrutturaSlide9
Generazione degli Inverted Index
GlossarioPagine sito
GlossarioPagine sito
Dict Termine : DocumentiDict Termine : TFDict Termine : SinonimiDict Termine : Correlati
Inverted
Index
Inverted
Index
StrutturaSlide10
Scelta cruciale Numero di termini sinonimi e contrariPer una misura di similarità e un ranking
correttoVincoli tramite WordNet:
SINONIMI Tutti quelli che hanno un numero di significati uguale a 1.CORRELATI Tutti quelli ad una distanza minore o uguale a 2 sull’albero degli iponimi e degli iperonimi.Scelta del numero di sinonimi e correlatiSlide11
Similarità - Modello Vettoriale Esteso *
PC, 3
Computer, 2Mouse, 1Keyboard, 1Vettore profilo
TV, 3Computer, 2
Television, 3
Screen
, 2
PC, 3
Mouse, 2
Vettore pagina
Sinonimo
Sinonimo
Correlato
Correlato
Score
=(3*3*1) + (2*2*1) + (1*2*0,7) + 0 = 14,4
PC
Computer
Mouse
Keyboard
* Sonia
Bergamaschi, Riccardo Martoglia, and Serena Sorrentino.
A
semantic
method
for searching knowledge in a software
development context
.
In
SEBD
,
pages
115–122, 2012.Slide12
Similarità costruite:Con solo i termini uguali
TF-IDF puro BASELINE
Con termini uguali, sinonimi e correlatiCon solo i termini uguali e sinonimiSimilarità - Modello Vettoriale EstesoSlide13
Similarità - Classi IPTCIPTC/Televisione , 600
IPTC/Cinema , 300
IPTC/Televisione , 200IPTC/Intrattenimento/Musica , 500Classi del profiloClassi di una pagina del sito di e-commerce
Score
=
(600*1)
+
(0,52)
+
(0,70)
+ (0,52) = 601,74
1
2
3
3
-
log
10
(distanza/2*H)Slide14
Passo preliminare normalizzare score
Somma dei singoli score
Ogni singolo score diviso per la somma precedenteRanking Fusion – Normalizzare scoreSlide15
Ranking Fusion – Algoritmo pesato WE *
len(i)+1 lunghezza dell’i-esimo rankinge(i) posizione dell’elemento all’interno del rankingr(i) punteggio dell’elemento nell’ i-esimo ranking
n ranking che includono l’elementom ranking coinvolti nel fusionk numero totale di oggetti all’interno del ranking max(len(r)) lunghezza massima tra i ranking da fondereRisultato ranking influenzato dalle posizioni [len(i)+1 – e(i)] e dai pesi degli elementi
r(i) .* Leonidas Akritidis, Dimitrios Katsaros, and Panayiotis
Bozanis. Effective ranking fusion methods for personalized metasearch
engines.
In Informatics,
2008
. PCI’08.
Panhellenic
Conference
on,
pages
39–43. IEEE, 2008.Slide16
Progettazione e Implementazione
Prove sperimentali e Risultati
Conclusione e Sviluppi FuturiRealizzazione di un motore di ricerca semantico basato sul contestoSlide17
Sito di e-commerce12 pagine web da amazon.com :3 Televisori (TV1, TV2, TV3)3 Videogiochi(GAME1, GAME2, GAME3)3 Libri (BOOK1, BOOK2, BOOK3)
3 Cellulari (CELL1, CELL2, CELL3)Set di datiSlide18
Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 1
alla ricerca di una TV
1 – TV22 – TV13 – GAME34 – BOOK15 – GAME16 – CELL17 – TV38 – BOOK39 . CELL310 – BOOK211 – GAME2
12 – CELL2Slide19
Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 2 interessato ai prodotti Sony
1 – GAME3
2 – GAME23 – GAME14 – BOOK35 – CELL36 – CELL27 – TV18 – BOOK29 – BOOK110 – TV311 – CELL112 – TV2Slide20
Progettazione e Implementazione
Prove sperimentali e Risultati
Conclusione e Sviluppi FuturiRealizzazione di un motore di ricerca semantico basato sul contestoSlide21
Motore di ricerca semantico basato sul contesto : Conclusioni
Algoritmo di similarità
basato sul modello spazio vettoriale estesoAlgoritmo di similarità basato sulle classi IPTCRanking FusionSpecifico
GeneraleOttimaleSlide22
Ampliamento del set di dati e prove sperimentaliParallelizzazione della creazione di glossari e inverted
indexUso di altri contesti ( GPS,
Facebook, ecc…)Introduzioni di tecniche di Word Sense Disambiguation (WSD)Sviluppi FuturiSlide23
Grazie a tutti per l’attenzione