/
Realizzazion Realizzazion

Realizzazion - PowerPoint Presentation

aaron
aaron . @aaron
Follow
374 views
Uploaded On 2018-01-09

Realizzazion - PPT Presentation

e di un motore di ricerca semantico basato sul contesto Tesi di laurea in Informatica Università degli studi di Modena e Reggio Emilia Dipartimento di Scienze Fisiche Matematiche e Informatiche ID: 622000

termini ranking del sito ranking termini sito del iptc ricerca pagine profilo similarit

Share:

Link:

Embed:

Download Presentation from below link

Download Presentation The PPT/PDF document "Realizzazion" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Slide1

Realizzazione di un motore di ricerca semantico basato sul contesto

Tesi di laurea in Informatica

Università degli studi di Modena e Reggio EmiliaDipartimento di Scienze Fisiche, Matematiche e Informatiche

Anno Accademico 2013/2014

Relatore:Ing. Riccardo Martoglia

Laureando:

Marco Valerio ManziniSlide2

AMBIT  “Algorithms and Models for Building

context-dependent Information delivery Tools

”Obiettivi : Studiare e Sviluppare un’architettura software prototipale:Fornire servizi personalizzati ad utenti in base al contestoSoddisfare l’User

Information NeedIl Progetto AMBITSlide3

Ideare tecniche di ricerca per :Trovare il ranking ottimale delle pagine del sito di e-commerce, in linea con il contesto dell’utente

Obiettivo della tesiSlide4

Scenario del motore di ricerca

Profilo dell’utente

Sito di e-commerce

PAGINE CONSIGLIATE

RICHIESTA

Cronologia

ProdottiSlide5

Progettazione e Implementazione

Prove sperimentali e Risultati

Conclusione e Sviluppi FuturiRealizzazione di un motore di ricerca semantico basato sul contestoSlide6

Tipi di pagine web

COGITO

Espressioni regolariSlide7

Estrazione dei termini dal testo

Termini rilevanti

Libreria

PythonClassi IPTC*

ENTITIES

DOMAINS

MAINLEMMAS

Espressioni regolari

*Internation

Press

Telecomunication

Council

http://cv.iptc.org/newscodes/mediatopicSlide8

Generazione dei glossari dei terminiTermini rilevanti

Termini rilevanti

Termini rilevanti

EntitiesDomainsMainlemmas

Termini rilevantiEntitiesDomains

Mainlemmas

Glossario

Profilo

Glossario

Pagine sito

Glossario

Pagine sito

Glossario

Profilo

Array

Termine,

TF

Dict

Termine :

IDF

StrutturaSlide9

Generazione degli Inverted Index

GlossarioPagine sito

GlossarioPagine sito

Dict  Termine : DocumentiDict  Termine : TFDict  Termine : SinonimiDict  Termine : Correlati

Inverted

Index

Inverted

Index

StrutturaSlide10

Scelta cruciale  Numero di termini sinonimi e contrariPer una misura di similarità e un ranking

correttoVincoli tramite WordNet:

SINONIMI  Tutti quelli che hanno un numero di significati uguale a 1.CORRELATI  Tutti quelli ad una distanza minore o uguale a 2 sull’albero degli iponimi e degli iperonimi.Scelta del numero di sinonimi e correlatiSlide11

Similarità - Modello Vettoriale Esteso *

PC, 3

Computer, 2Mouse, 1Keyboard, 1Vettore profilo 

TV, 3Computer, 2

Television, 3

Screen

, 2

PC, 3

Mouse, 2

Vettore pagina

Sinonimo

Sinonimo

Correlato

Correlato

Score

=(3*3*1) + (2*2*1) + (1*2*0,7) + 0 = 14,4

PC

Computer

Mouse

Keyboard

* Sonia

Bergamaschi, Riccardo Martoglia, and Serena Sorrentino.

A

semantic

method

for searching knowledge in a software

development context

.

In

SEBD

,

pages

115–122, 2012.Slide12

Similarità costruite:Con solo i termini uguali

 TF-IDF puro  BASELINE

Con termini uguali, sinonimi e correlatiCon solo i termini uguali e sinonimiSimilarità - Modello Vettoriale EstesoSlide13

Similarità - Classi IPTCIPTC/Televisione , 600

IPTC/Cinema , 300

IPTC/Televisione , 200IPTC/Intrattenimento/Musica , 500Classi del profiloClassi di una pagina del sito di e-commerce

Score

=

(600*1)

+

(0,52)

+

(0,70)

+ (0,52) = 601,74

1

2

3

3

-

log

10

(distanza/2*H)Slide14

Passo preliminare  normalizzare score

Somma dei singoli score

Ogni singolo score diviso per la somma precedenteRanking Fusion – Normalizzare scoreSlide15

Ranking Fusion – Algoritmo pesato WE *

len(i)+1  lunghezza dell’i-esimo rankinge(i)  posizione dell’elemento all’interno del rankingr(i)  punteggio dell’elemento nell’ i-esimo ranking

n  ranking che includono l’elementom  ranking coinvolti nel fusionk  numero totale di oggetti all’interno del ranking max(len(r))  lunghezza massima tra i ranking da fondereRisultato  ranking influenzato dalle posizioni [len(i)+1 – e(i)] e dai pesi degli elementi

r(i) .* Leonidas Akritidis, Dimitrios Katsaros, and Panayiotis

Bozanis. Effective ranking fusion methods for personalized metasearch

engines.

In Informatics,

2008

. PCI’08.

Panhellenic

Conference

on,

pages

39–43. IEEE, 2008.Slide16

Progettazione e Implementazione

Prove sperimentali e Risultati

Conclusione e Sviluppi FuturiRealizzazione di un motore di ricerca semantico basato sul contestoSlide17

Sito di e-commerce12 pagine web da amazon.com :3 Televisori (TV1, TV2, TV3)3 Videogiochi(GAME1, GAME2, GAME3)3 Libri (BOOK1, BOOK2, BOOK3)

3 Cellulari (CELL1, CELL2, CELL3)Set di datiSlide18

Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 1

alla ricerca di una TV

1 – TV22 – TV13 – GAME34 – BOOK15 – GAME16 – CELL17 – TV38 – BOOK39 . CELL310 – BOOK211 – GAME2

12 – CELL2Slide19

Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 2 interessato ai prodotti Sony

1 – GAME3

2 – GAME23 – GAME14 – BOOK35 – CELL36 – CELL27 – TV18 – BOOK29 – BOOK110 – TV311 – CELL112 – TV2Slide20

Progettazione e Implementazione

Prove sperimentali e Risultati

Conclusione e Sviluppi FuturiRealizzazione di un motore di ricerca semantico basato sul contestoSlide21

Motore di ricerca semantico basato sul contesto : Conclusioni

Algoritmo di similarità

basato sul modello spazio vettoriale estesoAlgoritmo di similarità basato sulle classi IPTCRanking FusionSpecifico

GeneraleOttimaleSlide22

Ampliamento del set di dati e prove sperimentaliParallelizzazione della creazione di glossari e inverted

indexUso di altri contesti ( GPS,

Facebook, ecc…)Introduzioni di tecniche di Word Sense Disambiguation (WSD)Sviluppi FuturiSlide23

Grazie a tutti per l’attenzione

Related Contents


Next Show more