Tomáš Majer Vedúci Marián Šimko Obsah Mikroblogy Hodnotiace algoritmy Návrh vlastnej metódy Experimenty a dosiahnuté výsledky Zhodnotenie Mikroblog Forma blogu odlišujúca sa dĺžkou príspevku ID: 785182
Download The PPT/PDF document "Využitie mikroblogov na hodnotenie zdro..." is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
Využitie mikroblogov na hodnotenie zdrojov na webe
Tomáš Majer
Vedúci: Marián Šimko
Slide2Obsah
Mikroblogy
Hodnotiace algoritmy
Návrh vlastnej metódy
Experimenty a dosiahnuté výsledky
Zhodnotenie
Slide3Mikroblog
Forma
blogu
odlišujúca sa dĺžkou príspevku
Nemoderované používateľské dáta
Aktuálnosť
Príspevky môžu obsahovať odkazy
Najznámejší Twitter
Slide4Motivácia
Používateľské dáta je možné prepojiť s webovými
stránkami
,
a tak
získať väzbu medzi používateľmi a stránkami
Mo
žné
využiť pre hodnotenie stránok a získať relatívne ohodnotenie stránok
Nezávisl
é
verejné hodnotenie stránok
Veľké množstvo dát – predstavuje potenciálny zdroj informácií
Slide5Špecifiká mikroblogu
Twitter
Dĺžka príspevkov 140 znakov
Hashtags – označenie # (triedenie, vyhľadávanie)
Priame správy – označenie @
user
Nasledovníci
– jednosmerná väzba medzi používateľmi
Znovu pípnutie
–
retweet
Geografické určenie pípnutia
22% obsahuje odkaz (URL)
Slide6Rozloženie pípnutí
Slide7Internet
Základná schéma prispievania
U1
U2
U3
T1
T2
T3
T4
T5
P1
P2
Twitter
Slide8Ohodnocovacie
grafov
é algoritmy
Všeobecné grafové algoritmy
PageRank
HITS
SALSA
Špecifické algoritmy pre Twitter
TwitterRank
TunkRank
TrustRank
Slide9TunkRank
“
PageRank” pre Twitter
Každý používateľ ovplyvňuje ďalších používateľov, ktorí ho nasledujú a čítajú jeho pípnutia
Medzi nasledovníkmi je rovnaká pravdepodobnosť, že si prečítajú pípnutie
používateľa,
ktorého nasledujú.
Hodnotí len používateľov
Viac nasledovníkov s vysokým hodnotením znamená vyšší TunkRank
Gayo-Avello
, D.:
Nepotistic
Relationships
in Twitter and
their
Impact
on
Rank Prestige
Algorithms, Arxiv
preprint, arXiv:1004.0816, (2010), http://arxiv.org/pdf/1004.0816
Slide10TwitterRank
Závislý od obsahu, témy
Problém so škálovaním
Špecifický pre
Twitter
Hodnotí pípnutia
,
podobnosť v téme ovplyvňuje hodnotenie
Weng
, J.,
Lim
, E.P.,
Jiang
, J.,
He
, Q.: TwitterRank:
Finding
Topic-sensitive
Influential Twitterers
, In: Proceedings of
the third
ACM international conference
on Web search and
data mining
, ACM, (2010), pp
. 261-270, http://www.wsdm-conference.org/2010/proceedings/docs/p261.pdf
Slide11Návrh algoritmu TweetRank
Slide12TweetRank
Slide13TweetRank
Ohodnotenie používateľa
/
po
čet
jeho pípnutí. Na ohodnotenie využíva upravený
TunkRank
.
Slide14TweetRank
Ohodnotenie používateľa / počet jeho pípnutí. Na ohodnotenie využíva upravený TunkRank.
Ak ide o znovu
pípnutie,
tak sa zvýši ohodnotenie pípnutia
Slide15Použitá dátová vzorka
Vytvorená spojením dvoch dátových vzoriek
Prvá obsahovala
meta
informácie o používateľoch a ich pípnutiach
Druhá pozostávala z väzieb medzi používateľmi
1 997 446
pípnutí od
367 824
používateľov
1 468 365 182
väzieb medzi
40 103 281
používateľmi
Slide16Rozloženie pípnutí a vypočítaných hodnôt
Slide17Experimenty
Porovnanie s YouTube hodnotením
Vlastná aplikácia pre hodnotenie
Využitie pri vyhľadávaní
Slide18Porovnanie s hodnotením na portáli YouTube
Predpoklad:
predpodkladali
sme podobnosť ohodnotenia videí ľuďmi na portáli YouTube s
TweetRank-om
Medzi hodnoteniami sa nenašla korelácia
YouTube
Zmena hodnotiaceho mechanizmu
Dlhodobé hodnotenie používateľov
Aktuálnosť
Slide19Vlastná aplikácia pre hodnotenie
Predpoklad:
Hodnotenie používateľov bude v korelácií s
TweetRank-om
Navrhnutá a implementovaná vlastná aplikácia pre ohodnocovanie videí
Zozbieraných
680 hodnotení
70 používateľov
Slide20Porovnanie výsledkov 1/2
Slide21Porovnanie výsledkov 2/2
Korelačný koeficient:
=
0,387
Kendallov
koeficient
:
τ
=
-0
,
12519
Slide22Využitie TweetRank-u
pre zoradenie výsledkov vyhľadávania
Predpoklad:
Usporiadanie výsledkov vyhľadávania podľa
TweetRank-u
bude preferovať aktuálne informácie
Experiment s vyhľadávaním nad 20 000 stránkami
Naindexované
pomocou
vyhľadávacieho
nástroja SOLR
Overenie nad testovacími hľadanými výrazmi
Radenie pomocou interného skóre priradeného vyhľadávačom a porovnanie s radením podľa
TweetRank-u
Slide23Výsledky vyhľadávania
Obe zoradenia dávali iné výsledky
Vyhľadávanie slova „
apple
“
Kendal
l
ov
koeficient
:
τ
=
0
,
07312
#
Podľa SOLRPodľa TweetRank-u
1
iPhone 4 Available in China
on September 25Adobe's
Premiere Elements
now available
for Mac2
Bad Apple!! (HQ,
Download, English
subtitles) - Twitter Youtube
Video
iPhone 4 Available in
China on September 25
3Apple
Pushing the Art
of iPhontography
VLC
for iPad
is finally
out on the
App Store
for
free
.
It
can
play
all
manner
of
video
codecs
, and so
far
,
people
seem
to
like
it
.
Slide24Zhodnotenie
Analyzovali sme
mikroblog
Twitter
Navrhli sme
unikátnu
metódu pre ohodnocovanie zdrojov na webe pomocou
mikroblogu
Vychádza z
autority
používateľov na
mikroblogu
a využíva aj špecifické vlastnosti
mikroblogu
ako je znovu-pípnutie
Slide25Zhodnotenie
Experimentom sme ukázali koreláciu medzi ohodnotením videí používateľmi a navrhnutej metódy
Vhodná metóda pre zistenie používateľských názorov a aj pri usporiadaní výsledkov vyhľadávania
Rozširuje súčasné metódy založené na textovej analýze