sižetu klasterēšana Clustering of multilingual broadcast news Autors Roberts Darģis Darba vadītājs Dr Dat Guntis Bārzdiņš Prezentācijas struktūra Ievads Iepriekšējā ID: 814653
Download The PPT/PDF document "Daudzvalodu audio ziņu" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
Daudzvalodu audio ziņu sižetu klasterēšana Clustering of multilingual broadcast news
Autors:
Roberts Darģis
Darba vadītājs: Dr. Dat. Guntis Bārzdiņš
Slide2Prezentācijas struktūraIevadsIepriekšējā
pieredze
Maģistra
darba
“
Liela
apjoma
datu
kopu
klasterēšanas
algoritmi
”
rezultāti
Slide3MotivācijaMūsdienās ziņu aģentūrās (tādās kā LETA, BBC, DW) liels skaits cilvēku ir nodarbināts ziņu monitoringā. Šo cilvēku uzdevums ir klausīties citu valstu ziņu kanālus (teksta, audio un
video),
lai uzzinātu aktuālākos notikumus dažādos reģionos un par tiem varētu savlaicīgi veidot sižetus savos ziņu kanālos.
Slide4Ziņu klasteriAr klasteri tiek saprasts ziņu kopums no dažādiem ziņu avotiem par vienu konkrētu reālās dzīves notikumu.
Ziņas par Donalda
Trampa
vēlmi tikties ar Kimu
Čenunu
Ziņas par Rīgas domes 2016. gada 18. maija lēmumu tirgot rīdzinieka karti par 775 eiro gadā
Donalds
Tramps
gatavs tikties ar diktatoru Kimu
Čenunu
(
DELFI.LV
)
Tramps
grib runāt ar Ziemeļkorejas diktatoru (
Mixnews.lv
)
Tramps
gatavs runāt ar Ziemeļkorejas diktatoru (
Apollo.lv
)
Rīdzinieka karti varēs pirkt arī Rīgā nedeklarēti iedzīvotāji; maksa – 775 eiro (
Lsm.lv
);
Nerīdzinieki
varēs tikt pie «Rīdzinieka kartes» par €775 gadā (
TVNET.LV
);
Rīdzinieka karte maksās 775 eiro (
DELFI.LV
).
Slide5Audio ziņu apstrādes processLai audio ziņu monitoringu varētu automatizēt, ir nepieciešams veikt vairākus soļus:
pārveidot audio ierakstu tekstā, veicot runas atpazīšanu;
sadalīt atpazīto tekstu ziņu sižetos;
sagrupēt klasteros līdzīgas ziņas no dažādiem avotiem;
izgūt galvenās tēzes vai atslēgas vārdus ziņu klastera reprezentācijai
.
Slide6Zinātniskā pieredze IHorizon
2020
projekts
SUMMA –
Scalable
Understanding
of
Multilingual
MediA
.
Projektā iekļautas 9 valodas: latviešu, ukraiņu, persiešu, krievu, portugāļu, spāņu, vācu, angļu, arābu.
Projekta partneri - Edinburgas universitāte,
Priberam
Informatica
, Londonas koledžas universitāte, IDIAP, LETA, BBC, Kataras skaitļošanas pētniecības institūts, Deutsche
Welle
.
Slide7Zinātniskā pieredze IIERAF projekta „Informācijas un komunikāciju tehnoloģiju kompetences centrs” (projekta
līg
. nr. L-KC-11-0003)
pētījumos:
Nr.2.9
. „Runas korpusa izveide, principi, metodes, realizācija
”
;
Nr.2.10. „Runas atpazīšanas iespēju izpēte
audiomateriāla
automātiskai transkribēšanai mediju monitoringā
”
;
Nr.2.12. „Pētījums par runas atpazīšanas sistēmas pielāgošanu zemas kvalitātes audiofailu apstrādei
”.
PublikācijasZnotiņš, A., Polis, K., Darģis, R. Media monitoring system for
Latvian
radio
and
TV
broadcasts
.
In
Proceedings
of
the
16th
Annual
Conference
of
the
International
Speech
Communication
Association
(INTERSPEECH 2015).
Darģis, R., Znotiņš, A.
Baseline
for
Keyword
Spotting
in
Latvian
Broadcast
Speech
.
In
Human
Language
Technologies –
The
Baltic
Perspective
.
Proceedings
of
the
Sixth
International
Conference
Baltic
(HLT 2014)
Klasterēšanas processDokumentu vektoriālā reprezentācija (raksturiezīmju vektors).Dokumentu attāluma novērtēšana (distance starp vektoriem).Dokumentu klasterēšanas algoritms.Klasterēšanas rezultāta novērtēšana.
Slide10Dokumentu reprezentācija –Vārdu maiss (Bag-of-words)
Vārdu maisa modelis no pamatformām
Rīgā ir lielas sniega kupenas
Rīgu pārsteidz lielais sniegs
Rīga ir liels sniegs kupena
Rīga pārsteigt liels sniegs
Vārdu skaits dokumentā A
Vārds
Vārdu skaits dokumentā B
1
Ir
0
1
Kupena
0
1
Liels
1
0
pārsteigt
1
1
Rīga
1
1
Sniegs
1
Slide11Dokumentu reprezentācija –Nosaukto entitāšu atpazīšanaNosauktās entitātes (named
entity
) ir teksta vienības jeb frāzes, kas pieder kādai no iepriekš definētām kategorijām. Visbiežāk izmantotās kategorijas ir personas, organizācijas, lokācijas un laiks.
Darbā tika izmantota
BBC Mango
tematu izgūšanas sistēma, kurā temati ir
Wikipedia
raksti no
DBpedia
zināšanu grafa ar unikālu identifikatoru starp vairākām valodām.
Slide12Slide13Slide14Dokumentu attāluma funkcijasEiklīda attālumsKosinusa līdzībaDžakarda
indekss (
Jaccard
index
)
Tanimoto distance
Bray-Curtis
attālums
Līdzība pēc skalārā reizinājuma
Slide15Dokumentu attāluma funkcijas – ROC līknes
Slide16Dokumentu attāluma funkcijas – F1 vērtība
Slide17Dokumentu attāluma funkcijas – pielāgotais Randa indekss
Slide18Dokumentu attāluma funkcijas – iegūtais uzlabojums
Slide19Nākamie soļiPētīt multilingvālu raksturiezīmju vektoru aprēķināšanas metodes uz runas atpazīšanas tekstiem.
Galvenās problēmas:
runas atpazīšanas rezultātā trūkst pieturzīmju un īpašvārdi nesākas ar lielo sākumburtu, kas būtiski ietekmē automātiskas tulkošanas un marķēšanas kvalitāti;
runas atpazīšanas sistēmu precizitāte
mazresursu
valodām var būtiski ietekmē tālākos apstrādes soļus.
Slide20Paldies!