/
Daudzvalodu  audio  ziņu Daudzvalodu  audio  ziņu

Daudzvalodu audio ziņu - PowerPoint Presentation

enteringmalboro
enteringmalboro . @enteringmalboro
Follow
342 views
Uploaded On 2020-10-22

Daudzvalodu audio ziņu - PPT Presentation

sižetu klasterēšana Clustering of multilingual broadcast news Autors  Roberts Darģis Darba vadītājs Dr Dat Guntis Bārzdiņš Prezentācijas struktūra Ievads Iepriekšējā ID: 814653

anas zi

Share:

Link:

Embed:

Download Presentation from below link

Download The PPT/PDF document "Daudzvalodu audio ziņu" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Slide1

Daudzvalodu audio ziņu sižetu klasterēšana Clustering of multilingual broadcast news

Autors: 

Roberts Darģis

Darba vadītājs: Dr. Dat. Guntis Bārzdiņš

Slide2

Prezentācijas struktūraIevadsIepriekšējā

pieredze

Maģistra

darba

Liela

apjoma

datu

kopu

klasterēšanas

algoritmi

rezultāti

Slide3

MotivācijaMūsdienās ziņu aģentūrās (tādās kā LETA, BBC, DW) liels skaits cilvēku ir nodarbināts ziņu monitoringā. Šo cilvēku uzdevums ir klausīties citu valstu ziņu kanālus (teksta, audio un

video),

lai uzzinātu aktuālākos notikumus dažādos reģionos un par tiem varētu savlaicīgi veidot sižetus savos ziņu kanālos.

Slide4

Ziņu klasteriAr klasteri tiek saprasts ziņu kopums no dažādiem ziņu avotiem par vienu konkrētu reālās dzīves notikumu.

Ziņas par Donalda

Trampa

vēlmi tikties ar Kimu

Čenunu

Ziņas par Rīgas domes 2016. gada 18. maija lēmumu tirgot rīdzinieka karti par 775 eiro gadā

Donalds

Tramps

gatavs tikties ar diktatoru Kimu

Čenunu

(

DELFI.LV

)

Tramps

grib runāt ar Ziemeļkorejas diktatoru (

Mixnews.lv

)

Tramps

gatavs runāt ar Ziemeļkorejas diktatoru (

Apollo.lv

)

Rīdzinieka karti varēs pirkt arī Rīgā nedeklarēti iedzīvotāji; maksa – 775 eiro (

Lsm.lv

);

Nerīdzinieki

varēs tikt pie «Rīdzinieka kartes» par €775 gadā (

TVNET.LV

);

Rīdzinieka karte maksās 775 eiro (

DELFI.LV

).

Slide5

Audio ziņu apstrādes processLai audio ziņu monitoringu varētu automatizēt, ir nepieciešams veikt vairākus soļus:

pārveidot audio ierakstu tekstā, veicot runas atpazīšanu;

sadalīt atpazīto tekstu ziņu sižetos;

sagrupēt klasteros līdzīgas ziņas no dažādiem avotiem;

izgūt galvenās tēzes vai atslēgas vārdus ziņu klastera reprezentācijai

.

Slide6

Zinātniskā pieredze IHorizon

2020

projekts

SUMMA –

Scalable

Understanding

of

Multilingual

MediA

.

Projektā iekļautas 9 valodas: latviešu, ukraiņu, persiešu, krievu, portugāļu, spāņu, vācu, angļu, arābu.

Projekta partneri - Edinburgas universitāte,

Priberam

Informatica

, Londonas koledžas universitāte, IDIAP, LETA, BBC, Kataras skaitļošanas pētniecības institūts, Deutsche

Welle

.

Slide7

Zinātniskā pieredze IIERAF projekta „Informācijas un komunikāciju tehnoloģiju kompetences centrs” (projekta

līg

. nr. L-KC-11-0003)

pētījumos:

Nr.2.9

. „Runas korpusa izveide, principi, metodes, realizācija

;

Nr.2.10. „Runas atpazīšanas iespēju izpēte

audiomateriāla

automātiskai transkribēšanai mediju monitoringā

;

Nr.2.12. „Pētījums par runas atpazīšanas sistēmas pielāgošanu zemas kvalitātes audiofailu apstrādei

”.

Slide8

PublikācijasZnotiņš, A., Polis, K., Darģis, R. Media monitoring system for

Latvian

radio

and

TV

broadcasts

.

In

Proceedings

of

the

16th

Annual

Conference

of

the

International

Speech

Communication

Association

(INTERSPEECH 2015).

Darģis, R., Znotiņš, A.

Baseline

for

Keyword

Spotting

in

Latvian

Broadcast

Speech

.

In

Human

Language

Technologies –

The

Baltic

Perspective

.

Proceedings

of

the

Sixth

International

Conference

Baltic

(HLT 2014)

Slide9

Klasterēšanas processDokumentu vektoriālā reprezentācija (raksturiezīmju vektors).Dokumentu attāluma novērtēšana (distance starp vektoriem).Dokumentu klasterēšanas algoritms.Klasterēšanas rezultāta novērtēšana.

Slide10

Dokumentu reprezentācija –Vārdu maiss (Bag-of-words)

Vārdu maisa modelis no pamatformām

Rīgā ir lielas sniega kupenas

Rīgu pārsteidz lielais sniegs

Rīga ir liels sniegs kupena

Rīga pārsteigt liels sniegs

Vārdu skaits dokumentā A

Vārds

Vārdu skaits dokumentā B

1

Ir

0

1

Kupena

0

1

Liels

1

0

pārsteigt

1

1

Rīga

1

1

Sniegs

1

Slide11

Dokumentu reprezentācija –Nosaukto entitāšu atpazīšanaNosauktās entitātes (named

entity

) ir teksta vienības jeb frāzes, kas pieder kādai no iepriekš definētām kategorijām. Visbiežāk izmantotās kategorijas ir personas, organizācijas, lokācijas un laiks.

Darbā tika izmantota

BBC Mango

tematu izgūšanas sistēma, kurā temati ir

Wikipedia

raksti no

DBpedia

zināšanu grafa ar unikālu identifikatoru starp vairākām valodām.

Slide12

Slide13

Slide14

Dokumentu attāluma funkcijasEiklīda attālumsKosinusa līdzībaDžakarda

indekss (

Jaccard

index

)

Tanimoto distance

Bray-Curtis

attālums

Līdzība pēc skalārā reizinājuma

Slide15

Dokumentu attāluma funkcijas – ROC līknes

Slide16

Dokumentu attāluma funkcijas – F1 vērtība

Slide17

Dokumentu attāluma funkcijas – pielāgotais Randa indekss

Slide18

Dokumentu attāluma funkcijas – iegūtais uzlabojums

Slide19

Nākamie soļiPētīt multilingvālu raksturiezīmju vektoru aprēķināšanas metodes uz runas atpazīšanas tekstiem.

Galvenās problēmas:

runas atpazīšanas rezultātā trūkst pieturzīmju un īpašvārdi nesākas ar lielo sākumburtu, kas būtiski ietekmē automātiskas tulkošanas un marķēšanas kvalitāti;

runas atpazīšanas sistēmu precizitāte

mazresursu

valodām var būtiski ietekmē tālākos apstrādes soļus.

Slide20

Paldies!