/
Obrada prirodnih jezika – Obrada prirodnih jezika –

Obrada prirodnih jezika – - PowerPoint Presentation

mitsue-stanley
mitsue-stanley . @mitsue-stanley
Follow
357 views
Uploaded On 2019-11-20

Obrada prirodnih jezika – - PPT Presentation

Obrada prirodnih jezika zadaci problemi metode Cvetana Krstev Pregled izlaganja Odnos Obrade prirodnih jezika prema drugim naukama oblastima i disciplinama Šta se podrazumeva pod Obradom prirodnih jezika ID: 765749

ili re

Share:

Link:

Embed:

Download Presentation from below link

Download Presentation The PPT/PDF document "Obrada prirodnih jezika –" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Obrada prirodnih jezika –zadaci, problemi, metode Cvetana Krstev

Pregled izlaganja Odnos Obrade prirodnih jezika prema drugim naukama, oblastima i disciplinama; Šta se podrazumeva pod Obradom prirodnih jezika (nivoi obrade)?Izazovi u obradi prirodnih jezikaOsnovni lingvistički alatiOsnovne metode u obradi prirodnih jezika 2 /94

Odnos obrade prirodnih jezika prema drugim naukama, oblastima i disciplinama 1 3 /94

Šta je NLP – Natural Language Processing? Termin NLP - Natural Language Processing, odnosno obrada prirodnih jezika se obično koristi da označi funkcije hardverskih ili softverskih komponenata u računarskom sistemu koje analiziraju ili sintetizuju govorni ili pisani jezik. Atribut ‘prirodni’ treba da ukaže da se radi o jeziku kojim ljudi komuniciraju u uobičajenom smislu, a ne o formalnim jezicima, kakv i su jezi ci matematičkih izraza ili kakvi su programski jezici. 4 /94

Šta o NLP (i IR) kaže Vikipedija Natural Language ProcessingNatural language processing is a field of computer science, artificial intelligence, and computational linguistics concerned with the interactions between computers and human (natural) languages. As such, NLP is related to the area of human–computer interaction. Many challenges in NLP involve: natural language understanding, enabling computers to derive meaning from human or natural language input; and others involve natural language generation . Information retrieval Information retrieval (IR) is the activity of obtaining information resources relevant to an information need from a collection of information resources. Searches can be based on full-text or other content-based indexing . 5 /94

Šta o NLP (i IR) kažu stručnjaci Natural Language ProcessingThe term ‘Natural Language Processing’ (NLP) is normally used to describe the function of software or hardware components in computer system which analyze o r synthesize spoken or written language. ‘Natural Language Understanding’ is associated with more ambitious goal of having a computer system actually comprehend natural language as a human being might.P. Jackson and I. Moulinier, „Natural Language Processing for Online Applications – Text retrieval, Extraction and Categorization, John Benjamins Publishing Co., 2007 Information Retrieval As an academic field of study, Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collection (usually stored on computers). C. D. Manning, P. Raghavan , H. Schutze , “Introduction to Information Retrieval”, Cambridge University Press, 2008 6 /94

Šta o NLP (i IR) kaže ACM klasifikacija Computing methodologiesArtificial Intelligence Natural Language Processing Information extraction , Machine translation, Discourse, Dialogue and pragmatics, Natural language generation, Speech recognition, Lexical semantics, Phonology / morphology, Language resources Information systems Information retrieval Document representation, Information retrieval query processing, Users and interactive retrieval, Retrieval models and ranking ( Language models ), Retrieval tasks and goals ( Information extraction), Evaluation of retrieval results, Search engine architectures and scalability, Specialized information retrieval 7 /94

Šta je NLU – Natural Language Understanding? Predmet oblasti NLU - Natural Language Understanding, odnosno razumevanje prirodnih jezika je ambiciozniji jer se od sistema koji podržavaju NLU očekuje da ‘razumeju’ prirodni jezik na sličan način kao ljudi.Za polje IR – Information Retrieval , odnosno Pronalaženje informacija – funkcije NLU nisu od tolikog interesa kao funkcije NLP. 8 /94

Zadaci koji uključuju NLP Na vebu se obrada jezika i dalje prvenstveno koristi za pronalaženje dokumenata za koje se pretpostavlja da su releventni za korisnikov upit – ili koji odgovaraju korisnikovim potrebama - veza između korisnikovih potreba i upita nije direktna. Ovaj zadatak se može obaviti bez upotrebe preterano naprednih NLP metoda, kao što i rade mašine za pretragu, ali je trend poslednjih godina da se u ovu oblast uvedu naprednije metode, radi povećanja i odziva i preciznosti – i jedno i drugo je veoma bitno u svetlu eksponenecijalnog rasta informacija na vebu. 9 /94

Zadaci koji uključuju NLP/2 S pronalaženjem dokumenata je povezan zadatak prosleđivanja dokumenata ( document routing) gde se pretpostavlja da se dokumenti kojima se redovno puni neka lokacija (npr. svakodnevna izdanja dnevnih novina, ili redovni izveštaji sa berze) automatski prosleđuju korisniku odgovarajućeg profila, pri čemu profil nije ništa drugo nego složeni upit na čekanju.S ovim je u vezi klasifikacija dokumenata (document classification) . Pri ovom postupku dokumenti se pridružuju klasama u zavisnosti od njihovog sadržaja. U opštijem slučaju, dokumenti se mogu rasporediti u više klasa, a same klase mogu da budu deo složenije strukture, kakva je hijerarhija predmeta. 10 /94

Zadaci koji uključuju NLP/3 Klasifikacija dokumenata nalikuje indeksiranju dokumenata ( document indexing), ali postoje i suštinske razlike. Kod indeksiranja dokumenata program treba da automatski dodeli dokumentu izabrane ključne reči ili fraze da bi se dobio indeks koji nalikuje indeksu na kraju knjige.Ponekad fokus nije na pronalaženju samih dokumenata, već na pronalaženju specifičnih informacija u dokumentu ili skupu dokumenata. Na primer, iz skupa novinskih članaka koji govore o preuzimanju kompanija možemo da iz svakog članka izvlačimo informacije o tome ko je koju kompaniju kupio. To je zadatak oblasti ekstrakcija informacija ( information extraction ), koja osim izvlačenja informacija, često generiše meta-podatke i tako priprema pronađene informacije za dalju obradu. 11 /94

Zadaci koji uključuju NLP/4 Bar neki oblici sumarizacije dokumenata ( document summarization ) se mogu smatrati vidom ekstrakcije informacija kod kojih program pokušava da ekstrahuje glavne informacije iz dokumenta i da ih zatim predstavi u čitljivom obliku, u vidu surogata dokumenta.Mnoge aplikacije kombinuju ove zadatke na zanimljive načine, npr. program može da selektuje dokumenta sa neke lokacije koja se redovno popunjava na osnovu njihovog sadržaja, da ih sortira po kategorijama, a zatim da ekstrahuje neke značajne informacije za svaki od selektovanih dokumenata. Ovakvi zadaci spadaju u domen iskopavanja iz teksta ( text mining ) gde se mnoštvo načina koristi da bi se korisne informacije izvukle iz velikih onlajn repozitorijuma tekstova. 12 /94

Zadaci koji uključuju NLP/5 I mnogo manje ambiciozni zadaci kakvi su prepoznavanje imenovanih entiteta ( named entity recognition) i sumarizacija više dokumenata (multi-document summarization) obično zahteva kombinovanje različitih jedostavnijih zadataka, npr. ekstrakcije i klasifikacije. Sve ove NLP primene, ma koliko delovale različito jedna od druge, mogu se porediti i razvrstavati ako se uoče njihova dva suštinska svojstva: stepen do koga aplikacija reprodukuje neki lingvistički fenomen prema zahtevu da ga transformiše ili prevede . stepen do koga aplikacija prepoznaje ili analizira neki lingvistički ulaz prema zahtevu da generiše ili sintetizuje lingvistički izlaz. 13 /94

pronal aženjedokumenata ekstrakcija informacija razrešavanje entiteta prepoznavanje govora odgovaranje na pitanja sumarizacija ekstrakcijom sumarizacija suštine sinteza govora kategorizacija/ klasterizacija mašinsko prevođenje reprodukcija transformacija prepoznavanje generisanje 14

Šta se podrazumeva pod obradom prirodnih jezika (nivoi obrade)? 2 15 /94

Šta želimo da uradimo sa tekstom u računarskoj obradi? Program koji “razume ” jezik mora da poseduje značajno znanje o samoj strukturi jezika , a to uklju čuje šta su re č i jezika , kako se kombinovanjem re č i dobijaju re č enice , š ta re č i zna č e, kako zna č enje re č i doprinosi zna č enju re čenice , i tako dalje. Program ne može u potpunosti da simulira lingvističko ponašanje ako ne uzme u obzir važan aspekt onoga što čini ljude inteligentnim, a to je njihovo opš te znanje o svetu i mogućnost rezonovanja. Na primer, da bi se odgovorilo na pitanje ili u č estvovalo u razgovoru, osoba mora da zna veoma mnogo ne samo o strukturi jezika koji koristi, već i o svetu uopšte, a posebno o okruženju u kome se razgovor odvija.Prema tome, potrebno je da sistem za obradu prirodnog jezika kodira i koristi ovo znanje na takav način da to proizvodi odgovarajuće ponašanje sistema. Osim toga, znanje o tekućoj situaciji, ili kontekstu, ima suštinsku ulogu u određivanju kako će sistem interpretirati određenu rečenicu. Ovo izgleda veoma prirodno, ali nije lako dostižno. 16 /94

Tradicionalna definicija različitih nivoa znanja Fonetsko i fonološko znanje bavi se time kako se re č i realizuju zvucima. Ova vrsta znanja je od zna č aja za izradu sistema za automatsko prepoznavanje govora i nije od zna č a j a kod sistema za rad sa pisanim tekstom . Morfolo ško znanje bavi se time kako se reči konstruišu na osnovu bazičnih jedinica značenja - morfema.Sintaksič ko znanje bavi se time kako se reč i mogu kombinovati da bi se dobila rečenica koja izgleda kao korektna rečenica jezika. Ova vrsta znanja identifikuje kako je neka reč povezana s nekom drugom (na primer, da li jedna reč modifikuje drugu ili su one među sobom nezavisne).Semantičko znanje bavi se značenjem reči i kako se ta značenja kombinuju da bi se dobilo značenje rečenice.Pragmatičko znanje bavi se upotrebom rečenica u različitom kontekstu i kako taj kontekst deluje na interpretaciju rečenice.Znanje o svetu uključuje opšte znanje o ustrojstvu sveta koje korisnici jezika moraju posedovati da bi, na primer, vodili razgovor, i mora da uključuje ono što korisnici jezika moraju da znaju o verovanjima i ciljevima drugih korisnika. 17 /94

Razlike između različitih nivoa znanja 1. This book describes the basic techniques that are used in building computer models of natural language comprehension. Ovakva re čenica izgleda sasvim prihvatljivo za po č etak knjige koja se bavi obradom prirodnog jezika . Ona se slaže sa svime što se zna o sintaksi, semantici i pragmatici . 2. Green frogs have large noses. Ova rečenica je sintaksi č ki i semanti č ki dobro formirana , ali ne i pragmati č k i, jer č italac ne može da shvati zašto bi knjiga o obradi prirodnog jezika baš tako počela. 18/94

3. Green ideas have large noses.Ova rečenica je o č igledno pragmatički loše formirana, ali je ona i semantički loše formirana . U prilog tome je č injenica da mo ž emo raspravljati o tome da li je re č enica 2. ta č na ili ne, dok se o ta č nosti re č enice 3. te š ko mo ž e raspravljati u nekom koherentnm razgovoru. 4. Large have green ideas nose. ova rečenica je nečitljiva, premda se sastoji od istih reči kao i rečenica 3. Njena struktura je takva da ne možemo ni da kaž emo šta s njom nije u redu. Prema tome ona nije sintaksički dobro formirana. 19/94

Relativnost nivoa znanjaPremda je očigledno uspostavljena hijerarhija znanja, ne znači da je za razumevanje među ljudima (i računarom?) potrebno da se koriste samo iskazi dobro formirani na svim nivoima.P ostoje slučajevi kada je rečenica pragmatič ki dobro formirana iako sintaksički nije dobro formirana . Na primer, ako neko na pitanje kuda ide odgovori sa I go store , odgovor bi se mogao razumeti premda sintaksi č ki nije dobro formiran . Prema tome, ova re č enica je bar pragmatički dobro formirana , a mogla bi biti čak i semantički dobro formirana. 20/94

Odnos sintakse i semantike U svojoj začetnoj knjizi iz 1957. godine Syntactic Structures , američki lingvista Noam Čomski je uočio razliku između rečenica koje su sintaksički neisparvne, kao Furiously sleep ideas green colorless.i rečenica koje su dobro formirane, ali su semantički neispravne, kaoColorless green ideas sleep furiously.Šta više, kasnije se mnogo govorilo o tome koliko je, i da li je, ova druga rečenica semantički neispravna, dok se neispravnost prve rečenice ne dovodi u pitanje. 21 /94

Odnos sintakse i semantike/2 Ovakvo razdvajanje sintakse od semantike uticalo je na NLP tako da se uvrežilo verovanje da se sintaksička struktura rečenice može prvo analizirati – ne ulazeći u značenje – a tek zatim da se izvrši semantička analiza. Ovakvo polazište je dosta nategnuto, ali alternativna rešenja se teško formulišu i neefikasna su za primenu.U formalnim jezicima, kakvi su programski jezici, odvajanje forme od značenja je uobičajeno; na primer, značenje programskog iskaza se može u potpunosti odrediti na osnovu njegove forme, što znači da za određivanje značenja izvanjezički i kontekstualni faktori nisu od značaja. To nije slučaj sa prirodnim jezicima – da nije tako ne bi postojala poezija, metafora, igre reči, itd (kao najmanje). 22 /94

Pragmatika i kontekst Pragmatika se obično definiše kao skup pravila koja rukovode time kako se jezik koristi. Na primer, You owe me five dollars bi se pre moglo shvatiti kao zahtev da se dug vrati nego kao tvrđenje koje utvrđuje neke činjenice. S druge strane, ako mašini za pretragu postavimo upit rečimanatural language processing šta mi zapravo tražimo: definiciju, reference na literaturu, stručnjake iz oblasti NLP, kurseve o NLP? “Inteligentna” mašina za pretragu bi možda to mogla da zaključi na osnovu prethodnih upita. Na primer, svaki od navedenih prethodnih upita bi mogao da uputi u drugom smeru: what is NLP AI textbook Rochester University 23 /94

Kontekst i (prethodno) znanje o svetu Upotreba i kontekst su isprepletani. Ponekad kontekst drastično menja nameru koja stoji iza nekog iskaza ili menja njegovo značenje. Šta je potrebno znati o srpskom jeziku da bi se razmelo: Bolje plata u ruci nego otpremnina na grani (naslov iz Danasa, 1. IV 2009) Od racionalizacije Gradske uprave po programu koji je sačinilo Ministarstvo za državnu upravu i lokalnu samoupravu neće biti ništa , pošto se za napuštanje posla uz otpremninu od oko 800.000 dinara prijavilo samo šestoro radnika uprave , ... Onaj kome nije poznata poslovica teško da će razumeti o čemu se radi. 24 /94

Kakvo razumevanje teksta očekujemo u obradi prirodnih jezika? Šta računar treba da zna (ili čovek uostalom) da bi razumeo sledeći novinski naslov? 25 /94

Izazovi u obradi prirodnih jezika 3 26 /94

Problemi realizacije sistema sa NLP funkcijama Očigledno je da se računari mogu programirati da ‘razumeju’, npr. Java kod, u smislu da se može napisati interpreter koji će omogućiti da se program ispravno izvršava u prozoru veb prelistača. Takođe se mogu napisati računarski programi koji rešavaju mnoge matematičke probleme i logičke zagonetke, koji dokazuju teoreme. Ali računarska analiza ljudskog govora i pisanog teksta je opterećena mnogim problemima, koji su, šta više veoma zanimljivi za rešavanje. 27 /94

Jedan od problema u NLP – višeznačnost (ambiguity) Lingvistička višeznačnost je često izvor zabave jer je opštepoznato da se mnoge sasvim obične reči (pa i rečenice) mogu interpretirati na više načina, što ljudima često prolazi neopaženo. npr. reč bank u engleskom može da znači: banka, obala, klupa, ulog pri klađenju itd.npr. reč šarka u srpskom može da znači: držač vrata, vrsta zmije Ljude ovakve pojave retko zbunjuju jer uvek postoji kontekst u kome se reč pojavljuje koji razjašnjava značenje, kao i opšte znanje o svetu. npr. čitalac engleskih novina će iz the West Bank of Jordan lako zaključiti da se radi o zapadnoj obali reke Jordan, a ne o banci. npr. čitalac srpskih oglasa će iz šarke za vrata i prozor odmah zaključiti da se ne radi o zmiji. 28 /94

Neki zabavni primeri na engleskom Visiting aunts can be a nuisance. da li je dosadno posećivati tetke, ili su dosadne tetke koje dolaze u posetu? John saw the man in the park with the telescope.da li je Džon video čoveka u parku pomoću teleskopa ili je čovek koga je Džon video imao teleskop? (čemu se pridružuju predloške fraze?) 29 /94

Razmljivo čoveku – problem za računar She boarded the airplane with two suitcases.She boarded the airplane with two engines. čoveku je jasno da se predloška fraza u prvom slučaju odnosi na ‘Ona’, a u drugom slučaju na ‘avion’. Ali kako računar može to da zna? Stigla odeća za bebe iz uvoza čoveku je jasno da se predloška fraza ‘iz uvoza’ odnosi na ‘odeću’, a ne na ‘bebe’. Ali kako računar može to da zna?To što čovek koji govori engleski i srpski može sasvim lako da razume ovakve rečenice se uopšte ne smatra dokazom neke njegove izvanredne inteligencije, ali to je za računar ipak veliki problem. 30 /94

Zašto je ovo zanimljivo? Ovakvi problemi su svakako izazov za naučnike i istraživače, ali bi bili komercijalno nezanimljivi kada potražnja za informacijama ne bi predstavljala tržište sa najvećim rastom na planeti.Više nije u pitanju manjak informacija (kao u ne tako davnoj prošlosti), već je problem u preopterećenosti informacijama i manjku alata za njihovo organizovanje, skladištenje i pronalaženje. Većina informacija se i dalje izražava prirodnim jezikom, iako su na raspolaganju i slike, grafikoni, zvučni zapisi, tabele, filmske sekvence, matematičke jednačine. 31 /94

Osnovni lingvistički alati 4 Segmentacija Morfološka analiza Anotiranje Plitka sintaksna analiza Duboka sintaksna analiza Semantička analiza 32 /94

Lingvistički alati Lingvistička analiza teksta je obično slojevita.prvo se dokument deli u pasuse, pasusi u rečenice, a rečenice u pojedinačne reči ( tokenizacija).zatim se rečenica etiketira ili tagira vrstama reči i drugim gramatičkim svojstvima da bi se na kraju parsirala , tj. obavila gramatička analiza. Za parsere je obično potrebno da prethodno budu određene granice rečenice, da je izvršena tokenizacija i da su određene vrste reči. Za sve aplikacije neće biti potrebni svi slojevi, npr. mašine za pretragu obavljaju tokenizaciju i možda steming, ali retko koj a ob a vlja i etiketiranje vrstama reči. 33 /94

Granice između rečenica Određivanje granica između rečenica, iako izgleda jednostavno, nije lak zadatak jer su mnogi interpunkcijski znaci, a pre svega tačka, dvosmisleni. Može se uzeti opšte pravilo da tačka označava kraj rečenice, ako iza nje sledi razmak i veliko slovo. To bi, šta više, bilo pravilo koje bi važilo za većinu (sve?) evropskih jezika ( jezički nezavisno pravilo).Ovo je jednostavno pravilo, ali i prilikom njegove primene treba biti obazriv:da li razmak podrazumeva i karakter za tabulaciju? šta sve može da bude između tačke i velikog slova: završni navodnik posle tačke, početni navodnik (interpunkcijska crta) pre velikog slova, oznaka za fusnotu posle tačke... 34 /94

Granice između rečenica/2 Ali ovo pravilo ima i mnogo izuzetaka.Tačka iza koje sledi razmak a zatim veliko slovo, ali ispred koje je titula, ne predstavlja kraj rečenice. Neki primeri titula su: Mr. , Mrs., Dr., Pres. , ali naravno za engleski, drugi jezici imaju druge titule (iza kojih možda i ne dolazi tačka). Drugi izuzeci bi se ticali tačke iza skraćenice, tačke iza rednog broja, itd. Kod svake aplikacije treba voditi računa da pravila zavise od jezika, ali i od vrste teksta, vremena nastanka, itd. Da bi otklonili višeznačnost interpunkcijskih znakova, programi koji određuju kraj rečenice oslanjaju se na regularne izraze koji pokušavaju da obuhvate kontekst u kome se tačka javlja kao znak koji ne označava kraj rečenice. 35 /94

Granice između rečenica/3 Neki primeri upotrebe tačke u srpskom jeziku koji mogu da unesu zabunu u određivanje kraja rečenice: Kako se navodi u saopštenju N . R . (25) preba čen je na odel j en je za grudnu hirurgiju ... ... kao i 23 kilometra tzv . Y   kraka od Subotice do Kelebije i Horgo š a ... Benet odgovori da nije čuo . - Pa eto, jeste - izjavi ona..."Da ste se bolje ponašali ." To su bile va še reči... Elizabet se zagleda u nju. " Z ar  je gospodin Darsi takav?“im je bilo dovoljno za prednost od 2:0. Srpski teniseri su propustili priliku da i u ...... U jednoj izjavi datoj još 4. oktobra 1998. Džordž Robertson je upravo Britaniju i Robina Kuka apostrofirao ...Tačka, razmak, veliko slovoCifra, tačka, razmak, veliko slovo36/94

Tokenizatori Programima koji određuju kraj rečenice je često potrebna pomoć tokenizatora da bi otklonili višeznačnost interpunkcijskih znakova. Zadatak tokanizatora (ili leksičkih analizatora) je da sekvenciju karaktera podele u smislene jedinice – tokene .I ovde se može početi od opšteg pravila da su tokeni sekvencije karaktera između dva blanka (ili razmaka). I ovo bi pravilo važilo za većinu evropskih jezika.Ali svakako ne bi važilo za jezike dalekog istoka, jer se u japanskom i kineskom ne stavlja razmak između reči. 37 /94

Tokenizatori/2Ali i ovo jednostavno pravilo ima mnogo izuzetaka koji još i više zavise od jezika, ali i vrste primene. Na primer, kako treba tretirati crticu između reči: da li je data-base jedan ili dva tokena? A u srpskom, da li su bruto-zarada , manje-više, diplomatsko-konzularni... jedan ili dva tokena? 2010 je jedan token, ali i 183,000.000 je jedan token iako sadrži i tačku i zarez. Da li je 185$ jedan ili dva tokena? Da li je 10-godišnjica jedan ili tri tokena? Da li je MMF-a jedan ili tri tokena? U nemačkom, korejskom i finskom se dinamički kreiraju složene reči, npr. u nemačkom Lebensvericherungsgesellschaft označava ‘kompaniju za životno osiguranje’. Ovakve složenice se za neke primene mogu posmatrati kao jedan token, dok je za druge (kao pronalaženje informacija) zgodno da ih razložimo na sastavne delove. 38 /94

Stemeri U lingvistici, stemeri su morfološki analizatori koji pridružuju morfološke varijante iste reči jednom korenom obliku. Koren može da bude jedan (morfološki) oblik koji bi obično bio uzet da bude odrednica u rečniku. Na primer, u engleskom bi za oblike reči: go, goes , going , gone i went koren bio go , a to je i odrednica u rečniku. Naravno, u srpskom bi to bilo malo složenije. Oblici bi bili: i š le , i š li , i š lo , i š la , i š ao , i š av š i , i du ć i , idite , idimo , idi , iđ ahu, iđaste, iđasmo, iđ aše, iđah, ido še, idoste , idosmo, idoh, idu , idete , idemo , ide, ideš, idem, ići, a koren bi bio ići.39/94

Dva tipa morfoloških procesa Flektivna morfologija odražava sintaksičku relaciju koja postoji između oblika reči koje spadaju u istu vrstu reči. Preciznije, flektivna morfologija se bavi varijacijama u oblicima reči koje su potrebne da bi se izrazila gramatička svojstva, kao jednina/množina, prezent/prošlo vreme. Derivaciona morfologija odražava stvaranje novih reči na osnovu postojećih, što često, ali ne uvek, uključuje i promenu vrste reči. Na primer, u engleskom su derivacionom morfologijom povezane reči inflate (glagol) i inflation (imenica). Primer za srpski je, odlučan (pridev) i odlučnost (imenica). Derivaciona morfologija ponekad menja i značenje, na primer unkind ima suprotno značenje od kind , a neodlučan suprotno značenje od odlučan . 40 /94

Morfološki analizatori Morfološki analizatori se u radu najviše oslanjaju na pravila i rečnike (leksikone). Rečnici povezuju sve oblike reči s njenim korenom. Rečnici i pravila se mogu efikasno implementirati korišćenjem konačnih automata (Finite State Automata). Rečnici i pravila mogu da podržavaju segmentaciju složenih reči u sastavne delove. Na primer, Leben#Vericherung#Gesellschaft Morfološki analizatori (najčešće) ne koriste kontekst reči da bi razrešili dvosmislenosti, tako da mogu da proi z vedu višestruki izlaz za neke oblike reči. Na primer, u engleskom za being mogući koren je glagol to be ili imenica being . U srpskom, za idući mogući koren je glagol ići ili pridev idući . 41 /94

Primer rečnika za morfološku analizu za srpski išle,ići. V išli,ići.V išlo,ići.Višla,ići.V išao,ići.V išavši,ići.V idući,ići.V idite,ići.V idimo,ići.V idi,ići.V iđahu,ići.V iđaste,ići.V iđasmo,ići.V iđaše,ići.V iđah,ići.V idoše,ići.V idoste,ići.V idosmo,ići.V idoh,ići.V idu,ići.V idete,ići.V idemo,ići.V ide,ići.V ideš,ići.V idem,ići.V ići,ići.V 42 /94

Morfološka analiza i pronalaženje informacija Izgradnja rečnika koji podržavaju morfološku analizu je zahtevan posao i često je skupo (po utrošku vremena i ljudskih resursa).To je tačno, ali jednom izgrađen rečnik se može upotrebiti u mnogim aplikacijama. U aplikacijama koje su povezane sa pronalaženjem informacija često nije potrebno da morfološka analiza bude lingvistički korektna. Cilj je da se termini normalizuju tako da se različite varijante reči povežu s istim identifikatorom, koji može ali i ne mora da bude lingvistički koren.U tom slučaju se govori o heurističkom stemeru koji koristi razna iskustvena pravila (rules of thumb ) , a ne lingvistička pravila. 43/94

Heuristički stemeri Heuristički stemer pokušava da otkolni neke površinske oznake u rečima da bi došao do njenog korena. U principu, radi se o otklanjanju i prefiksa (un-, dis- , itd.) i sufiksa (-ing, -ness, itd.), iako mnogi stemeri koje koriste mašine za pretragu otklanjaju samo sufikse. Uklanjanje afiksa je efikasan način da se obradi i flektivna i derivaciona morfologija bez oslanjanja na rečnik. 44 /94

Porterov stemer Za engleski jezik najpoznatiji je Porterov stemer koji se sastoji od niza pravila koja uključuju i obradu fleksije (npr., uklanjanjem sufiksa –ed i –ing) i obradu derivacije (npr., uklanjanjem sufiksa –ation i –ational ). Ovaj postupak je prilično grub proces pošto se ne traži da dobijeni koren bude ispravna reč jezika. Na primer, termini abominable , abominably, abomination se svode na koren abomin koji nije reč e n gleksog jezika. Izvorni kod za Porterov stemer se može naći na adresi: http://tartarus.org/~martin/PorterStemmer/ 45 /94

Heuristički stemeri za srpski jezik Za heuristički stemere za srpski videti radove iz časopisa Infoteka, godina 2008, broj 1-2:Мирослав Мартиновић Трансфер технологије за обраду природних језика Експерименти, могућности и ограничења Студија случаја : Трансфер с енглеског на српски Владо Кешељ , Данко Шипка Приступ изградњи стемера и лематизатора за језике с богатом флексијом и оскудним ресурсима заснован на обухватању суфикса i nfoteka.bg.ac.rs/index.php/sr/arhiva/200846/94

Tageri vrsta reči Tageri vrsta reči ( Part-of-speech taggers) se oslanjaju na rad modula za određivanje granica između rečenica i tokenizatora, jer oni obeležavaju svaku reč odgovarajućom etiketom (tag ), koja govori da li je reč glagol, imenica, pridev, zamenica, itd. Primer dva moguća tagiranja rečenice Visiting aunts can be a nuisance bio bi: U prvom slučaju visiting je označeno kao pridev koji menja imenicu aunts dok je u drugom slučaju u pitanju gerundiv (glagolska imenica) glagola to visit . Visiting/Adj aunts/N-Pl can/AUX be/V-inf-be a/DET-Indef nuisance/N-Sg Visiting/V-Prog aunts/N-Pl can/AUX be/V-inf-be a/DET-Indef nuisance/N-Sg 47 /94

Tageri vrsta reči/2 Kada bi svi oblici reči dobijali samo jednu etiketu i ne bi bilo reči koje tager ne poznaje, etiketiranje vrstom reči bi bilo jednostavno. Kao što prikazuje prethodni primer, reči mogu dobiti više etiketa, a uloga tagera je da izabere jednu (po mogućnosti ispravnu). U prethodnom primeru tager nema dovoljno informacija da bi odlučio. Bilo bi potrebno da mu je poznat bar uski kontekst, na primer: I ought to invite her, but visiting aunts can be a nuisance.I ought to visit her, but visiting aunts can be a nuisance.čak i tada bi analizator trebalo da izvede dosta složeno zaključivanje da bi izabrao pravo rešenje. 48 /94

Dva glavna pristupa etiketiranju vrstom reči Dva glavna pristupa etiketiranju su u skladu sa dva osnovna pristupa problemima obrade prirodnih jezika:pristup zasnovan na pravilimastohastiči pristup 49 /94

Etiketiranje vrstom reči zasnovano na pravilima Ovakvi tageri se zasnivaju na primeni lingvističkog znanja pomoću koga pokušavaju da odbace sekvencije etiketa koje bi bile sintaksički neispravne. Jedno takvo pravilo za engleski bi bilo: Ako nepoznatoj reči prethodi determinator, a iza nje sledi imenica, obeleži je kao pridev. Neki tager se oslanjaju i na morfološko znanje koje treba da pomogne u odlučivanju:Ako se nepoznata ili višeznačna reč završava na –ing, a prethodi joj glagol, obeleži je kao glagol.Neki tageri su zasnovani na pravilima koja su u potpunosti ‘ručno’ napisana, dok se drugi zasnivaju na pravilima koju su izvedena različitim metodama (mašinskog učenja) iz velikih tekstualnih korpusa. 50 /94

Stohasti čki tageri Stohastički tageri se oslanjaju na podatke za obučavanje (test data), primenjujući pristup koji koristi informacije o frekvencijama pojavljivanja u tom skupu podataka da bi izračunali verovatnoće izbora određenih etiketa. Podaci za obučavanje su obično unapred ručno etiketirani, tj. reči i etikete su ‘ručno’ povezane. Zapravo, najčešće su mašinski etiketrani, a te etikete su ručno korigovane i otklonjena je višeznačnost. Ovo je najjednostavniji pristup izgradnje stohastičkih tagera koji može da dovede do generisanja sintaksički nekorektnih sekvenci, iako je svaka pojedinačna etiketa, gledana sama za sebe validna. Na primer, u slučaju visiting aunts , tager može da označi visting kao glagol samo zato što se u skupu podataka na kome je obučen visting češće javlja u funkciji glagola nego prideva . U srpskom, kako odlučiti šta je vrsta reči voda (imenica – voda ili vod ; glagol -- vodati ) i vode (imenica – voda ili vod ; glagol – voditi ) 51 /94

Složeniji stohastički tageri Da bi poboljšali performanse, tageri se obično oslanjaju pri odlučivanju na širi kontekst. Obično se koriste n-grami , što znači da se pri odlučivanju posmatraju i okolne reči, pre svega one koje prethode posmatranoj reči o čijoj etiketi se odlučuje. Najjednostavni pristup koristi bigrame, a to znači da se računa frekvencija pojavljivanja svih kombinacija od dve reči u skupu podataka za obučavanje.Ovaj pristup ne bi rešio problem visting aunts ali bi mogao da reši mnoge druge probleme, npr. The/DET annual/ADJ race past the barn was cancelled. We/PRON always/ADV race past the barn on Sundays. Reči koje prethode race i njihove etikete su veoma korisne za određivanje da li je race imenica (prvi slučaj) ili glagol (drugi slučaj). 52 /94

Stohastičko etiketiranje vrstama re či za srpski Za stohastičko etiketiranje za srpski videti rad iz časopisa Infoteka, godina 2010, broj 2 :Зоран Поповић Програми за етикетирање текста на српском језику i rad iz časopisa Infoteka, godina 2011, broj 2 : Милош Утвић Анотација корпуса савременог српског језика Hibridni metod etiketiranja za srpski koji uključuje i višečlane reči videti rad sa 7 th LTC, Poznan, Poland: Matthieu Constant, Cvetana Krstev, Duško Vitas Hybrid Lexical Tagging in Serbian 53 /94

Sada ADV, PONCTovde ADV , PONCTu PREPnašoj PROkući N( PONCT tu ADV između PREPMale_Plane NE+topi CONJ Donje_Toponice NE+top, PONCT sela Nkod PREP Prokuplja NE+top ) PONCT nema V šta PRO da CONJ vidiš V ” PONCT , PONCT kaže Vkroz PREP plač Npenzionisani_vozač_autobusa_Milutin_Gojković NE+pers. PONCT 54/94

Prepoznavanje imeničkih fraza i naziva (imenovanih entiteta) Ekstrakcija imeničkih fraza ide dalje od tagera vrstama reči u analizi teksta.Njihov cilj je da identifikuju delove teksta koji se odnose na ljude, ustanove, objekte i slično. Oni se često nazivaju parcijalni ili plitki (shallow) parseri za razliku od kompletnih ili dubokih ( deep ) parsera. Prepoznavanje imeničkih fraza je veoma važno sa stanovištva pronalaženja informacija i srodnih zadataka jer su informacije koje se traže najčešće u toj formi. 55 /94

Rad plitkih parsera za identifikovanje imeničkih fraza Oni se često usredsređuju na identifikovanje osnovnih imeničkih fraza, koje se sastoje od glave fraze, što je najčešće glavna imenica u frazi i levih modifikatora, kao što su determinatori i pridevi ispred imenice.ovo bi važilo za engleski, osnovne imeničke fraze za srpski bi drugačije izgledaleOni se najčešće ne bave identifikovanjem predloških fraza i ne pokušavaju da razreše čemu su predloške fraze pridružene. 56 /94

Pronalaženje naziva ili prepoznavanje imenovanih entiteta Oni identifikuju u dokumentu vlastita imena i druge nazive i obično ih i klasifikuju kao oznake ljudi, institucija, događaja, mesta i slično.Na primer, u sledećoj engleskoj rečenici: Italy ’s business world was rocked by the announcement last Thursday that Mr. Verdi would leave his job as vice-president of Music Masters of Milan, Inc to become operations director of Arthur Andersen . Italy bi bilo prepoznato kao mesto , last Thursday kao datum, Mr. Verdi kao osoba, a Music Masters of Milan , Inc i Arthur Andersen kao kompanije. U ovom slučaju bilo bi pogrešno ako bi Milan i Arthur Anderson bili označeno kao mesto, osnosno osoba. 57 /94

Prepoznavanje naziva i imenovanih entiteta u srpskom Neka je dat tekst na srpskom jeziku:Nedavne poplave nanele su, kako se procenjuje , oko 20 miliona dinara štete na putevima i oranicama u op š tini Kur š umlija , saop š tila je op š tinska komisija za procenu š tete . Kako se navodi , komisija je zatra ž ila od Vlade Srbije nadoknadu za oko 200 hektara potpuno uništenih useva vrednih preko pet miliona dinara . Opštinska komisija zatražila je od Ministarstva za kapitalne investicije pomoć od preko 15 miliona dinara za saniranje velikih šteta na lokalnim putevima.58/94

Prepoznavanje naziva i imenovanih entiteta u srpskom/2 U ovom trenutku bilo bi prepoznato:Nedavne poplave nanele su, kako se procen j uje , < money.approx >oko < money.exact > 20 miliona dinara </ money.exact > </ money.approx > š tete na putevima i oranicama u op š tini < top.gr> Kur š umlija </top.gr> , saop š tila je opštinska komisija za procenu štete . Kako se navodi, komisija je zatražila od <org>Vlade <top.dr >Srbije</top.dr></org> nadoknadu za < measure.approx > oko < measure.exact>200 hektara</measure.exact></measure.approx> potpuno uništenih useva vrednih <money.greaterThan>preko <money.exact>pet miliona dinara</money.exact></money.greaterThan>. Opštinska komisija zatražila je od <org>Ministarstva za kapitalne investicije</org> pomoć od <money.greaterThan>preko <money.exact>15 miliona dinara</money.exact> </money.greaterThan> za saniranje velikih š teta na lokalnim putevima.59/94

Kako funkcioniše prepoznavanje imenovanih entiteta Veliki broj sistema za prepoznavanje entiteta u prethodnoj obradi teksta ne ide do nivoa tagiranja vrstom reči, već radi direktno nad tokenima koristeći njihove vidljive osobine (veliko slovo, titule iz liste titula, i sl.). Neki od sistema koriste ručno izgrađena pravila, dok drugi uče pravila iz nekog skupa podataka za treniranje (mašinsko učenje) ili grade statističke modele. Prepoznavanje imenovanih entiteta za srpski se zasniva na korišćenju iscrpnih rečnika i razrađenih pravila formulisnaih korišćenjem konačnih automata. Više o tome na sledećem času- 60 /94

Parseri i gramatike Za duboko parsiranje je potrebno da postoji gramatika u odnosu na koju se vrši parsiranje. Gramatika je skup pravila koja govore (najjednostavnije govoreći) koje kombinacije vrsta reči (i drugih gramatičkih svojstava) daju dobro formirane fraze i rečeničke strukture. Na primer, Colorless green ideas sleep furiously .bi mogli da ocenimo kao sintaksički dobro formiranu jer je adjective+adjective+noun validna imenička fraza, verb+adverb je validna glagolska fraza, a noun_phrase+verb_phrase je validna rečenica. 61 /94

Parseri i gramatike/2 S druge strane rečenicaFuriously sleep ideas green colorless bi bila ocenjena kao gramatički nekorektna jer ni jedan od sledećih gramatičkih obrazaca ne predviđa gramatika engleskog jezika. adverb+verb+noun+adjective+adjective adverb+verb+noun+noun+adjectiveadverb+noun+noun+adjective+adjectiveadverb+noun+noun+noun+adjective treba uzeti u obzir četiri obrasca jer sleep može da bude glagol i imenica, a green može da bude prediv ili imenica. 62 /94

Identifikacija imeničkih fraza Identifikacija imeničkih fraza je važan zadatak koji uopšte nije trivijalan. Za razliku od jednostavnih primera koje smo do sada viđali, imeničke fraze su u realnom tekstu često veoma složene: A small screw holding the cylinder assembly in the frame of the revolver Određivanje granice imenovanog entiteta (naziva):Već imamo <money.exact>115 miliona evra</money.exact> od <org>Evropske investicione banke za deonicu</org> od <top.gr>Dobanovaca</top.gr> do <top.deoGr>Batajnice</top.deoGr >... A naš partner je <org>Evropska banka za obnovu i razvoj</org >. Veliki problem čini pridruživanje predloških fraza: Nabavka aparata za magnetnu rezonancu Medicinski aparat za terenski rad na selu Nabavka aparata za nižu cenu 63 /94

Identifikacija imeničkih fraza/2 Pisanje gramatičkih pravila je veoma težak, dugotrajan i odgovoran zadatak (čime se bavi lingvističko inženjerstvo ). Iako su za engleski napisne mnoge (formalne) gramatike opšteg tipa, ni jedna od njih ne pokriva 100% sve reči i konstrukcije koje se u proizvoljnom tekstu mogu nači. Stoga, svaki program koji treba da parsira nepoznati tekst mora da računa da će naići na nepoznate reči i konstrukcije i treba da ima neki odgovor na takve situacije.Za srpski je napravljena prva formalna gramatika i parser korišćenjem metagramatike – Bojana Đorđević , to je njena doktorska disertacija koja će biti branjena u toku ove godine. 64 /94

Koji su problemi dubokog parsiranja Veoma je teško (nemoguće) napisati sva pravila jednog jezika, a čak i kad bi to bilo moguće odmah bi se pojavile nove primene koje bi gramatiku učinile nepotpunom i zastarelom. Nove reči i izrazi stvaraju slične probleme. Ne postoji rečnik koji bi makar približno pokrivao reči i izraze koji se pojavljuju, recimo, u poslovnom tekstu – kada se uzmu u obzir vlastita imena, akronimi, sleng, neologizmi i razne brojčane vrednosti. Kompleksnost parsiranja je polinomijalna. Primena parsera zahteva ugnježdene petlje, tako da obrada jedne rečenice zahteva vremenske resurse za obradu koji su kubna funkcija dužine rečenice. Svaka rečenica iz realnog teksta (značajne dužine i složenosti) dozvoljava jako mnogo mogućih delimičnih parsiranja od kojih treba odabrati pravo. Zbog svega toga su alternative dubokom parsiranju – npr. plitki parseri – veoma primamljive, posebno za pronalaženje informacija. 65 /94

Semantička analiza Semantička analiza uključuje identifikovanje različitih tipova reči odnosno fraza, npr. vrste vlastitih imena, ali i identifikovanje uloge koju te reči odnosno fraze imaju u rečenici, kao subjekat ili objekat.Različiti sintaksi č ki tipovi imaju različita svojstva. Na primer, imenice ili imeničke fraze mogu da se odnose na nešto živo ili neživo, na organizacije, mesta, datume, događaje, sume novca, i sl.66/94

Semantičke uloge Semantičke uloge se mogu razlikovati od sintaktičkih uloga, na primer:The Federal Court chastised Microsoft. i Microsoft was chastised by the Federal Court.gramatički subjekat se razlikuje u ovim rečenicama koje imaju isto osnovno značenje. I u jednom i u drugom slučaju The Federal Court je agent , a Microsoft je recepient događaja. 67 /94

Osnovne metode u obradi prirodnih jezika 5 68 /94

Dva pogleda na NLP Mogu se razlikovati dva opšta pristupa rešavanju problema na koje se nailazi u NLP aplikacijama: Jedan pristup se zasniva na vrsti lingvističke analize o kojoj je bilo govora. Taj pristup se nekad naziva simbolički jer se sastoji uglavnom od pravila za manipulaciju simbolima, tj. od gramatičkih pravila koja govore koji iskazi su dobro formirani, a koji ne.Drugi pristup, koji je dobio zamah od 1990. godine, zasniva se na statističkoj obradi jezika , i ponekad se naziva i empirijski jer podrazumeva izvođenje jezičkih podataka iz relativno velikih jezičkih korpusa, kakvi su novinske vesti i veb stranice. 69 /94

Metodološko razlikovanje dva pristupa obradi prirodnih jezika Obrada prirodnih jezika zasnovana na simboličkom pristupu koristi pristupu odozgo nadole ( top-down ) jer se poznati gramatički obrasci i veze između značenja primenjuju na tekst.Empirijska obrada prirodnih jezika radi odozdo nagore (bottom-up) tražeći u samom tekstu obrasce i veze koji bi se mogli modelirati, pri čemu dobijeni rezultat ne mora obavezno da odgovara čistoj sintaksičkoj ili semantičkoj vezi. 70 /94

Razlikovanje dva problema po načinu rešavanja problema složenosti Ova dva pristupa na različite načine rešavaju problem složenosti, odnosno neizvesnosti, kakav se pojavljuje, npr. kod višeznačnosti. simbolički pristup rešava problem neizvesnosti uvođenjem novih pravila, ili kontekstualnih faktora, koja se na neki način moraju formalizovati. To je metodologija zasnovana na znanju (knowledge-based methodology) koja se zasniva na jezičkim stručnjacima koji treba da indentifikuju i opišu neke pravilnosti koje se javljaju u okviru nekog domena.empirijski pristup , koji je kvantitativan, pripisuje verovatnoće alternativnim analizama teksta, i odlučuje se između njih koristeći statističke metode. U praksi, retko se primenjuje samo jedan ili drugi pristup – postoje mnogi uspešni alati koji spajaju oba pristupa – hibridni pristup . 71 /94

Softver za obradu prirodnih jezika Gruba podela:Rad sa niskama ( string matching ) – ovakva vrsta softvera po pravilu ne zavisi od jezika na koji će se primeniti; korist ograničenaZasnovan na statističkim zakonitostimakoje se utvrđuju na osnovu velikih kolekcija tekstova; primenjivost na tekstove i jezik kolekcije korišćene za obučavanje; statističke metode univerzalne Podržan leksičkim resursima U potpunosti zavisi od jezika; izgradnja resursa vrlo dugotrajna i zahtevna ; mogućnosti velike 72 /94

Primer – softver zasnovan na radu s niskama Pretraživanje Korpusa savremenog srpskog jezika koji je dostupan on-line na adresi www.korpus.bg.ac.rs (potrebna registracija)Pristup korpusu odobrava njegov autor prof. dr Duško Vitas (vitas@matf.bg.ac.rs)73/94

Primer statističke obrade Prevod na Google-u, ne koristi gramatička pravila već statističku analizu koja se zasniva na poravnatom korpusu od najmanje milion reči i dva jednojezična korpusa svaki sa milijardu reči. Nivoi obrade prirodnih jezika su; morfološka analiza, l eksička analiza i sintaksna analiza Levels of natural language processing are: morphological a nalysis , lexical analysis and syntax analysis. 74 /94

Domet prevoda na Google-u – ulaz jedna rečenica iz Nortengerske opatije but perhaps it was because they were habituated to the finer performances of the London stage, which she knew, on Isabella's authority, rendered everything else of the kind "quite horrid." али можда је то зато што су били хабитуатед да финије перформансе Лондону фази, која је знала , на власти је Изабела , доноси све остало тог типа " прилично страшан ." (2013) ali možda je to bilo zbog toga što su bili naviknuti na bolje predstave londonske scene, na kojoj su se, kako je znala iz Izabelinog uveravanja, davali svakakvi "užasni" komadi. али можда је то било зато што су навикли на финије перформанси на сцени Лондону, која је познавала, на Исабелла ауторитет, донио све остало те врсте "прилично ужасни." (2015) али можда је то било зато што су боравиле у тачнија перформанси на лондонској сцени, која је знала, на Исабелла ауторитет, донео све друго те врсте "прилично ужасни.„ (2017) 75/94

Referentni korpus – Korpus savremenog srpskog jezika ( SrpKor ) Korpus savremenog srpskog jezika – SrpKor se sastoji od 4.925 te kstova . Ukupna veličina korpusa SrpKor je 118 . 767 . 279 reči . Korpus je lematiziran i označene su vrste rečipomoću TreeTagger -a . SrpKor se sastoji od : Lterature koja je pisana na srpskom u 20. i 21. veku , Naučnih tekstova iz različitog domena (društvene, prirodne nauke i humanistika , Zakonskih teksotva i Opšteg domena: Dnevne novine, Članici iz časopisa i magazina, Tekstovi sa internet portala, Agencijske vesti 1995-96, Feljtoni iz novina. 76 /94

Korišćenje SrpKorPreko veb interfejsa (IMS Open Corpus Workbench) i efikasnog upitnog procesora Koriste ga ljudi, uglavnom lingvisti i filolozi Za aplikacije Treniranje jezičkih modela (bigrami, trigrami,...) Vreća reči - Bag-of-Words ( BOW) za tekstove iz nespecifikovanog doemna. 77 /94

Paraleleni korpusi – poravnati korpusi Višejezični / dvojezični korpusi ( jedan jezik je srpski );Tekstovi su segmentirani – pasusi, rečenice, fraze , reči – i poravnati;Engleski/srpski Engleski izvorni tekstovi prevedeni na srpski, i obrnuto, kao i engleski i srpski prevodi tekstova napisanih na jeziku X . Tekstovi pripadaju različitim domenima : književnost, vesti, naučni članci, veb novinarstvo, zdravlje, obrazovanje, filmski titlovi . Poravnanje je na nivou rečenice . Veličina korpusa je 5 . 078 . 280 reči ( 2 . 672 . 911 u engleskom delu , 2 . 405 . 369 u srpskom delu ).   Francuski/srpski Književni i novinski tekstovi napisani na francuskom ili srpskom i njihovi prevodi na drugi jezik . Veličina korpusa je 59 . 425 poravnatih segmenata, odnosno, 1.948,679 rečo (1.063. 564 u francuskom delu, 885.115 u srpskom delu). 78/94

Primer jednog poravnatog teksta – ljudski pogled 79/94

Korišćenje paralelnih korpusa Preko veb interfejsa (IMS Open Corpus Workbench) i efikasnog upitnog procesora Bibliša – digitalna biblioteka poravnatih tekstovaKoriste ga ljudi, uglavnom prevodioci, lingvisti, leksikografi i filoloziZa aplikacije Mašinsko prevođenje Ekstrakcija dvojezične i višejezične terminologije 80 /94

Korišćenje paralelnih tekstova – upit socijaln[a-z]* osiguranj[a-z ]* Rešavanje problema fleksije Socijalnog osiguranja Socijalnom osiguranju 81 /94

Paralelni korpus – aplikacijski pogled (TMX – XML) 82 /94

Pretraživanje korpusaMoguće je pretraživanje pomoću regularnih izraza koji se sravnjuju sa niskama u tekstu: Jednostavan regularni izraz:ministar - pronalazi u tekstu reč ministar (nisku između separatora – interpunkcijskih znakova) glu[vh]o - pronalazi u tekstu reč gluvo ili gluho ([vh] je regularni izraz koji se sravnjuje sa slovom v ili slovom h ) [ aeiou ]h[h]* - pronalazi u tekstu reči koje počinju nekim od vokala a , e, i , o , u , iza koga sledi bar jedno ili više slova h ( [h]* je regularni izraz koji se sravnjuje sa slovom h koje se ponavlja proizvoljan broj puta ili ga uopšte nema ) [a-z]+ aj - pronalazi u tekstu sve reči koje se završavaju sa aj ali ne i samo aj ( [a-z]+ je regularni izraz koji se sravnjuje sa niskom proizvoljnih slova proizvoljne dužine ali koja sadrži najmanje jedno slovo ) jelen[a|u|e|om|i|ima] - pronalazi u tekstu sve oblike reči jelen ( [a|u|e|om|i|ima] je regularni izraz koji se sravnjuje sa niskom a ili niskom u ili niskom e ili niskom om ili niskom i ili niskom ima)83/94

Pretraživanje korpusa/2 "minist[a-z]{1,3}" - pronalazi sva pojavljivanja reči koje počinju sa minist iza čega sledi najmanje jedno a najviše tri proizvoljna slova minist[a-z ]{1,3} prosvet[a-z]{1,3} - pronalazi sva pojavljivanja dve reči od kojih prva počinje sa minist a druga sa prosvet. Iza ovih početaka slede najmanje jedno a najviše tri proizvoljna slova "minist[a-z]{1,3}" "prosvet[a-z]{1,3}|obrazovanx[a-z]{1,3}" pronalazi sva pojavljivanja dve reči od kojih prva počinje sa minist a druga sa prosvet ili obrazovanx. iza ovih početaka slede najmanje jedno a najviše tri proizvoljna slova (vertikalna crta označava izbor, tj. „ili”) 84 /94

Pretraživanje korpusa/3 [word="jelen"] - pronalazi sva pojavljivanja reči jelen , tačno u tom obliku;[lemma="jelen"] - pronalazi sva pojavljivanja reči čija je lema jelen; [pos="A"] [lemma="jelen "] - pronalazi sve reči čija je lema jelen ispred koje je reč koja je obeležena kao pridev. [pos="N" & lemma =" [A-Z][a-z]+"]{2,3} - pronalazi sve niske od dve do tri reči koje počinju velikim slovom, a označene su kao imenice.[pos="N" & word =" [A-Z][a-z]+ " ]{2,3} – neće biti isti rezultati, zašto? 85 /94

Jedan zadatak Interesuju nas u nekom velikom uzorku tekstova sve žene koje obavljaju neku značajnu funkciju (direktor, ministar, predsednik)Ovaj korpus je moguće pretraživati pomoću složenog regularnog izraza. [lemma="ministarka" | lemma="predsednica" | lemma="direktorka"] [pos="N" & lemma="[A-Z][a-z]+"]{2,3} 86 /94

Jedan zadatak/2 Zašto ovaj upit javlja i nešto što nismo tražili? koji su juče potpisali predsednici Vojislav Koštunica i Mirko ŠarovićZašto ovaj upit ne javlja nešto što smo tražili?Ambasador Striter je istakao značaj posete ministra Borke Vučić Pronađeno s upitom [ pos="N"] [lemma="Borka"] [lemma="Vucyicx"] 87 /94

Jedan zadatak/3 Odgovor na ovo pitanje je da korpus ne sadrži dovoljno informacijaU ovom slučaju nedostaje informacija o rodu imenica 88 /94

Domaći zadatak broj 1 is_01/intsis_1 Posmatrajmo rečenicu: Slučajno sam ga našao. Pokušavamo da nađemo u tekstu slične strukture:Prilog iza koga sledi pomoćni glagol jesam iza koga sledi lična zamenica u klitičkom obliku i zatim radni glagolski pridev Ili s nekim drugim redom reči. 89 /94

Domaći zadatak broj 2 is_02/intsis_2 Posmatrajmo prideve: hiperproduktivan, hiper aktivan, hiper-aktivan. Pokušavamo da nađemo u tekstu pojavljivanje prideva koji koriste pseudo prefikse hiper-, super- i ekstra- - spojeno, s razmakom i s crticom 90 /94

Domaći zadatak broj 3 is_03/intsis_3 Posmatrajmo prosto ili sl oženo buduće vreme: ostaćemo, se okreću, okreću se, stići ćemo, ću dočekati, ću se vratiti Pokušavamo da nađemo u tekstu pojavljivanje budućeg vremena, prosto/složeno, povratni/nepovratni, bez umetnutih delova između glagola i pomoćnog glagola ili glagola i pomoćne rečce se.91 /94

Domaći zadatak broj 4 is_04 /intsis_ 4 Posmatrajmo pojavljivanja imenovanih entiteta koja se odnose na vodene površine: Genizaretsko jezero, jezero Komo, reka Brendivajn, Kriveljska reka, Jadransko more Pokušavamo da nađemo u tekstu što više pojavljivanja naziva vodenih površina – reka, jezera, mora i još? 92 /94

Domaći zadatak broj 5 is_05 /intsis_ 5 Posmatrajmo pojavljivanja složenih brojeva: pedeset i šest, sto i dvadeset, hiljadu i jednu, dve hiljade i dvesta, devetsto devedeset i devet, milion i dvesta tražimo samo brojeve ispisane slovima, neki od brojeva su kao vrsta reči broj (NUM), a neki su imenice (N) 93 /94

Rešenja zadataka Svi studenti treba da pošalju rešenja do sledeće subote i to:Regularni izraz kojim je dobijeno rešenje,Eksportovane konkordance (.pdf) Analiza rezultata: šta u rezultatima nije dobro (višak/manjak) i zašto to nije moglo biti rešeno 94 /94

Related Contents

Next Show more