for Learners of Thai CorpusBased Approach Assoc Prof Dr Jirapa Vitayapirak King Mongkuts Institute of Technology Ladkrabang KMITL kvjirapakmitlacth Ilan J Kernerman ID: 596311
Download Presentation The PPT/PDF document "A New Dictionary" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
A New Dictionary for Learners of Thai : Corpus-Based Approach
Assoc. Prof. Dr.
Jirapa
Vitayapirak
King
Mongkut’s
Institute of Technology
Ladkrabang
(KMITL)
kvjirapa@kmitl.ac.th
,
Ilan
J. Kernerman
K Dictionaries Ltd
ilan@kdictionaries.comSlide2
AIMS:To report a research project on developing a new dictionary for learners of Thai based on Thai National Corpus (TNC) .
This paper argues that Thai dictionary compilation should be prior in corpus
design.
Slide3
OUTLINEBackground of Dictionaries and corpora and the ProjectHistory of Thai lexicography
Thai (learner's) D
ictionary Core Project
(TDC)Slide4
DICTIONARIES AND CORPORASince 1980, the growing technology for text-processing/ corpusMajor dictionary publishers have produced dictionaries by using corpora to design better learners dictionaries (Sinclair 1994): -
Collins COBUILD
-Longman
-Oxford
-
Cambridge
Thai DictionariesLittle previous research had been carried on the design of Thai dictionaries. Slide5
Thai (learner's) dictionary core project (TDC)Background of the K. Dictionaries Projecta part of the new Bilingual Learners Dictionaries Series (BLDS) which currently includes monolingual dictionary cores for nearly 20 major European and Asian languages such as
French, Japanese, Chinese,
etc.
The aim of this project is to develop a Thai dictionary and eventually use for translation other languages. Slide6
EXAMPLE: BLDS French-Japanese
contradictoire
adj
矛盾(むじゅん)
した
mujun shita ◊ des témoignagescontradictoires相反(あいはん)する証言(しょうげん)
ai-hansuru
shoogen
contraindre
v
t
強制(きょうせい)する
kyoosee
suru
◊
contraindre
qqn
à faire
qqch
人(ひと)に~するよう強(し)いる
hito
ni
~
suru
yoo
shiiru
contrainte
nf
強制(きょうせい)
kyoosee
contraire
adj
1
opposé
反対(はんたい)の
hantai
no
◊
des
avis
contraires
対立(たいりつ)する意見(いけ
ん)
tairitsu
suru
iken
◊
être
contraire à la
loi
法(ほう)に反(はん)する
hoo
ni
han
suru
2
♦
au contraire
反対(はんたい)に、それどこ
ろか
hantai
ni
, sore
dokoro
kaSlide7
the translations of the Password English-Thai dictionary edit the Thai-English index, that was generated by reversing the English-Thai translations of (1)compile the new Thai dictionary core, based on the wordlist of the Thai-English index of (2)
Thai (learner's) dictionary core project (TDC)
A summary of the project :
Slide8
Password English-Thai
jab
[
dʒ
ӕ
b
]– past tense, past participle jabbed –
verbto poke or prod: He jabbed me in the ribs with his elbow; She jabbed the needle into her finger.{16295: แทง }♦ nouna sudden hard poke or prod: He gave me a jab with his finger; a jab of pain.
{16296:
การแทง
}
jabber
[ˈ
dʒ
ӕ
bə
] verb
to talk idly, rapidly and indistinctly:
The women are always jabbering with one another.
{16297:
พูดอย่างรวดเร็วและไม่ชัดเจน
;
พูดรัว
}
jack
[
dʒ
ӕ
k
] noun
1 an instrument for lifting up a motor car or other heavy weight:
You should always keep a jack in the car in case you need to change a wheel.
{16298:
แม่แรง
}
2 the playing-card between the ten and queen, sometimes called the knave:
The jack, queen and king are the three face cards.
{16299:
ไพ่
แจ็ค
สูงกว่าสิบต่ำกว่า
ควีน
}Slide9
SECTION 2History of Thai lexicographySlide10
Early Thai Dictionaries (1800s)
“
In 1800s Siam began opening up to foreigners. There were many foreigners such as missionaries living in Siam. These foreigners strongly needed to communicate with Thais so the bilingual Thai dictionaries were laboriously compiled by hand before the days of the commercial printing press in Siam …”
(McFarland 1944:
i
) Slide11
Thai dictionaries 1.1 Dictionary of the Siamese Language (Caswell, 1846)- a
hand-written Thai-English
dictionary
1.2
Dictionarium
Lingue
Thai สัพะ พะจะนะ พาสา ไท (Pallegoix, 1854)- Thai Latin French English 1.2 Dictionary of the Siamese Language อักขราภิธานศัพท์
(Bradley, 1873
)-Thai-Thai
1.3
Siamese-English Dictionary
(
Michell
, 1892)
1.4
พจนานุกรม
กระทรวงศึกษาธิการ
(1892)- Thai-Thai
1.5
The Royal Institute Dictionary
1927 (revised and first printing in 1950)
พจนานุกรม ฉบับราชบัณฑิตยสถาน
- Native Thai dictionary
1.6
Thai-English Dictionary
(
McFarland,
1944)-Stanford
1.7
Thai-English
Students
Dictionary
(
Haas,
1964) - Stanford
Etc.Slide12
SECTION 3Thai (learner's) Dictionary Core P
roject
(TDC)Slide13
TDC dictionaryAim: This dictionary follows a simple principle of making it easy for non-native Thai users to find what they want and use it for translation other languages
Audience:
Adults or students who are learning Thai as a foreign language at an intermediate level.
How many words?
It contains 12,000 entries.Slide14
Methodology: The development of a Thai dictionary corePreparing the list of (12,000) main headwords using TNC
compiling the entries by the editorial team
revision by the chief editor
using an XML Editor for lexicographical
work
http://www.thai-dict.com/blds/Slide15
THE HEADWORD LIST12,000 lemmasIt includes all the words that are the most frequent or particularly important in Thai (written and spoken) and used in day-to-day situation.The Thai National Corpus (TNC) was used as a guideline for headword selection.
Central Thai takes precedence.
The Thai words are arranged alphabetically from
ก
to
ฮ in accordance with the system of the Royal Institute Thai Dictionary (1982)Slide16
Thai National CorpusTNC is a general corpus of standard Thai designed to be a comparable corpus of British National Corpus by Chulalongkorn University.The project aims to collect eighty million words.
(
Aroonmanakun
, 2009)
Corpus (TNC) at
:
http:www.arts.chula.ac.th/~ling/tnc2/Slide17
Frequency data as criteria for headword selection
นักท่องเที่ยว 817
นักเขียน 781
นักกีฬา 653
นักการเมือง 544
นักโทษ 416
นักข่าว 255
นักกฎหมาย 228 นักจิตวิทยา 222นักคิด 174 นักดาราศาสตร์ 112นักชีววิทยา 32
นักการทูต 24
นักธรณีวิทยา 21
นักคณิตศาสตร์
9 Slide18
CONCORDANCE
Use
of Authentic Examples:
นักเขียน
คือผู้ที่สร้างงานเขียน อย่างไรก็ตามคำนี้มักใช้เฉพาะกับผู้ที่เขียนงานสร้างสรรค์หรือเป็นอาชีพ หรือผู้ที่ได้สร้างงานเขียนในลักษณะอื่น ๆ
...
ที่ๆมีนักเขียนวัยรุ่นเกิดใหม่ทุกวัน ชุมชน
นักเขียน
วัยรุ่น มีผลงานให้อ่านเพียบ! สำหรับ
นักเขียน
นิยายแฟนตาซี, นิยายผจญภัย,
นว
นิยาย สำหรับคนอยากเป็น
นักเขียน
...
อาชีพ
นักเขียน
เป็นอาชีพหนึ่งที่ให้ทั้งความรู้ สาระ และความบันเทิงแก่ ผู้อ่าน ทั้งเป็นอาชีพที่สร้างชื่อเสียงและรายได้อาชีพหนึ่ง
...
การอ่านจัด
เป็น
จุดเริ่มต้นของ
นักเขียน
ส่วนใหญ่ ส่วนมากแล้ว
นักเขียน
(
นว
นิยาย)จะ
...
สิ่งหนึ่งที่อยากบอกกล่าวแก่ผู้คิดอยากจะ
เป็น
นักเขียน
ทุกคน คือ
การ
ระวังเรื่อง
การ
ใช้และสะกดคำให้ถูกต้องตามหลักภาษา
...
... "งานพรรณ เวชชาชีวะ
นักเขียน
รางวัลซี
ไรต์
ปี 2549 กับ ความสุข ...
helping learners with real ThaiSlide19
THE ENTRY COMPONENTS:HEADWORDPRONUNCIATIONPART OF SPEECHTHAI DEFINITION (for each sense of the headword)
EXAMPLE (Thai example of usage)
+
SPECIAL FEATURES
Idiom (Thai
collocational
phrases)
Sense indicators, register, subject field, hypernym, synonym, antonymSlide20
Structure of an entry:Headword ข้อบัญญัติ
Pronunciation
kʰɔ̂ɔ ban yàt
Part of speech
Noun Definition (กฎ) กฎหมายที่องค์การบริหารส่วนท้องถิ่นตราขึ้น เพื่อใช้บังคับในเขตขององค์การบริหารส่วนท้องถิ่นนั้นๆ Example ข้อบัญญัติกำหนดขึ้นมาเพื่อความสงบของบ้านเมือง
Slide21
กก /kok/Noun 1
(
ไวยากรณ์) แม่กก หรือ คำที่ลงท้ายด้วย ก ข ค ฆ
◊
คำว่า 'ชก' เป็นคำที่อยู่ในแม่กก
2 โคนต้น, ลําต้น ◊ กกเสา 3 (พืช) ชื่อไม้ล้มลุกชนิดหนึ่ง ◊
แม่สานเสื่อด้วยต้นกก
Verb
แนบไว้กับอก
◊
กกกอด, กกไข่, กกลูก
http://www.thai-dict.com/blds/Slide22
Sense IndicatorsWherever possible the first sense is a common one – usually the sense that most people would expect. Subject
field
Disambiguate
the sense by providing the general subject category of the word entry
.
Example:
(กฎ) กฎหมาย
legal: รัฐธรรมนูญ(คณิต) คณิตศาสตร์ mathematical: กรณฑ์(วิทย์) วิทยาศาสตร์ scientific: ไฮโดรคาร์บอน(วรรณ) วรรณคดี literature: อสัญแดหวาSlide23
RegisterComments related to register, such as formal, impolite, informal, spoken, etc. can be provided.
Abbreviations:
(ไวยากรณ์) ไวยากรณ์
grammar:
การันต์
(ราชา) ราชาศัพท์
royal word:
เสวย(หยาบ) ไม่สุภาพ impolite word: แดก(พูด) ภาษาพูด colloquial language: กระเหี้ยนกระหือรือ(ทางการ) เป็นทางการ formal language: ชราภาพ; สัปดาห์(ถิ่น) ภาษาถิ่น dialect: กั้งจ้อง(เก่า) ภาษาเก่า
obsolete or old-fashioned:
คระไล
(อุปมา) อุปมาอุปมัย
figurative:
กลืนไม่ลง
(หญิง) ผู้หญิง
female: ค่ะ
(ชาย) ผู้ชาย
male:
ครับSlide24
Sense qualifierPhrases such as แกะดำ (black sheep) indicate figurative language (อุปมาอุปมัย).
(อุปมา)
indicates the translation which is the literal meaning.
For example:
แกะดำ
[
k̀
ӕ dam] Noun (อุปมา) คนที่ทำผิดจากเพื่อนฝูง (ใช้ในทางไม่ดี) ◊ แกะดำของครอบครัวSlide25
Hypernym, Synonym, Antonym
The
hypernym
is a generic term, to whose field of application the headword belongs. It helps to disambiguate its sense.
For example:
ล่อ Noun (สัตว์) พันทางผสมระหว่างลากับม้า ◊ ล่อเป็นสัตว์อดทน ■ Verb ใช้อุบายชักนำ ◊ ล่อแมวออกจากกรง
Synonym (=)
and
antonym
(#)
For example:
หลงรัก
[
loŋ
rák
]
Verb
คลั่งใครคนใดคนหนึ่ง; = เสน่หา, บูชา ◊ เขาหลงรักเธอ
ขาว
[
kaaw
]
Adjective
สีอย่างสำลี; # ดำ ◊
หน้าขาวมากSlide26
CONCLUSION In short, Thai dictionaries should be based on corpus data of Thai literature. F
requency data and
concordancing
can play an important role in the design, evaluation, and revision of Thai
dictionaries.
So we can make sure that the
information
recorded in the dictionaries is authoritative and backed up by empirical evidence. Slide27
Thank you for your attention!