semanticamente enriquecidas com expressões do domínio em tarefas de classificação Aluno Ricardo Brigato Scheicher Orientadora Prof a Dr a Solange Oliveira Rezende Janeiro de 2020 ID: 811708
Download The PPT/PDF document "Representação de textos" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
Representação de textos semanticamente enriquecidas com expressões do domínio em tarefas de classificação
Aluno: Ricardo Brigato ScheicherOrientadora: Profa. Dra. Solange Oliveira RezendeJaneiro de 2020
1
Slide2IntroduçãoContextualização e MotivaçãoConceitos e AbordagensExpressões do domínio e representaçõesTrabalhos FuturosNova abordagemFramework de apoio
2Agenda
Slide3IntroduçãoProcesso de Mineração de TextosRepresentação dos TextosClassificação de TextosNíveis de Complexidade Semântica
3
Slide44Contextualização e MotivaçãoProcesso de Mineração de Textos
Processo de Mineração de Textos [Rezende at. al., 2003]
Slide55Contextualização e MotivaçãoProcesso de Mineração de Textos
Processo
de Mineração de Textos [Rezende at. al., 2003]
EXTRAÇÃO DE CONHECIMENTOS
APRENDIZADO DE MÁQUINA
PREPARAÇÃO DE TEXTOS
EXTRAÇÃO DE TERMOS
ENRIQUECIMENTO
REPRESENTAÇÃO
Slide66Contextualização e MotivaçãoRepresentação de Textos
This
paper
proposes
presents
a
quality
function
deployment
qfd
case
study
on
method
D1
1
1
1
0
1
1
1
1
0
0001D21110100010001D31101111101111
Representação Bag-of-Words sem Pré-processamento
D1This paper proposes a Quality Function Deployment method.D2 This paper proposes a QFD method.D3This paper presents a case study on Quality Function Deployment method.
Slide7Objetivo: Classificação por esporte?Palavras: Guga, Tennis, Masters Cup, sets TênisPalavras:
Massa, prova, volta Fórmula 17Contextualização e MotivaçãoClassificação de Textos
D1
Guga é o campeão do
Tennis
Masters
Cup
por três sets a zero.
D2
Massa abandona a prova na décima volta.
Fonte:
Adaptada de Sinoara (2018).
Slide8Objetivo: Desempenho de um atleta brasileiro8
Contextualização e MotivaçãoClassificação de TextosInformações importantes:
“ Guga é o campeão ”
“
Massa abandona a prova
”
São atletas brasileiros
Slide9Objetivo: Desempenho de um atleta brasileiro9
Contextualização e MotivaçãoClassificação de TextosInformações importantes:
“ Guga é o campeão ”
“ Massa
abandona a prova
”
Vitória ou derrota
Slide101º Nível: Organização por tópicoProblemas que dependem simplesmente do vocabulário 2º Nível: Organização semânticaProblemas que dependem de mais informações, além do conjunto de palavras10
Contextualização e MotivaçãoNíveis de Complexidade Semântica
Slide11O uso de técnicas tradicionais de representação possuem perda de desempenho em tarefas de classificação nos diferentes níveis de complexidade semântica11Problema
Slide121. Propor, desenvolver e analisar o impacto de representações semanticamente enriquecidas por expressões do domínio na classificação de textos.2. Propor, desenvolver e analisar o impacto de soluções para identificação, extração de termos e relacionamentos entre termos para a construção de listas
termos do domínio e identificadores de classe.12Objetivos
Slide13Proposta de PesquisaVisão Geral das AbordagensAbordagem 1
Classificação de textos com representações semanticamente enriquecidas
Abordagem 2
Construção
semiautomáticas de
listas de termos
Representação enriquecida
gBoED
Abordagem 3
Classificação de textos com listas geradas
semiautomaticamente
e representações semanticamente
enriquecidas
13
Slide14Conceitos e AbordagensExpressões do Domínio14
Slide15Carregam informações enriquecidas do contexto do domínioEspecífica para uma determinada literaturaMarques et. al. (2015) Bag of Expressions of Domain (BoED)Representação do tipo espaço vetorial
15Expressões do Domínio
Slide16Scheicher et. al. (2016) Generalização do método proposto por Marques.generalized Bag of Expressions of Domain (gBoED)
16Scheicher et. al. (2016)
Slide17Lista de Termos do Domínio e sinônimosTd = {k1, k2 , . . . , ki}Listas de Identificadores de ClassesIc = {{ck11
, ck12 , ... , ck1j}, ... , {
ck
m1
, ck
m2
, ... ,
ck
ml
}}
17
Scheicher et. al. (2016)
Slide1818Scheicher et. al. (2016)
generalized
Bag
of
Expressions
of
Domain
D1
This paper proposes a Quality Function Deployment method.
D2
This paper proposes a QFD method.
D3
This paper presents a case study on Quality Function Deployment method.
Slide1919Scheicher et. al. (2016)
generalized
Bag
of
Expressions
of
Domain
D1
This paper proposes a Quality Function Deployment method.
D2
This paper proposes a QFD method.
D3
This paper presents a case study on Quality Function Deployment method.
Termos do Domínio e Sinônimos
Slide20generalized
Bag of
Expressions
of
Domain
20
Scheicher et. al. (2016)
D1
This paper proposes a Quality Function Deployment method.
D2
This paper proposes a QFD method.
D3
This paper presents a case study on Quality Function Deployment method.
Identificadores de classe
Slide2121Scheicher et. al. (2016)
generalized
Bag
of
Expressions
of
Domain
D1
This paper proposes a Quality Function Deployment method.
D2
This paper proposes a QFD method.
D3
This paper presents a case study on Quality Function Deployment method.
Slide2222Scheicher et. al. (2016)
generalized
Bag
of
Expressions
of
Domain
D1
This paper proposes a Quality Function Deployment method.
D2
This paper proposes a QFD method.
D3
This paper presents a case study on Quality Function Deployment method.
Slide2323Scheicher et. al. (2016)
Slide24Nova abordagem de construção da gBoEDInverso da distância entre os termos do domínio e os identificadores de classeUtilização da representação como fonte informações enriquecidas para predição e melhoria de resultados de classificaçãoAplicação específica no contexto de análise de sentimentosPolaridade: Positivo e negativo24
Scheicher et. al. (2019)
Slide25phone
_amazing
camera_best
navigation_nice
searching_nice
navigation
_
terrible
searching
_
terrible
1
0
0
0
0
0
0
1
0
0
0
0
0
0111125Scheicher et. al. (2019) - Método de Frequência
generalized Bag of Expressions
of DomainD1This phone is amazing.D2 The best 4mp digital camera available.D3
The navigation is nice enough, but searching through thousands of tracks is terrible.
D1
D2
D3
PREDIÇÃO
POSITIVO
POSITIVO
INDEFINIDO
Slide26phone
_amazing
camera_best
navigation_nice
searching_nice
navigation
_
terrible
searching
_
terrible
1
0
0
0
0
0
0
1
0
0
0
0
0
010,500,100,2026Scheicher et. al. (2019) - Método de Distância
generalized Bag of Expressions
of DomainD1This phone is amazing.D2 The best 4mp digital camera available.D3
The navigation is nice enough, but searching through thousands of tracks is terrible.
D1
D2
D3
PREDIÇÃO
POSITIVO
POSITIVO
POSITIVO
Slide2727
Slide2828Scheicher et. al. (2019)
Slide29Nova abordagem de construção da gBoEDConstrução da gBoED utilizando padrões de escrita e classes morfossintáticasFoi realizado um teste utilizando dois padrões de escritaIdioma inglês29
Trabalhos futuros
Slide3030Scheicher et. al. (2019)
Slide31Trabalhos FuturosUso de classes morfossintáticas e regrasFramework de apoio à construção de conhecimento31
Slide3232Trabalhos futurosObservações realizadas:Durante as extrações dos termos foram identificados:
great JJ swivel NN lcd
NN
screen
NN
Slide3333Trabalhos futurosObservações realizadasA construção das expressões do domínio por meio de padrões traz maior revocação. Identifica menos expressões porém mais corretamente.
As listas de expressões variam de acordo com o:DOMINIOIDIOMATIPO DE CLASSIFICAÇÃO A SER REALIZADADurante as extrações dos termos foram identificados:great
JJ
swivel
NN
lcd
NN
screen
NN
Slide3434Trabalhos futurosFramework para apoio a construção das listas pelos especialistas de domínioProvê uma rede de conhecimento, formada por uma rede semântica ou ontologia que relaciona diferentes aspectos das palavras relacionadas a um domínio
Slide3535Trabalhos futuros
Documentos
novos
Adj
+
Subst
Subst
+
Verb
+
Adj
. . .
Extração de termos
p
or meio de padrões
Construção da
gBoED
Construção de uma rede
de conhecimento pelo especialista
Identificação de termos
Identificação de
sinônimos
Relacionamento entre os termos
Listas de termos
Slide3636Obrigado!!!
Slide37Referências Bibliográficas37
Slide38ANTUNES, J. Exploração de informações contextuais para enriquecimento semântico em representações de textos. 2018. 121 p. Dissertação (Mestrado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos – SP, 2018.BOLSHAKOVA, E.; LOUKACHEVITCH, N.; NOKEL, M.; 2013, Topic Models Can Improve Domain Term Extraction. In: Serdyukov P. et al. (eds) Advances in Information Retrieval. ECIR 2013. Lecture Notes in Computer Science,
vol 7814. Springer, Berlin, HeidelbergCarvalho, V. A. M.; Spolaôr, N.; Cherman E. A.; Monard, M
. C
.,
A
framework for multi-label exploratory data analysis: ML-EDA
, 2014 XL
Latin American Computing Conference (CLEI), Montevideo, 2014, pp. 1-12
.
CONRADO,
Merley
da Silva.
Extração automática de termos simples baseada em aprendizado de máquina
. Tese (Doutorado) -- Instituto de Ciências Matemáticas e de Computação, 2014.
ERTEKIN
, S.; HUANG J.; BOTTOU, L; GILES, L. 2007.
Learning on the border: active learning in imbalanced data classification
. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management (CIKM '07). ACM, New York, NY, USA, 127-136
.
HEAP, B., BAIN,
M., Wobcke, W., Krzywicki, A., & Schmeidl, S. (2017). Word Vector Enrichment of Low Frequency Words in the Bag-of-Words Model for Short Text Multi-class Classification Problems. CoRR, abs/1709.05778.JIN, R.; SI, L. 2004. A Bayesian approach toward active learning for collaborative filtering. In Proceedings of the 20th conference on Uncertainty in artificial intelligence (UAI '04). AUAI Press, Arlington, Virginia, United States, 278-285.
38
Referências Bibliográficas
Slide39KIM, S.; BALDWIN, T.; KAN, M. An unsupervised approach to domain-specific term extraction. In: Australasian Language Technology Association Workshop 2009. 2009. p. 94.LEWIS, D.; GALE, W. A sequential algorithm for training text classifiers. In Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval, p. 3–12 , 1994. ACM/Springer.MARQUES, C. A. N.; MATSUNO, I. P.; SINOARA, R. A.; REZENDE, S. O.; ROZENFELD, H. An exploratory study to evaluate the practical application of pss methods and tools based on text
mining. In: Proceedings of the 20th International Conference on Engineering Design. [S.l.: s.n.], 2015. p. 7–311–7–320. MATSUNO, I. P. et. al. Aspect-based Sentiment Analysis
using
Semi-supervised
Learning in
Bipartite
Heterogeneous
Networks
. JIDM v. 7, n. 2, p. 141--154, 2016
.
NAKAGAWA, H.; MORI T.
2002.
A
simple
but
powerful automatic term extraction method. In COLING-02
on COMPUTERM 2002: second international workshop on computational terminology - Volume 14 (COMPUTERM '02), Vol. 14. Association for Computational Linguistics, Stroudsburg, PA, USA, 1-7.PONTIKI, M.; GALANIS, D.;
PAPAGEORGIOU,
H.;
MANANDHAR,
S.; ANDROUTSOPOULOS, I. Semeval-2015 task 12: Aspect based sentiment analysis. In: SemEval 2015: Proceedings of the 9th International Workshop on Semantic Evaluation, 2015, p. 486–495. QUAN C.; REN, F., 2016, Textual emotion recognition for enhancing enterprise computing, Enterprise Information Systems, 10:4, 422-44339Referências Bibliográficas
Slide40REZENDE, S. O.; PUGLIESI, J. B.; MELANDA, E. A.; PAULA, M. F. de. Mineração de dados. In: REZENDE, S. O. (Ed.). Sistemas Inteligentes: Fundamentos e Aplicações. [S.l.]: Editora Manole, 2003. p. 307–335. ROSSI, R. G. Inductive Model Generation for Text Classification Using a
Bipartite Heterogeneous Network. Journal of Computer Science and Technology v. 29, p. 361--375, 2014.SCHEICHER, R. B.; SINORARA, R. A.; KOGA, N. J.; REZENDE, S. O. Uso de expressões do domínio na classificação automática de documentos. XIII Encontro Nacional de Inteligência Artificial e Computacional, Volume 1, p. 625 – 636, 2016.
SINOARA
, R. A.; ROSSI, R. G.; REZENDE, S. O.
Semantic
role-
based
representations
in
text
classification
,
2016. 23rd
International
Conference
on Pattern Recognition (ICPR), Cancun, 2016, pp. 2313-2318.SINOARA, R. A. Aspectos semânticos na representação de textos para classificação automática
. Tese (Doutorado) — Universidade de São Paulo, 2018.SINOARA, R. A.; REZENDE, S. O. BEST sports: a portuguese collection of documents for semantics-concerned text mining research.
Relatório Técnico 424, Instituto de Ciências Matemáticas e
de Computação
, Universidade de São Paulo, 2018
TONG, S; KOLLER, D. 2002. Support vector machine active learning with applications to text classification. J. Mach. Learn. Res. 2 (March 2002), 45-66.40Referências Bibliográficas
Slide41VIVALDI, J.; RODRÍGUEZ, H.. Using Wikipedia for Domain Terms Extraction. In: Proceedings of CHAT 2012: The 2nd Workshop on the Creation; Harmonization and Application of Terminology Resources; Co-located with TKE 2012; June 22; 2012; Madrid; Spain. Linköping University Electronic Press, 2012. p. 3-10.WANG, L.; HU, X.; YUAN, B.; LU J. Active
learning via query synthesis and nearest
neighbour
search
,
Neurocomputing
, volume 147, 2015, p. 426-434.
ZHANG, C.; NIU, Z.; JIANG, P.; FU, H.,
Domain-specific term extraction from free texts
, 2012 9th International Conference on Fuzzy Systems and Knowledge Discovery, Sichuan, 2012, pp. 1290-1293
.
Zhang, P.; He, Z.;
Using
data-driven feature enrichment of text representation and ensemble technique for sentence-level polarity
classification
, 2015
, Journal of Information Science, p.
531-549.
41Referências Bibliográficas