/
Representação  de textos Representação  de textos

Representação de textos - PowerPoint Presentation

dudeja
dudeja . @dudeja
Follow
342 views
Uploaded On 2020-08-29

Representação de textos - PPT Presentation

semanticamente enriquecidas com expressões do domínio em tarefas de classificação Aluno Ricardo Brigato Scheicher Orientadora Prof a Dr a Solange Oliveira Rezende Janeiro de 2020 ID: 811708

paper method termos ões method paper ões termos dom

Share:

Link:

Embed:

Download Presentation from below link

Download The PPT/PDF document "Representação de textos" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Slide1

Representação de textos semanticamente enriquecidas com expressões do domínio em tarefas de classificação

Aluno: Ricardo Brigato ScheicherOrientadora: Profa. Dra. Solange Oliveira RezendeJaneiro de 2020

1

Slide2

IntroduçãoContextualização e MotivaçãoConceitos e AbordagensExpressões do domínio e representaçõesTrabalhos FuturosNova abordagemFramework de apoio

2Agenda

Slide3

IntroduçãoProcesso de Mineração de TextosRepresentação dos TextosClassificação de TextosNíveis de Complexidade Semântica

3

Slide4

4Contextualização e MotivaçãoProcesso de Mineração de Textos

Processo de Mineração de Textos [Rezende at. al., 2003]

Slide5

5Contextualização e MotivaçãoProcesso de Mineração de Textos

Processo

de Mineração de Textos [Rezende at. al., 2003]

EXTRAÇÃO DE CONHECIMENTOS

APRENDIZADO DE MÁQUINA

PREPARAÇÃO DE TEXTOS

EXTRAÇÃO DE TERMOS

ENRIQUECIMENTO

REPRESENTAÇÃO

Slide6

6Contextualização e MotivaçãoRepresentação de Textos

This

paper

proposes

presents

a

quality

function

deployment

qfd

case

study

on

method

D1

1

1

1

0

1

1

1

1

0

0001D21110100010001D31101111101111

Representação Bag-of-Words sem Pré-processamento

D1This paper proposes a Quality Function Deployment method.D2 This paper proposes a QFD method.D3This paper presents a case study on Quality Function Deployment method.

Slide7

Objetivo: Classificação por esporte?Palavras: Guga, Tennis, Masters Cup, sets  TênisPalavras:

Massa, prova, volta Fórmula 17Contextualização e MotivaçãoClassificação de Textos

D1

Guga é o campeão do

Tennis

Masters

Cup

por três sets a zero.

D2

Massa abandona a prova na décima volta.

Fonte:

Adaptada de Sinoara (2018).

Slide8

Objetivo: Desempenho de um atleta brasileiro8

Contextualização e MotivaçãoClassificação de TextosInformações importantes:

“ Guga é o campeão ”

Massa abandona a prova

São atletas brasileiros

Slide9

Objetivo: Desempenho de um atleta brasileiro9

Contextualização e MotivaçãoClassificação de TextosInformações importantes:

“ Guga é o campeão ”

“ Massa

abandona a prova

Vitória ou derrota

Slide10

1º Nível: Organização por tópicoProblemas que dependem simplesmente do vocabulário 2º Nível: Organização semânticaProblemas que dependem de mais informações, além do conjunto de palavras10

Contextualização e MotivaçãoNíveis de Complexidade Semântica

Slide11

O uso de técnicas tradicionais de representação possuem perda de desempenho em tarefas de classificação nos diferentes níveis de complexidade semântica11Problema

Slide12

1. Propor, desenvolver e analisar o impacto de representações semanticamente enriquecidas por expressões do domínio na classificação de textos.2. Propor, desenvolver e analisar o impacto de soluções para identificação, extração de termos e relacionamentos entre termos para a construção de listas

termos do domínio e identificadores de classe.12Objetivos

Slide13

Proposta de PesquisaVisão Geral das AbordagensAbordagem 1

Classificação de textos com representações semanticamente enriquecidas

Abordagem 2

Construção

semiautomáticas de

listas de termos

Representação enriquecida

gBoED

Abordagem 3

Classificação de textos com listas geradas

semiautomaticamente

e representações semanticamente

enriquecidas

13

Slide14

Conceitos e AbordagensExpressões do Domínio14

Slide15

Carregam informações enriquecidas do contexto do domínioEspecífica para uma determinada literaturaMarques et. al. (2015) Bag of Expressions of Domain (BoED)Representação do tipo espaço vetorial

15Expressões do Domínio

Slide16

Scheicher et. al. (2016) Generalização do método proposto por Marques.generalized Bag of Expressions of Domain (gBoED)

16Scheicher et. al. (2016)

Slide17

Lista de Termos do Domínio e sinônimosTd = {k1, k2 , . . . , ki}Listas de Identificadores de ClassesIc = {{ck11

, ck12 , ... , ck1j}, ... , {

ck

m1

, ck

m2

, ... ,

ck

ml

}}

17

Scheicher et. al. (2016)

Slide18

18Scheicher et. al. (2016)

generalized

Bag

of

Expressions

of

Domain

D1

This paper proposes a Quality Function Deployment method.

D2

This paper proposes a QFD method.

D3

This paper presents a case study on Quality Function Deployment method.

Slide19

19Scheicher et. al. (2016)

generalized

Bag

of

Expressions

of

Domain

D1

This paper proposes a Quality Function Deployment method.

D2

This paper proposes a QFD method.

D3

This paper presents a case study on Quality Function Deployment method.

Termos do Domínio e Sinônimos

Slide20

generalized

Bag of

Expressions

of

Domain

20

Scheicher et. al. (2016)

D1

This paper proposes a Quality Function Deployment method.

D2

This paper proposes a QFD method.

D3

This paper presents a case study on Quality Function Deployment method.

Identificadores de classe

Slide21

21Scheicher et. al. (2016)

generalized

Bag

of

Expressions

of

Domain

D1

This paper proposes a Quality Function Deployment method.

D2

This paper proposes a QFD method.

D3

This paper presents a case study on Quality Function Deployment method.

Slide22

22Scheicher et. al. (2016)

generalized

Bag

of

Expressions

of

Domain

D1

This paper proposes a Quality Function Deployment method.

D2

This paper proposes a QFD method.

D3

This paper presents a case study on Quality Function Deployment method.

Slide23

23Scheicher et. al. (2016)

Slide24

Nova abordagem de construção da gBoEDInverso da distância entre os termos do domínio e os identificadores de classeUtilização da representação como fonte informações enriquecidas para predição e melhoria de resultados de classificaçãoAplicação específica no contexto de análise de sentimentosPolaridade: Positivo e negativo24

Scheicher et. al. (2019)

Slide25

phone

_amazing

camera_best

navigation_nice

searching_nice

navigation

_

terrible

searching

_

terrible

1

0

0

0

0

0

0

1

0

0

0

0

0

0111125Scheicher et. al. (2019) - Método de Frequência

generalized Bag of Expressions

of DomainD1This phone is amazing.D2 The best 4mp digital camera available.D3

The navigation is nice enough, but searching through thousands of tracks is terrible.

D1

D2

D3

PREDIÇÃO

POSITIVO

POSITIVO

INDEFINIDO

Slide26

phone

_amazing

camera_best

navigation_nice

searching_nice

navigation

_

terrible

searching

_

terrible

1

0

0

0

0

0

0

1

0

0

0

0

0

010,500,100,2026Scheicher et. al. (2019) - Método de Distância

generalized Bag of Expressions

of DomainD1This phone is amazing.D2 The best 4mp digital camera available.D3

The navigation is nice enough, but searching through thousands of tracks is terrible.

D1

D2

D3

PREDIÇÃO

POSITIVO

POSITIVO

POSITIVO

Slide27

27

Slide28

28Scheicher et. al. (2019)

Slide29

Nova abordagem de construção da gBoEDConstrução da gBoED utilizando padrões de escrita e classes morfossintáticasFoi realizado um teste utilizando dois padrões de escritaIdioma inglês29

Trabalhos futuros

Slide30

30Scheicher et. al. (2019)

Slide31

Trabalhos FuturosUso de classes morfossintáticas e regrasFramework de apoio à construção de conhecimento31

Slide32

32Trabalhos futurosObservações realizadas:Durante as extrações dos termos foram identificados:

great JJ swivel NN lcd

NN

screen

NN

Slide33

33Trabalhos futurosObservações realizadasA construção das expressões do domínio por meio de padrões traz maior revocação. Identifica menos expressões porém mais corretamente.

As listas de expressões variam de acordo com o:DOMINIOIDIOMATIPO DE CLASSIFICAÇÃO A SER REALIZADADurante as extrações dos termos foram identificados:great

JJ

swivel

NN

lcd

NN

screen

NN

Slide34

34Trabalhos futurosFramework para apoio a construção das listas pelos especialistas de domínioProvê uma rede de conhecimento, formada por uma rede semântica ou ontologia que relaciona diferentes aspectos das palavras relacionadas a um domínio

Slide35

35Trabalhos futuros

Documentos

novos

Adj

+

Subst

Subst

+

Verb

+

Adj

. . .

Extração de termos

p

or meio de padrões

Construção da

gBoED

Construção de uma rede

de conhecimento pelo especialista

Identificação de termos

Identificação de

sinônimos

Relacionamento entre os termos

Listas de termos

Slide36

36Obrigado!!!

Slide37

Referências Bibliográficas37

Slide38

ANTUNES, J. Exploração de informações contextuais para enriquecimento semântico em representações de textos. 2018. 121 p. Dissertação (Mestrado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos – SP, 2018.BOLSHAKOVA, E.; LOUKACHEVITCH, N.; NOKEL, M.; 2013, Topic Models Can Improve Domain Term Extraction. In: Serdyukov P. et al. (eds) Advances in Information Retrieval. ECIR 2013. Lecture Notes in Computer Science,

vol 7814. Springer, Berlin, HeidelbergCarvalho, V. A. M.; Spolaôr, N.; Cherman E. A.; Monard, M

. C

.,

A

framework for multi-label exploratory data analysis: ML-EDA

, 2014 XL

Latin American Computing Conference (CLEI), Montevideo, 2014, pp. 1-12

.

CONRADO,

Merley

da Silva. 

Extração automática de termos simples baseada em aprendizado de máquina

. Tese (Doutorado) -- Instituto de Ciências Matemáticas e de Computação, 2014.

ERTEKIN

, S.; HUANG J.; BOTTOU, L; GILES, L. 2007.

Learning on the border: active learning in imbalanced data classification

. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management (CIKM '07). ACM, New York, NY, USA, 127-136

.

HEAP, B., BAIN,

M., Wobcke, W., Krzywicki, A., & Schmeidl, S. (2017). Word Vector Enrichment of Low Frequency Words in the Bag-of-Words Model for Short Text Multi-class Classification Problems. CoRR, abs/1709.05778.JIN, R.; SI, L. 2004. A Bayesian approach toward active learning for collaborative filtering. In Proceedings of the 20th conference on Uncertainty in artificial intelligence (UAI '04). AUAI Press, Arlington, Virginia, United States, 278-285.

38

Referências Bibliográficas

Slide39

KIM, S.; BALDWIN, T.; KAN, M. An unsupervised approach to domain-specific term extraction. In: Australasian Language Technology Association Workshop 2009. 2009. p. 94.LEWIS, D.; GALE, W. A sequential algorithm for training text classifiers. In Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval, p. 3–12 , 1994. ACM/Springer.MARQUES, C. A. N.; MATSUNO, I. P.; SINOARA, R. A.; REZENDE, S. O.; ROZENFELD, H. An exploratory study to evaluate the practical application of pss methods and tools based on text

mining. In: Proceedings of the 20th International Conference on Engineering Design. [S.l.: s.n.], 2015. p. 7–311–7–320. MATSUNO, I. P. et. al. Aspect-based Sentiment Analysis

using

Semi-supervised

Learning in

Bipartite

Heterogeneous

Networks

. JIDM v. 7, n. 2, p. 141--154, 2016

.

NAKAGAWA, H.; MORI T.

2002.

A

simple

but

powerful automatic term extraction method. In COLING-02

on COMPUTERM 2002: second international workshop on computational terminology - Volume 14 (COMPUTERM '02), Vol. 14. Association for Computational Linguistics, Stroudsburg, PA, USA, 1-7.PONTIKI, M.; GALANIS, D.;

PAPAGEORGIOU,

H.;

MANANDHAR,

S.; ANDROUTSOPOULOS, I. Semeval-2015 task 12: Aspect based sentiment analysis. In: SemEval 2015: Proceedings of the 9th International Workshop on Semantic Evaluation, 2015, p. 486–495. QUAN C.; REN, F., 2016, Textual emotion recognition for enhancing enterprise computing, Enterprise Information Systems, 10:4, 422-44339Referências Bibliográficas

Slide40

REZENDE, S. O.; PUGLIESI, J. B.; MELANDA, E. A.; PAULA, M. F. de. Mineração de dados. In: REZENDE, S. O. (Ed.). Sistemas Inteligentes: Fundamentos e Aplicações. [S.l.]: Editora Manole, 2003. p. 307–335. ROSSI, R. G. Inductive Model Generation for Text Classification Using a

Bipartite Heterogeneous Network. Journal of Computer Science and Technology v. 29, p. 361--375, 2014.SCHEICHER, R. B.; SINORARA, R. A.; KOGA, N. J.; REZENDE, S. O. Uso de expressões do domínio na classificação automática de documentos. XIII Encontro Nacional de Inteligência Artificial e Computacional, Volume 1, p. 625 – 636, 2016.

SINOARA

, R. A.; ROSSI, R. G.; REZENDE, S. O.

Semantic

role-

based

representations

in

text

classification

,

2016. 23rd

International

Conference

on Pattern Recognition (ICPR), Cancun, 2016, pp. 2313-2318.SINOARA, R. A. Aspectos semânticos na representação de textos para classificação automática

. Tese (Doutorado) — Universidade de São Paulo, 2018.SINOARA, R. A.; REZENDE, S. O. BEST sports: a portuguese collection of documents for semantics-concerned text mining research.

Relatório Técnico 424, Instituto de Ciências Matemáticas e

de Computação

, Universidade de São Paulo, 2018

TONG, S; KOLLER, D. 2002. Support vector machine active learning with applications to text classification. J. Mach. Learn. Res. 2 (March 2002), 45-66.40Referências Bibliográficas

Slide41

VIVALDI, J.; RODRÍGUEZ, H.. Using Wikipedia for Domain Terms Extraction. In: Proceedings of CHAT 2012: The 2nd Workshop on the Creation; Harmonization and Application of Terminology Resources; Co-located with TKE 2012; June 22; 2012; Madrid; Spain. Linköping University Electronic Press, 2012. p. 3-10.WANG, L.; HU, X.; YUAN, B.; LU J. Active

learning via query synthesis and nearest

neighbour

search

,

Neurocomputing

, volume 147, 2015, p. 426-434.

ZHANG, C.; NIU, Z.; JIANG, P.; FU, H.,

Domain-specific term extraction from free texts

, 2012 9th International Conference on Fuzzy Systems and Knowledge Discovery, Sichuan, 2012, pp. 1290-1293

.

Zhang, P.; He, Z.;

Using

data-driven feature enrichment of text representation and ensemble technique for sentence-level polarity

classification

, 2015

, Journal of Information Science, p.

531-549.

41Referências Bibliográficas