Agenda de defesas Agenda de defesas

Voltar

Ciência da Computação promove defesa de dissertação no dia 27 deste mês

O orientador da pesquisa é o professor Ricardo Bastos Cavalcante Prudêncio

O Programa de Pós-Graduação em Ciência da Computação do Centro de Informática (CIn) da UFPE promove defesa da dissertação de mestrado “Extração de Termos de Aspectos para a Mineração de Opinião Aplicada à Língua Portuguesa: Uma Adaptação do Método Double Propagation”, do aluno Arthur Caíque Bezerra Vieira. A defesa será no dia 27 deste mês, às 9h, no auditório do CIn, no Campus Recife.

O orientador da pesquisa é o professor Ricardo Bastos Cavalcante Prudêncio. A coorientadora é a professora Flávia de Almeida Barros. A banca examinadora será composta pelos professores Luciano de Andrade Barbosa (UFPE/Centro de Informática), Rafael Ferreira Leite de Mello (UFRPE/Departamento de Estatística e Informática) e Flávia de Almeida Barros (UFPE/Centro de Informática).

Resumo

A popularização de fóruns on-line e do e-commerce favoreceu o aumento do número de comentários/avaliações na web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração de Opinião (MO) – também conhecida como Análise de Sentimento. Quando a MO é realizada apenas com base em textos, ela é chamada de Mineração de Texto (MT). A MT busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MT a partir de resenhas em português sobre produtos, com foco principal na primeira etapa da MT, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento – regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias etc), que tem obtido desempenho comparável à abordagem supervisionada para a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de precisão na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/prunning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa.

Mais informações
Programa de Pós-Graduação em Ciência da Computação
(81) 2126.8430

Data da última modificação: 23/08/2018, 12:07