Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/2828
Title: RetriBlog: um framework centrado na arquitetura para criação de blog crawlers
Authors: Ferreira Leite de Mello, Rafael
Keywords: Recuperação de informação; Rastreadores de Blogs; Arcabouço
Issue Date: 31-Jan-2011
Publisher: Universidade Federal de Pernambuco
Citation: Ferreira Leite de Mello, Rafael; Luiz Goncalves de Freitas, Frederico. RetriBlog: um framework centrado na arquitetura para criação de blog crawlers. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011.
Abstract: Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares, dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa. Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa grande quantidade de blogs. Para lidar com esse problema a área de recuperação de informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É importante destacar que para facilitar o acesso aos documentos, existe necessidade de indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de software conhecido como web crawlers. Especificamente no contexto de blogs, os web crawlers são chamados de blog crawlers. Diante desse cenário, este trabalho propõe um framework centrado na arquitetura para construção de blog crawlers. Por um lado, utilizar um framework centrado na arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também são disponibilizados, como por exemplo serviço para recomendação de tag. Para validar a proposta foram criados três estudos de caso. Além disto, os principais algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a eficiência dos principais algoritmos propostos
URI: https://repositorio.ufpe.br/handle/123456789/2828
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
arquivo8978_1.pdf3.9 MBAdobe PDFView/Open


This item is protected by original copyright



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.