Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/58828

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorALMEIDA, Marcos Antônio Martins de-
dc.contributor.authorQUEIROZ, Marcelo Herculino-
dc.date.accessioned2024-11-18T12:02:35Z-
dc.date.available2024-11-18T12:02:35Z-
dc.date.issued2024-10-16-
dc.date.submitted2024-10-29-
dc.identifier.citationQUEIROZ, Marcelo Herculino. Binarização de documentos históricos baseado na estatística. 2024. 96 f. TCC (Graduação) - Curso de Engenharia Eletrônica, Departamento de Eletrônica e Sistemas, Centro de Tecnologia e Geociências, Universidade Federal de Pernambuco, Recife, 2024.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/58828-
dc.description.abstractA perda de informações ao longo da história é um fenômeno de grande relevância, pois é através do conhecimento que muitas culturas e tradições se perpetuam. Nesse sentido, surge a necessidade do armazenamento de documentos históricos. Atualmente, técnicas de binarização de imagens têm sido empregadas para extrair informações de textos históricos. Assim, este trabalho propõe a união da estatística ao processo de binarização, visando aprimorar a binarização, ao incorporar um threshold estatístico. O threshold é um valor que separa os pixels (menor unidade de uma imagem digital) de uma imagem em categorias. O objetivo é extrair dados de documentos históricos para realizar a análise da significância dos dados através do teste de normalidade das distribuições obtidas. A verificação da normalidade é fundamental para a validade de várias técnicas estatísticas, em especial os métodos paramétricos (técnicas estatísticas que só podem ser realizadas quando os dados seguem a normalidade), como a análise de variância (análise que compara as médias de três ou mais grupos para determinar se há diferenças significativas entre os grupos), que pressupõem que os dados sigam uma distribuição normal (distribuição simétrica em torno da média). A conformidade com este pressuposto é um requisito crucial para a validade dos resultados obtidos. Para garantir a normalidade ou pelo menos aproximar os dados dessa condição, faz-se uso de uma técnica estatística conhecida como bootstrapping. Este método cria múltiplas amostras a partir dos dados originais, possibilitando uma análise mais robusta da distribuição dos dados e a realização de ajustes necessários para garantir que atendam aos pressupostos de normalidade. Ao finalizar o processo de extração e análise dos dados são calculadas as médias locais das amostras e a média global, com o intuito de determinar o threshold para a binarização dos documentos históricos, que é o modelo proposto neste trabalho. Além do modelo proposto, são aplicadas outras técnicas de binarização clássicas, que visam realizar uma comparação entre os métodos tradicionais e o modelo desenvolvido. Essa comparação é efetuada utilizando métricas como a relação Sinal-Ruído de Pico (métrica que mede a qualidade de uma imagem) e o mapeamento de pixels nas imagens binarizadas, permitindo avaliar a qualidade das binarizações e identificar a técnica mais eficaz para a preservação da integridade das informações contidas nos documentos históricos.pt_BR
dc.format.extent97p.pt_BR
dc.language.isoporpt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInformaçõespt_BR
dc.subjectArmazenamentopt_BR
dc.subjectBinarizaçãopt_BR
dc.subjectEstatísticapt_BR
dc.subjectThresholdpt_BR
dc.titleBinarização de documentos históricos baseado na estatísticapt_BR
dc.typebachelorThesispt_BR
dc.degree.levelGraduacaopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/2140863905290751pt_BR
dc.description.abstractxThe loss of information throughout history is a highly relevant phenomenon, since it is through knowledge that many cultures and traditions are perpetuated. In this sense, the need for storing historical documents arises. Currently, image binarization techniques have been used to extract information from historical texts. Thus, this work proposes the union of statistics with the binarization process, aiming to improve binarization by incorporating a statistical threshold. The threshold is a value that separates the pixels (the smallest unit of a digital image) of an image into categories. The objective is to extract data from historical documents to perform the analysis of the significance of the data through the normality test of the distributions obtained. Checking for normality is essential for the validity of several statistical techniques, especially parametric methods (statistical techniques that can only be performed when the data follow normality), such as analysis of variance (analysis that compares the means of three or more groups to determine whether there are significant differences between the groups), which assume that the data follow a normal distribution (symmetrical distribution around the mean). Compliance with this assumption is a crucial requirement for the validity of the results obtained. To ensure normality or at least bring the data closer to this condition, a statistical technique known as bootstrapping is used. This method creates multiple samples from the original data, enabling a more robust analysis of the data distribution and the necessary adjustments to ensure that they meet the assumptions of normality. At the end of the data extraction and analysis process, the local averages of the samples and the global average are calculated in order to determine the threshold for binarization of historical documents, which is the model proposed in this work. In addition to the proposed model, other classical binarization techniques are applied, which aim to perform a comparison between traditional methods and the developed model. This comparison is made using metrics such as the Peak Signal-to-Noise ratio (a metric that measures the quality of an image) and pixel mapping in the binarized images, allowing the evaluation of the quality of the binarizations and the identification of the most effective technique for preserving the integrity of the information contained in historical documents.pt_BR
dc.subject.cnpqÁreas::Engenhariaspt_BR
dc.degree.departament::(CTG-DES) - Departamento de Eletrônica e Sistemaspt_BR
dc.degree.graduation::CTG-Curso de Engenharia Eletrônicapt_BR
dc.degree.grantorUniversidade Federal de Pernambucopt_BR
dc.degree.localRecifept_BR
Aparece en las colecciones: (TCC) - Eletrônica e Sistemas

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TCC_MARCELO_HERCULINO_QUEIROZ_MHQ-OK_rev_bib.pdf4,36 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons