Reinforcement learning with spiking neural networks

CHEVTCHENKO, Sergio Fernandovitch

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/54351

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	LUDERMIR, Teresa Bernarda	-
dc.contributor.author	CHEVTCHENKO, Sergio Fernandovitch	-
dc.date.accessioned	2023-12-22T11:52:29Z	-
dc.date.available	2023-12-22T11:52:29Z	-
dc.date.issued	2023-08-15	-
dc.identifier.citation	CHEVTCHENKO, Sérgio Fernandovitch. Reinforcement learning with spiking neural networks. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/54351	-
dc.description.abstract	Artificial intelligence systems have made impressive progress in recent years, but they still lag behind simple biological brains in terms of control capabilities and power con- sumption. Spiking neural networks (SNNs) seek to emulate the energy efficiency, learning speed, and temporal processing of biological brains. However, in the context of reinforce- ment learning (RL), SNNs still fall short of traditional neural networks. The primary aim of this work is to bridge the performance gap between spiking models and powerful deep RL (DRL) algorithms on specific tasks. To this end, we have proposed new architectures that have been compared, both in terms of learning speed and final accuracy, to DRL algorithms and classical tabular RL approaches. This thesis consists of three stages. The initial stage presents a simple spiking model that addresses the scalability limitations of related models in terms of the state space. The model is evaluated on two classical RL problems: grid-world and acrobot. The results suggest that the proposed spiking model is comparable to both tabular and DRL algorithms, while maintaining an advantage in terms of complexity over the DRL algorithm. In the second stage, we further explore the proposed model by combining it with a binary feature extraction network. A binary con- volutional neural network (CNN) is pre-trained on a set of naturalistic RGB images and a separate set of images is used as observations on a modified grid-world task. We present improvements in architecture and dynamics to address this more challenging task with image observations. As before, the model is experimentally compared to state-of-the-art DRL algorithms. Additionally, we provide supplementary experiments to present a more detailed view of the connectivity and plasticity between different layers of the network. The third stage of this thesis presents a novel neuromorphic architecture for solving RL problems with real-valued observations. The proposed model incorporates feature extrac- tion layers, with the addition of temporal difference (TD)-error modulation and eligibility traces, building upon prior work. An ablation study confirms the significant impact of these components on the proposed model’s performance. Our model consistently outper- forms the tabular approach and successfully discovers stable control policies in mountain car, cart-pole and acrobot environments. Although the proposed model does not outper- form PPO in terms of optimal performance, it offers an appealing trade-off in terms of computational and hardware implementation requirements: the model does not require an external memory buffer nor global error gradient computation, and synaptic updates occur online, driven by local learning rules and a broadcast TD-error signal. We conclude by highlighting the limitations of our approach and suggest promising directions for future research.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Aprendizagem por reforço	pt_BR
dc.subject	STDP	pt_BR
dc.subject	Redes neurais de impulsos	pt_BR
dc.subject	FEAST	pt_BR
dc.subject	ODESA	pt_BR
dc.title	Reinforcement learning with spiking neural networks	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/5146318019503884	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/6321179168854922	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Nos últimos anos, sistemas de inteligência artificial têm progredido de forma impres- sionante, mas ainda estão aquém de cérebros biológicos simples em termos de capacidades de controle e consumo de energia. As redes neurais de impulsos (SNNs) buscam emular a eficiência energética, velocidade de aprendizado e processamento temporal de cérebros biológicos. No entanto, no contexto de aprendizado por reforço (RL), as SNNs ainda ficam aquém das redes neurais tradicionais. O objetivo principal deste trabalho é aproximar em termos de desempenho os modelos SNN dos algoritmos de aprendizagem profunda por reforço (DRL) em tarefas específicas. Para isso, propomos novas arquiteturas que foram comparadas, tanto em termos de velocidade de aprendizado quanto de precisão final, com algoritmos DRL e abordagens RL tabulares clássicas. Esta tese consiste em três etapas. A etapa inicial apresenta um modelo simples de uma rede de impulsos que aborda as limitações de escalabilidade de modelos relacionados em termos do espaço de estados. O modelo é avaliado em dois problemas clássicos de RL: grid-world e acrobot. Os resultados sugerem que o modelo proposto é comparável ao algoritmo tabular e a DRL, mantendo uma vantagem em termos de complexidade sobre o algoritmo DRL. Na segunda etapa, exploramos mais o modelo proposto, combinando-o com uma rede binária para extração de características. Uma rede neural convolucional (CNN) binária é pré-treinada em um conjunto de imagens RGB naturalistas e um conjunto separado de imagens é usado como observações em uma ambiente modificado de grid-world. Melhorias na arquitetura e na dinâmica são apresentadas para tratar esse problema mais complexo, com observações de imagens. Como antes, o modelo é comparado experimentalmente com algoritmos DRL do estado da arte. Além disso, experimentos complementares são fornecidos com objetivo de apresentar uma visão mais detalhada da conectividade e plasticidade entre diferentes ca- madas da rede. A terceira etapa desta tese apresenta uma nova arquitetura neuromórfica para resolver problemas de RL com observações de valores reais. O modelo proposto incor- pora camadas de redução de dimensionalidade, com a adição de modulação por TD-error e eligibility traces, baseando-se em trabalhos anteriores. Um estudo adicional é focado em confirmar o impacto significativo desses componentes no desempenho do modelo proposto. O modelo supera consistentemente a abordagem tabular e descobre com sucesso políticas de controle estáveis nos ambientes mountain car, cart-pole e acrobot. Embora o modelo proposto não supere o PPO em termos de latência, ele oferece uma alternativa em termos de requisitos computacionais e de hardware: o modelo não requer um buffer de memória externo nem computação de gradiente de erro global. Além disso, as atualizações sináp- ticas ocorrem online, por meio de regras de aprendizado local e um sinal de erro global. A tese conclui apresentando limitações da pesquisa e sugestões de trabalhos futuros.	pt_BR
Aparece nas coleções:	Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE Sergio Fernandovitch Chevtchenko.pdf		10.96 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons