Desmatamento de Biomas e PIB

Dashboard interativo que analisa o desmatamento de biomas brasileiros e sua relação com o PIB nos anos de 2013 a 2022.

KNIME PowerBI Power Query PostgreSQL

Visão Geral

Este projeto foi desenvolvido para a disciplina Introdução à Análise de Dados, na Universidade Federal de Itajubá, com o objetivo de analisar o desmatamento de biomas brasileiros e sua relação com o PIB.

O objetivo principal era criar uma visualização que permitisse explorar o impacto do desmatamento no PIB dos biomas brasileiros, utilizando dados de desmatamento e PIB agropecuário e extrativista de 2013 a 2022. O projeto envolveu a coleta, limpeza e análise dos dados, além do desenvolvimento de um dashboard interativo no Power BI.

Objetivos

Principais Metas

  • • Dashboard interativo para diferentes tipos de usuários
  • • Relacionar PIB e desmatamento de biomas
  • • Monitorar a saúde dos biomas e da economia

KPIs Monitorados

  • • Eficiência - Monitorar o valor do PIB por hectare desmatado
  • • Pressão do desmatamento - Monitorar o quanto ainda há de vegetação nativa

Implementação

Pipeline de Dados

1

Extração de Dados

Conexão com APIs do TerraBrasilis, IBGE, BDIA, bem como o uso de arquivos CSV do IpeaData

2

Transformação e Limpeza

Limpeza de dados, tratamento de valores nulos, padronização de formatos e relações criadas usando o KNIME

3

Modelagem de Dados

Modelagem relacional no PostgreSQL, inserção de dados transformados e criação de tabelas

4

Visualização

Uso do Power BI para criar dashboards interativos, gráficos e relatórios a partir dos dados modelados e extraídos

Funcionalidades Principais

  • • Visão geral do desmatamento de biomas
  • • Visão geral do PIB agropecuário e extrativista dos biomas
  • • Relação do PIB com desmatamento
  • • Implementação de KPIs de monitoramento

Tecnologias Utilizadas

  • Power BI - Visualização e dashboards
  • KNIME - ETL
  • PostgreSQL - Banco de dados
  • DAX - Cálculos e métricas
  • Power Query - ETL

Desafios e Soluções

Desafio: APIs nada documentadas

Usar a API do Terra Brasilis foi um grande desafio, isso porque ela não era documentada. Descobri que ela existia revirando a página do TerraBrasilis, quando eu fazia o download de um CSV o site fazia uma requisição a uma API, então foi necessário fazer uma engenharia reversa para entender os campos do .json retornados pela API e verificar esses dados de acordo com os dashboards presentes no site da mesma.

Solução: Engenharia reversa e testes de qualidade para garantir a integridade dos dados.

Desafio: Relacionamento de diferentes fontes de dados

O volume de dados era alto e as fontes eram diversas, o que tornava difícil relacionar as informações de forma eficiente. Um estado pode conter vários biomas, o que exigia uma modelagem cuidadosa para evitar redundâncias e garantir a integridade referencial.

Solução: Relacionar os dados de desmatamento e PIB por ano e estado, utilizando chaves primárias e estrangeiras para garantir a integridade dos dados e os dados do CSV. A modelagem foi feita no PostgreSQL, onde criei tabelas específicas para cada bioma e suas relações com os estados.

Aprendizados

  • A importância de garantir a qualidade dos dados extraídos para evitar erros
  • Como otimizar consultas DAX para melhor performance em grandes volumes de dados
  • A necessidade de criar dashboards intuitivos que atendam diferentes níveis de usuários
  • Engenharia Reversa