Visualização de Dados Médicos

Main Image

O objetivo deste projeto é explorar a relação entre doenças cardíacas, medidas corporais, marcadores sanguíneos e escolhas de estilo de vida. O conjunto de dados foi coletado durante exames médicos. Foram utilizadas as bibliotecas matplotlib, seaborn e pandas para visualizar e realizar cálculos a partir do dados de exames médicos.

Descrição dos Dados

As linhas no conjunto de dados representam pacientes, e as colunas representam informações como medidas corporais, resultados de vários exames de sangue e escolhas de estilo de vida. A base de dados pode ser consultada na seção Base de Dados.

Aqui está uma breve descrição das colunas presentes na base de dados:

Característica Tipo da Variável Variável Tipo do Valor
Idade Característica Objetiva age inteiro (dias)
Altura Característica Objetiva height inteiro (cm)
Peso Característica Objetiva weight fracional (kg)
Gênero Característica Objetiva gender código categórico
Pressão Arterial Sistólica Característica de Exame ap_hi inteiro
Pressão Arterial Diastólica Característica de Exame ap_lo inteiro
Colesterol Característica de Exame cholesterol 1: normal, 2: acima do normal, 3: muito acima do normal
Glicose Característica de Exame gluc 1: normal, 2: acima do normal, 3: muito acima do normal
Tabagismo Característica Subjetiva smoke binário
Consumo de Álcool Característica Subjetiva alco binário
Atividade Física Característica Subjetiva active binário
Presença ou Ausência de Doença Cardiovascular Variável Alvo cardio binário

Etapa Inicial

Importação de Bibliotecas

O código começa importando as bibliotecas necessárias: Pandas para manipulação de dados, NumPy para operações numéricas, Matplotlib para visualizações básicas e Seaborn para visualizações estatísticas mais avançadas.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Base de Dados

Carregar base de dados

medical_data = pd.read_csv('medical_examination.csv')

Aqui temos uma pequena visualização dos valores presentes na base de dados. Apenas os primeiros 5 valores serão imprimidos.

# Imprime os primeiros valores
print(df.head())
id age gender height weight ap_hi ap_lo cholesterol gluc smoke alco active cardio
0 18393 2 168 62.0 110 80 1 1 0 0 1 0
1 20228 1 156 85.0 140 90 3 1 0 0 1 1
2 18857 1 165 64.0 130 70 3 1 0 0 0 1
3 17623 2 169 82.0 150 100 1 1 0 0 1 1
4 17474 1 156 56.0 100 60 1 1 0 0 0 0

O conjunto de dados completo pode ser encontrado em:

medical_examination.csv

Resultados

Gráfico de Barras
Mapa de Calor