Introdução
Vamos analisar os dados referentes ao Exame Nacional de Desempenho
dos Estudantes (ENADE) do ano de 2017, mais
precisamente o desempenho dos alunos do curso de Geografia Licenciatura
no respectivo ano.
Análise Estatística dos Dados
Podemos perceber que não há valores nulos em nenhuma variável
presente nos dados.
Analisaremos agora as notas gerais (NT_GER) dos alunos de
Geografia Licenciatura, por meio das medidas descritivas.
Quantidade
|
Media
|
Mediana
|
Moda
|
CV
|
Assimetria
|
Curtose
|
Minimo
|
Maximo
|
8808
|
45.36131
|
45.1
|
0
|
33.16799
|
-0.02408845
|
-0.3360316
|
0
|
95.4
|
Através do histograma acima podemos constatar a disposição dos dados
quanto a sua assimetria, que é levemente a esquerda.
Iremos analisar agora como essas notas se comportam quanto ao turno
em que eles estão matriculados.
## Warning: Returning more (or less) than 1 row per `summarise()` group was deprecated in dplyr 1.1.0.
## ℹ Please use `reframe()` instead.
## ℹ When switching from `summarise()` to `reframe()`, remember that `reframe()` always
## returns an ungrouped data frame and adjust accordingly.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
## `summarise()` has grouped output by 'Turno'. You can override using the `.groups` argument.
Turno
|
Quantidade
|
Media
|
Mediana
|
Moda
|
CV
|
Assimetria
|
Curtose
|
Noturno
|
5277
|
45.32109
|
45.10
|
58.4
|
32.61035
|
-0.02489077
|
-0.3505710
|
Matutino
|
1981
|
45.04609
|
44.90
|
0.0
|
35.08271
|
-0.08018973
|
-0.4108592
|
Integral
|
968
|
46.41973
|
46.45
|
35.9
|
33.43169
|
0.05537868
|
-0.2574012
|
Vespertino
|
582
|
45.03849
|
43.40
|
39.3
|
30.88562
|
0.06577753
|
-0.3450730
|
Vespertino
|
582
|
45.03849
|
43.40
|
42.2
|
30.88562
|
0.06577753
|
-0.3450730
|
Vespertino
|
582
|
45.03849
|
43.40
|
53.2
|
30.88562
|
0.06577753
|
-0.3450730
|
Percebemos que o turno com maior quantidade de alunos é o Noturno. O
turno da Tarde aparece 3 vezes pois o turno apresenta 3 notas mais
frequentemente (Moda).
O turno com melhor desempenho na prova foi o Integral (Média
= 46,41) e cerca de 50% dos alunos obtiveram nota superior à
Média (Moda = 46,45).
De acordo com os dados podemos ver que existe indícios de que as
notas não se diferenciam significativamente entre os turnos.
O teste de normalidade de Shapiro-Wilk rejeitou a hipótese de que a
distribuição dos dados seja Normal (Valor-P <
0,01%). Então foi feito o teste não paramétrico Kruskal-Wallis
de semelhança de grupos, que não rejeitou a hipótese de que os turnos
sejam semelhantes quanto a nota geral dos alunos (Valor-P =
22,02%). Esses testes levaram em consideração um nível de
significância (\(\alpha\)) de 5%.
Faremos a seguir uma análise cruzada do Sexo e Turno.

O gráfico acima mostra a frequência relativa dos alunos quanto ao
sexo e o turno. Notamos haver indícios de associação entre os grupos,
pois os turnos se comportam de forma semelhante em ambos os sexos, mas
para comprovar a análise empírica faremos o teste não paramétrico
Qui-quadrado de Pearson, indicado para casos em que as variáveis
envolvidas sejam categóricas e estejam dispostas em uma tabela de
contingência.
##
## Pearson's Chi-squared test
##
## data: t4
## X-squared = 11.414, df = 3, p-value = 0.009684
O resultado do teste comprova o que observamos anteriormente, pois
mostra que a 5% de significância os turnos têm associação com o sexo dos
alunos (Valor-P = 0,9%).
A seguir uma análise do sexo dos alunos em relação a nota que eles
obtiveram no exame.
## # A tibble: 2 × 8
## Sexo Quantidade Media Mediana Moda CV Assimetria Curtose
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Feminino 4476 43.5 43.1 43.1 33.0 0.0625 -0.293
## 2 Masculino 4332 47.2 47.7 52.1 32.8 -0.147 -0.319
Podemos perceber que a melhor nota foi obtida pelo sexo masculino
(Média = 47,2) e que 50% dos homens tiveram notas acima
da média (Mediana = 47,7). A nota mais frequentemente
vista foi 52,1 (Moda).
A distribuição da população feminina do curso possui assimetria
positiva, diferentemente do visto nas notas gerais, indicando que mais
mulheres tiveram notas menores que 50.

Com o gráfico percebemos que a curva do lado feminino tem a calda
levemente mais pesada para o lado direito, com concentração dos dados no
lado esquerdo, mostrando o que o coeficiente de assimetria indicou
(assimetria positiva ou a direita). Já a curva do lado masculino é
completamente o oposto.
Veremos a seguir se existe diferença no desempenho dos alunos quanto
ao sexo.
##
## Kruskal-Wallis rank sum test
##
## data: teste1$NT_GER by teste1$Sexo
## Kruskal-Wallis chi-squared = 139.06, df = 1, p-value < 2.2e-16
Podemos afirmar que a 5% de significância o sexo masculino tenha
desempenho diferente do sexo feminino (Valor-P <
0,01%)
Vamos analisar agora o cruzamento entre Turno e
Região.

Concluímos que, a 5% de significância as regiões estão associadas
aos turnos em que os alunos estão matriculados.
A seguir uma análise das regiões dos alunos em relação a nota que
eles obtiveram no exame.
## Warning: Returning more (or less) than 1 row per `summarise()` group was deprecated in dplyr 1.1.0.
## ℹ Please use `reframe()` instead.
## ℹ When switching from `summarise()` to `reframe()`, remember that `reframe()` always
## returns an ungrouped data frame and adjust accordingly.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
## `summarise()` has grouped output by 'Regiao'. You can override using the `.groups`
## argument.
## # A tibble: 7 × 8
## # Groups: Regiao [5]
## Regiao Quantidade Media Mediana Moda CV Assimetria Curtose
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Sudeste 2745 48.4 49.7 0 33.1 -0.246 -0.251
## 2 Nordeste 2698 43.6 43.3 41.7 32.6 -0.0201 -0.191
## 3 Nordeste 2698 43.6 43.3 44.7 32.6 -0.0201 -0.191
## 4 Sul 1600 45.4 44.9 44.4 32.0 0.0819 -0.454
## 5 Norte 979 42.7 42.8 43.1 32.9 0.00548 -0.429
## 6 Norte 979 42.7 42.8 52.1 32.9 0.00548 -0.429
## 7 Centro-Oeste 786 43.9 42.8 59.2 33.5 0.151 -0.581
Vemos com mais precisão que a região Sudeste é de fato a região que
mais possui notas altas.
Veremos a seguir se existe diferença no desempenho dos alunos quanto
a região.
##
## Kruskal-Wallis rank sum test
##
## data: teste1$NT_GER by teste1$Regiao
## Kruskal-Wallis chi-squared = 191.77, df = 4, p-value < 2.2e-16
Podemos afirmar que a 5% de significância as regiões têm desempenhos
diferentes umas das outras.
Conclusão
Portanto, ao fazermos uso das análises estatísticas vistas
anteriormente, temos os seguintes insights:
- O turno com melhor desempenho dos alunos, de um modo geral, é o
Integral.
- Os homens, de um modo geral, possuem as melhores notas.
- A região com melhor desempenho dos alunos, de um modo geral, é a
região Sudeste.
- Os alunos, independetemente do sexo, deram preferência ao turno da
noite.
- Os alunos, independente da região que vivem, estudam
preferencialmente no turno da noite.
- O sexo do aluno não influencia na escolha do turno em que se
deseja estudar, bem como a região que ele habita.
- A nota geral dos alunos depende tanto do sexo do aluno quanto da
região em que vive.
Configuração para GitHub Pages
knitr::opts_knit$set(output.dir = ‘docs’)