Introdução

Vamos analisar os dados referentes ao Exame Nacional de Desempenho dos Estudantes (ENADE) do ano de 2017, mais precisamente o desempenho dos alunos do curso de Geografia Licenciatura no respectivo ano.
Serão avaliados as notas, bem como as características desses alunos (Sexo,Turno e Região), tudo isso com base nas análises descritivas feitas neste trabalho.
Obs.: para fins de praticidade, os dados importados já serão com os devidos tratamentos: 1) Variáveis selecionadas como pedido na prova; 2) Filtro do Curso Selecionado; 3) Transformação dos rótulos das variáveis categóricas; 4) NA’s retirados.
## # A tibble: 6 × 27
##   CO_GRUPO CO_REGIAO_CURSO NU_IDADE TP_SEXO CO_TURNO_GRADUACAO NT_GER QE_I01 QE_I02 QE_I04
##      <dbl>           <dbl>    <dbl> <chr>                <dbl>  <dbl> <chr>  <chr>  <chr> 
## 1     3002               5       32 M                        4   39.3 B      A      B     
## 2     3002               5       28 F                        4   42.1 A      D      D     
## 3     3002               5       37 M                        4   43.5 B      A      D     
## 4     3002               5       26 M                        4   27.7 A      B      B     
## 5     3002               5       26 F                        4   53.8 B      D      D     
## 6     3002               5       23 M                        4   75.2 A      A      C     
## # ℹ 18 more variables: QE_I05 <chr>, QE_I08 <chr>, QE_I21 <chr>, QE_I22 <chr>,
## #   QE_I23 <chr>, NT_OBJ_FG <dbl>, NT_OBJ_CE <dbl>, Sexo <chr>, Regiao <chr>, Turno <chr>,
## #   Estado_Civil <chr>, Cor_Raca <chr>, Escolaridade_Pai <chr>, Escolaridade_Mae <chr>,
## #   Renda_Familiar <chr>, Familiar_Graduado <chr>, Qdade_Livros <chr>, Horas_Estudo <chr>
Faremos então uma apresentação das variáveis presentes nos dados, com suas respectivas classificações quanto ao tipo de variável, bem como as medidas descritivas de todas elas.
describe(bd$NT_OBJ_FG) # nota bruta da formação geral (quantitativa contínua)
## bd$NT_OBJ_FG 
##        n  missing distinct     Info     Mean      Gmd 
##     8808        0        9    0.965    48.16    22.07 
## 
## lowest :   0.0  12.5  25.0  37.5  50.0, highest:  50.0  62.5  75.0  87.5 100.0
##                                                                 
## Value        0.0  12.5  25.0  37.5  50.0  62.5  75.0  87.5 100.0
## Frequency    162   476  1104  1823  2131  1814   956   285    57
## Proportion 0.018 0.054 0.125 0.207 0.242 0.206 0.109 0.032 0.006
describe(bd$CO_GRUPO) # codigo do curso (qualitativa nominal)
## bd$CO_GRUPO 
##        n  missing distinct     Info     Mean      Gmd 
##     8808        0        1        0     3002        0 
##                
## Value      3002
## Frequency  8808
## Proportion    1
describe(bd$CO_REGIAO_CURSO) # codigo da regiao do curso (qualitativa nominal)
## bd$CO_REGIAO_CURSO 
##        n  missing distinct     Info     Mean      Gmd 
##     8808        0        5    0.933    2.832    1.242 
## 
## lowest : 1 2 3 4 5, highest: 1 2 3 4 5
##                                         
## Value          1     2     3     4     5
## Frequency    979  2698  2745  1600   786
## Proportion 0.111 0.306 0.312 0.182 0.089
describe(bd$QE_I02) # etnia do estudante (qualitativa nominal)
## bd$QE_I02 
##        n  missing distinct 
##     8808        0        6 
## 
## lowest : A B C D E, highest: B C D E F
##                                               
## Value          A     B     C     D     E     F
## Frequency   3428  1245   184  3632    68   251
## Proportion 0.389 0.141 0.021 0.412 0.008 0.028
describe(bd$CO_TURNO_GRADUACAO) # codigo do turno do curso (qualitativa nominal)
## bd$CO_TURNO_GRADUACAO 
##        n  missing distinct     Info     Mean      Gmd 
##     8808        0        4    0.772    3.083    1.242 
##                                   
## Value          1     2     3     4
## Frequency   1981   582   968  5277
## Proportion 0.225 0.066 0.110 0.599

Análise Estatística dos Dados

Faremos agora uma análise geral nos dados, identificando se existe alguma variável com valores nulos (NA’s).
##   CO_GRUPO CO_REGIAO_CURSO NU_IDADE TP_SEXO CO_TURNO_GRADUACAO NT_GER QE_I01 QE_I02 QE_I04
## 1        0               0        0       0                  0      0      0      0      0
##   QE_I05 QE_I08 QE_I21 QE_I22 QE_I23 NT_OBJ_FG NT_OBJ_CE Sexo Regiao Turno Estado_Civil
## 1      0      0      0      0      0         0         0    0      0     0            0
##   Cor_Raca Escolaridade_Pai Escolaridade_Mae Renda_Familiar Familiar_Graduado Qdade_Livros
## 1        0                0                0              0                 0            0
##   Horas_Estudo
## 1            0
Podemos perceber que não há valores nulos em nenhuma variável presente nos dados.
Analisaremos agora as notas gerais (NT_GER) dos alunos de Geografia Licenciatura, por meio das medidas descritivas.
Quantidade Media Mediana Moda CV Assimetria Curtose Minimo Maximo
8808 45.36131 45.1 0 33.16799 -0.02408845 -0.3360316 0 95.4
Podemos perceber que a média das notas dos alunos está um pouco abaixo da nota média da prova (Média = 45,4), pois a nota pode variar de 0 a 100; 50% dos alunos tiraram notas um pouco inferiores em relação a média (Mediana = 45,1); e nenhum aluno tirou a nota máxima do exame (Máximo = 95,4). Em relação a disposição dos dados, percebemos pelo coeficiente de assimetria e curtose que se trata de uma amostra com assimetria negativa e de distribuição platicúrtica (-0,02 e -0,34, respectivamente)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

Através do histograma acima podemos constatar a disposição dos dados quanto a sua assimetria, que é levemente a esquerda.
Iremos analisar agora como essas notas se comportam quanto ao turno em que eles estão matriculados.
## Warning: Returning more (or less) than 1 row per `summarise()` group was deprecated in dplyr 1.1.0.
## ℹ Please use `reframe()` instead.
## ℹ When switching from `summarise()` to `reframe()`, remember that `reframe()` always
##   returns an ungrouped data frame and adjust accordingly.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
## `summarise()` has grouped output by 'Turno'. You can override using the `.groups` argument.
Turno Quantidade Media Mediana Moda CV Assimetria Curtose
Noturno 5277 45.32109 45.10 58.4 32.61035 -0.02489077 -0.3505710
Matutino 1981 45.04609 44.90 0.0 35.08271 -0.08018973 -0.4108592
Integral 968 46.41973 46.45 35.9 33.43169 0.05537868 -0.2574012
Vespertino 582 45.03849 43.40 39.3 30.88562 0.06577753 -0.3450730
Vespertino 582 45.03849 43.40 42.2 30.88562 0.06577753 -0.3450730
Vespertino 582 45.03849 43.40 53.2 30.88562 0.06577753 -0.3450730
Percebemos que o turno com maior quantidade de alunos é o Noturno. O turno da Tarde aparece 3 vezes pois o turno apresenta 3 notas mais frequentemente (Moda).
O turno com melhor desempenho na prova foi o Integral (Média = 46,41) e cerca de 50% dos alunos obtiveram nota superior à Média (Moda = 46,45).
De acordo com os dados podemos ver que existe indícios de que as notas não se diferenciam significativamente entre os turnos.
Para confirmar se essa diferença de fato não existe, vamos fazer um Teste de Hipóteses Não Paramétrico (usado quando não sabemos qual é a distribuição dos dados), pois sabemos que não se trata de uma Distribuição Normal (Moda \(\neq\) Media \(\neq\) Moda).
## 
##  Shapiro-Wilk normality test
## 
## data:  sample(teste1$NT_GER, 5000)
## W = 0.99675, p-value = 5.621e-09
## 
##  Kruskal-Wallis rank sum test
## 
## data:  teste1$NT_GER by teste1$Turno
## Kruskal-Wallis chi-squared = 4.413, df = 3, p-value = 0.2202
O teste de normalidade de Shapiro-Wilk rejeitou a hipótese de que a distribuição dos dados seja Normal (Valor-P < 0,01%). Então foi feito o teste não paramétrico Kruskal-Wallis de semelhança de grupos, que não rejeitou a hipótese de que os turnos sejam semelhantes quanto a nota geral dos alunos (Valor-P = 22,02%). Esses testes levaram em consideração um nível de significância (\(\alpha\)) de 5%.
Faremos a seguir uma análise cruzada do Sexo e Turno.

O gráfico acima mostra a frequência relativa dos alunos quanto ao sexo e o turno. Notamos haver indícios de associação entre os grupos, pois os turnos se comportam de forma semelhante em ambos os sexos, mas para comprovar a análise empírica faremos o teste não paramétrico Qui-quadrado de Pearson, indicado para casos em que as variáveis envolvidas sejam categóricas e estejam dispostas em uma tabela de contingência.
## 
##  Pearson's Chi-squared test
## 
## data:  t4
## X-squared = 11.414, df = 3, p-value = 0.009684
O resultado do teste comprova o que observamos anteriormente, pois mostra que a 5% de significância os turnos têm associação com o sexo dos alunos (Valor-P = 0,9%).
A seguir uma análise do sexo dos alunos em relação a nota que eles obtiveram no exame.
## # A tibble: 2 × 8
##   Sexo      Quantidade Media Mediana  Moda    CV Assimetria Curtose
##   <chr>          <int> <dbl>   <dbl> <dbl> <dbl>      <dbl>   <dbl>
## 1 Feminino        4476  43.5    43.1  43.1  33.0     0.0625  -0.293
## 2 Masculino       4332  47.2    47.7  52.1  32.8    -0.147   -0.319
Podemos perceber que a melhor nota foi obtida pelo sexo masculino (Média = 47,2) e que 50% dos homens tiveram notas acima da média (Mediana = 47,7). A nota mais frequentemente vista foi 52,1 (Moda).
A distribuição da população feminina do curso possui assimetria positiva, diferentemente do visto nas notas gerais, indicando que mais mulheres tiveram notas menores que 50.

Com o gráfico percebemos que a curva do lado feminino tem a calda levemente mais pesada para o lado direito, com concentração dos dados no lado esquerdo, mostrando o que o coeficiente de assimetria indicou (assimetria positiva ou a direita). Já a curva do lado masculino é completamente o oposto.
Veremos a seguir se existe diferença no desempenho dos alunos quanto ao sexo.
## 
##  Kruskal-Wallis rank sum test
## 
## data:  teste1$NT_GER by teste1$Sexo
## Kruskal-Wallis chi-squared = 139.06, df = 1, p-value < 2.2e-16
Podemos afirmar que a 5% de significância o sexo masculino tenha desempenho diferente do sexo feminino (Valor-P < 0,01%)
Vamos analisar agora o cruzamento entre Turno e Região.

Percebemos que os turnos se comportam de forma bastante parecida em cada uma das regiões, exceto pela região Norte, pois os turnos da manhã e noite são bem semelhantes quanto a frequência dos alunos. Para tirarmos a conclusão sobre a existência de associação entre os turnos e as regiões faremos novamente o teste Qui-quadrado.
## 
##  Pearson's Chi-squared test
## 
## data:  t5
## X-squared = 1039, df = 12, p-value < 2.2e-16
Concluímos que, a 5% de significância as regiões estão associadas aos turnos em que os alunos estão matriculados.
A seguir uma análise das regiões dos alunos em relação a nota que eles obtiveram no exame.
## Warning: Returning more (or less) than 1 row per `summarise()` group was deprecated in dplyr 1.1.0.
## ℹ Please use `reframe()` instead.
## ℹ When switching from `summarise()` to `reframe()`, remember that `reframe()` always
##   returns an ungrouped data frame and adjust accordingly.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
## `summarise()` has grouped output by 'Regiao'. You can override using the `.groups`
## argument.
## # A tibble: 7 × 8
## # Groups:   Regiao [5]
##   Regiao       Quantidade Media Mediana  Moda    CV Assimetria Curtose
##   <chr>             <int> <dbl>   <dbl> <dbl> <dbl>      <dbl>   <dbl>
## 1 Sudeste            2745  48.4    49.7   0    33.1   -0.246    -0.251
## 2 Nordeste           2698  43.6    43.3  41.7  32.6   -0.0201   -0.191
## 3 Nordeste           2698  43.6    43.3  44.7  32.6   -0.0201   -0.191
## 4 Sul                1600  45.4    44.9  44.4  32.0    0.0819   -0.454
## 5 Norte               979  42.7    42.8  43.1  32.9    0.00548  -0.429
## 6 Norte               979  42.7    42.8  52.1  32.9    0.00548  -0.429
## 7 Centro-Oeste        786  43.9    42.8  59.2  33.5    0.151    -0.581
Vemos que a região mais populosa é a região Sudeste, em que a mesma contém as melhores notas. Já a região de pior desempenho foi a região Norte (Média = 42,7). Vemos regiões com assimetria negativa (Sudeste e Nordeste), por possuírem as notas mais altas, e as demais possuem assimetria positiva, por possuírem as notas mais baixas. Todas as regiões são platicúrticas.

Vemos com mais precisão que a região Sudeste é de fato a região que mais possui notas altas.
Veremos a seguir se existe diferença no desempenho dos alunos quanto a região.
## 
##  Kruskal-Wallis rank sum test
## 
## data:  teste1$NT_GER by teste1$Regiao
## Kruskal-Wallis chi-squared = 191.77, df = 4, p-value < 2.2e-16
Podemos afirmar que a 5% de significância as regiões têm desempenhos diferentes umas das outras.

Conclusão

Portanto, ao fazermos uso das análises estatísticas vistas anteriormente, temos os seguintes insights:
- O turno com melhor desempenho dos alunos, de um modo geral, é o Integral.
- Os homens, de um modo geral, possuem as melhores notas.
- A região com melhor desempenho dos alunos, de um modo geral, é a região Sudeste.
- Os alunos, independetemente do sexo, deram preferência ao turno da noite.
- Os alunos, independente da região que vivem, estudam preferencialmente no turno da noite.
- O sexo do aluno não influencia na escolha do turno em que se deseja estudar, bem como a região que ele habita.
- A nota geral dos alunos depende tanto do sexo do aluno quanto da região em que vive.

Configuração para GitHub Pages

knitr::opts_knit$set(output.dir = ‘docs’)