Estatística para Ciência de Dados e Machine Learning
- Descrição
- Currículo
- FAQ
- Revisões
A Estatística proporciona os meios e as ferramentas para encontrar estrutura em dados com o objetivo de fornecer insights sobre as informações mais profundas ali escondidas. Medidas estatísticas como média, mediana, moda, desvio padrão e distribuição servem para descrever o comportamento das variáveis de uma base de dados, assim como identificar anomalias. Em outras palavras, é preciso conhecer a “matéria-prima” com que se está trabalhando por meio de características que nos servem de resumo sobre sua natureza. Esse é o objetivo da Estatística! Se os algoritmos de machine learning são as ferramentas que os cientistas de dados operam, a Estatística é o conhecimento sobre como e porquê essas ferramentas funcionam, permitindo escolher as ferramentas mais adequadas para tirar o melhor proveito delas.
Existe um ditado atribuído a Josh Wills, ex-funcionário do Google e do Cloudera e atualmente presidente de Engenharia de Dados do Slack: um cientista de dados é um programador melhor do que qualquer estatístico e um estatístico melhor do que qualquer programador. Sem um bom conhecimento estatístico, o cientista de dados é como um soldado cego com um arsenal poderoso. O domínio estatístico torna seu trabalho mais direcionado, eficiente e robusto, e permite uma utilização mais ativa dos modelos de machine learning já estabelecidos, uma vez que ele tem o conhecimento necessário para investigar as bases teóricas que fundamentam esses modelos.
Baseado nisso, neste curso você terá uma visão teórica e principalmente prática passo a passo sobre os principais conceitos de Estatística, bem como sua ligação com a Ciência de Dados e a Aprendizagem de Máquina (Machine Learning). Você aprenderá a teoria, os cálculos passo a passo, implementará os cálculos utilizando a linguagem de programação Python e também utilizará bibliotecas prontas! O diferencial deste curso é que além de aprender estatística, você aprenderá como utilizá-la em aprendizagem de máquina. O conteúdo está dividido em nove partes: (i) população e amostra, (ii) dados relativos e absolutos, (iii) distribuição de frequência, (iv) medidas de posição e dispersão, (v) distribuições estatísticas, (vi) probabilidade, (vii) intervalos de confiança e testes de hipóteses, (viii) correlação e regressão e (ix) visualização. Confira abaixo alguns dos tópicos que você aprenderá, integrando os conceitos estatísticos com aprendizagem de máquina e ciência de dados:
-
Uso de amostragem para trabalhar com dados desbalanceados em classificação ou regressão (undersampling e oversampling)
-
Cálculos de distribuição de frequência para aplicação de regras de associação
-
Avaliação de algoritmos de classificação utilizando medidas de posição e dispersão
-
Seleção de atributos utilizando cálculos de variância
-
Preenchimento de valores faltantes em bases de dados utilizando medidas de posição
-
Cálculo de padronização (z-score) aplicado em machine learning
-
Tratamento de dados enviesados em machine learning
-
Uso de distribuições estatísticas para inicialização de pesos em redes neurais artificiais
-
Algoritmo Naïve Bayes utilizando as distribuições de Bernoulli e Multinomial
-
Previsões com probabilidade em machine learning
-
Uso das técnicas ANOVA e Qui Quadrado para seleção de atributos em bases de dados
-
Testes de hipóteses paramétricos e não paramétricos, aplicados na avaliação de algoritmos
-
Previsão do preço de casas utilizando regressão linear
-
Criação de gráficos e mapas para ajudar na interpretação de dados
Este é o curso ideal caso você queira aumentar significativamente seus conhecimentos em Estatística, Ciência de Dados e Machine Learning, mais de 160 aulas com exercícios resolvidos! O curso é para todos os níveis de conhecimento, ou seja, se você é iniciante ou de nível avançado conseguirá aproveitar o conteúdo.
-
4IntroduçãoVídeo Aula
-
5População e amostraVídeo Aula
-
6Tabela de números aleatóriosVídeo Aula
-
7Amostragem aleatória simplesVídeo Aula
-
8Amostragem sistemática - teoriaVídeo Aula
-
9Amostragem sistemática - implementaçãoVídeo Aula
-
10Amostragem por grupos - teoriaVídeo Aula
-
11Amostragem por grupos - implementaçãoVídeo Aula
-
12Amostragem estratificada - teoriaVídeo Aula
-
13Amostragem estratificada - implementaçãoVídeo Aula
-
14Amostragem de reservatório - teoriaVídeo Aula
-
15Amostragem de reservatório - implementaçãoVídeo Aula
-
16Amostragem de reservatório - debug passo a passoVídeo Aula
-
17Comparativo das amostragensVídeo Aula
-
18EXERCÍCIOTexto
-
19Solução o exercícioVídeo Aula
-
20Introdução a classificaçãoVídeo Aula
-
21Introdução ao algoritmo Naïve BayesVídeo Aula
-
22Classificação com Naïve Bayes 1Vídeo Aula
-
23Classificação com Naïve Bayes 2Vídeo Aula
-
24Classificação com Naïve Bayes 3Vídeo Aula
-
25Subamostragem e sobreamostragem – teoriaVídeo Aula
-
26Subamostragem com Tomek links – implementaçãoVídeo Aula
-
27Sobreamostragem com SMOTE – implementaçãoVídeo Aula
-
28EXERCÍCIOTexto
-
29Solução para o exercícioVídeo Aula
-
38IntroduçãoVídeo Aula
-
39Distribuição de frequência - teoriaVídeo Aula
-
40Distribuição de frequência - implementação 1Vídeo Aula
-
41Distribuição de frequência - implementação 2Vídeo Aula
-
42Histograma com numpy e matplotlibVídeo Aula
-
43Histograma com pandas e seabornVídeo Aula
-
44EXERCÍCIOTexto
-
45Solução para o exercícioVídeo Aula
-
46Introdução a regras de associaçãoVídeo Aula
-
47Algoritmo AprioriVídeo Aula
-
48Regras de associação com AprioriVídeo Aula
-
49IntroduçãoVídeo Aula
-
50Média aritmética, moda e mediana – dados não agrupadosVídeo Aula
-
51Média aritmética, moda e mediana – implementaçãoVídeo Aula
-
52Média aritmética ponderadaVídeo Aula
-
53Média aritmética, moda e mediana – dados agrupadosVídeo Aula
-
54Média aritmética, moda e mediana – implementaçãoVídeo Aula
-
55Média geométrica, harmônica e quadráticaVídeo Aula
-
56Quartis - dados não agrupadosVídeo Aula
-
57Quartis - implementação 1Vídeo Aula
-
58Quartis - dados agrupadosVídeo Aula
-
59Quartis - implementação 2Vídeo Aula
-
60PercentisVídeo Aula
-
61EXERCÍCIOTexto
-
62Solução para o exercícioVídeo Aula
-
63Amplitude amostral e diferença interquartilVídeo Aula
-
64Variância - dados não agrupadosVídeo Aula
-
65Variância - implementaçãoVídeo Aula
-
66Desvio padrão - teoria e implementaçãoVídeo Aula
-
67Coeficiente de variação - teoria e implementaçãoVídeo Aula
-
68Desvio padrão com dados agrupadosVídeo Aula
-
69Desvio padrão com dados agrupados - implementaçãoVídeo Aula
-
70Árvores de decisãoVídeo Aula
-
71Regressão logísticaVídeo Aula
-
72Avaliação de algoritmos de machine learning 1Vídeo Aula
-
73Avaliação de algoritmos de machine learning 2Vídeo Aula
-
74EXERCÍCIOTexto
-
75Validação cruzadaVídeo Aula
-
76Solução para o exercícioVídeo Aula
-
77Seleção de atributos com variânciaVídeo Aula
-
78EXERCÍCIOTexto
-
79Solução para o exercícioVídeo Aula
-
80Valores faltantes com média e modaVídeo Aula