Curso de Data Science com Python baseado em projetos
- Descrição
- Currículo
- FAQ
- Revisões
Seja bem-vindo à jornada fascinante da Ciência de Dados! Em um mundo cada vez mais orientado por dados, o curso que apresentamos é a chave para desbloquear o potencial ilimitado do universo da análise e interpretação de dados. Prepare-se para mergulhar em uma experiência educacional enriquecedora que o capacitará a transformar dados brutos em insights valiosos.
Este curso apresenta mais de 10 projetos na área de Ciência de Dados, utilizando conjuntos de dados reais disponibilizados gratuitamente.
Visão Geral do Curso:
1 – Fundamentos da Ciência de Dados:
Explore os conceitos essenciais que formam a base sólida da ciência de dados.
Compreenda a importância da coleta, limpeza e organização de dados para análises significativas.
2 – Linguagem de Programação:
Domine a linguagem de programação Python para implementar algoritmos e modelos de Machine Learning.
Desenvolva habilidades práticas na manipulação de dados e na automação de tarefas.
3 – Análise Estatística:
Aprofunde-se nas técnicas estatísticas para interpretar padrões, tendências e variabilidades nos dados.
Aprenda a realizar testes de hipóteses e a tirar conclusões significativas.
4 – Machine Learning e Modelagem Preditiva:
Descubra o fascinante mundo do Machine Learning, desde algoritmos básicos até modelos avançados.
Aplique técnicas de modelagem preditiva para antecipar tendências e tomar decisões baseadas em dados.
5 – Visualização de Dados:
Adquira habilidades na criação de visualizações gráficas impactantes que comunicam de maneira eficaz as descobertas extraídas dos dados.
Utilize ferramentas como Seaborn, Plotly e Matplotlib para contar histórias envolventes por meio dos dados.
6 – Conjuntos de dados reais:
Trabalhe com dados reais de diversas áreas de negócio, unindo teoria e prática na medida certa.
Ao embarcar nesta jornada conosco, você estará investindo no seu futuro e se preparando para se destacar em um mundo movido por dados. Não apenas adquirirá habilidades técnicas valiosas, mas também desenvolverá uma mentalidade analítica e crítica essencial para o sucesso na carreira de Ciência de Dados. Junte-se a nós e transforme dados em insights, conhecimento em ação, e seu potencial em realidade!
-
4Introdução à linguagem PythonVídeo Aula
O objetivo deste módulo é inicialmente definir o conceito de programação de computadores e na sequência apresentar as principais características da linguagem Python. A proposta deste curso é apresentar desde os conceitos mais básicos até os mais avançados.
-
5Instalação do AnacondaVídeo Aula
Nessa videoaula, aprenderemos como fazer a instalação da distribuição Anaconda.
Anaconda é um ecossistema de código aberto com milhares de pacotes para ciência de dados e machine learning, e por essa razão é a plataforma preferida pelos cientistas de dados. Anaconda é uma solução flexível e de código aberto que fornece pacotes para construir, distribuir, instalar, atualizar e gerenciar software em multiplataforma.
-
6Apresentando o Projeto JupyterVídeo Aula
Nessa videoaula, vamos apresentar o projeto Júpiter.
O Projeto Jupyter é um projeto de código aberto sem fins lucrativos, nascido do Projeto IPython em 2014. Oferece suporte à Ciência de Dados interativa e computação científica em várias linguagens de programação como Python, R, Julia entre outras. Jupyter funciona a partir de um navegador web, onde são escritos os notebooks contendo códigos, dados e textos. É a primeira ferramenta que os cientistas de dados executam para realizar seus trabalhos.
Utilizaremos o Jupyter Notebook 01-ComoUtilizarJupyter.ipynb
-
7Fundamentos da Linguagem PythonVídeo Aula
Nessa videoaula, estudaremos alguns fundamentos da linguagem Python que utilizaremos durante todo o curso e também durante toda a nossa vida, enquanto estivermos trabalhando com Ciência de Dados.
Utilizaremos o Jupyter Notebook 02-indentacao.ipynb
-
8Tipos de dados e operações matemáticasVídeo Aula
Nessa videoaula, daremos continuidade no estudo sobre a linguagem Python e os assuntos abordados serão tipos de dados e operações matemáticas.
Utilizaremos o Jupyter Notebook 03-Tipos-de-dados-e-operacoes-matematicas.ipynb
-
9Correção dos exercícios tipos de dados e operações matemáticasVídeo Aula
Nessa videoaula, apresentaremos uma proposta de solução para cada um dos exercícios sobre tipos de dados e operações matemáticas. Falamos sobre apresentar uma proposta, porque em programação existem diversas maneiras de resolver o mesmo problema. Não existe apenas uma forma correta. O importante é você chegar ao resultado.
Utilizaremos o Jupyter Notebook 03-Tipos-de-dados-e-operacoes-matematicas.ipynb
-
10VariáveisVídeo Aula
Nessa videoaula, faremos um aprofundamento no conhecimento sobre o conceito variáveis.
Utilizaremos o Jupyter Notebook 04-Variaveis.ipynb
-
11Correções dos exercícios sobre variáveisVídeo Aula
Nessa videoaula, apresentaremos uma proposta de solução para cada um dos exercícios sobre variáveis.
Utilizaremos o Jupyter Notebook 04-Variaveis.ipynb
-
12StringsVídeo Aula
Nessa videoaula estudaremos sobre como trabalhar com textos.
Para manipular texto, utilizamos variáveis do tipo string. Em Python, uma string é uma sequência de caracteres, onde cada elemento dessa sequência pode ser controlado.
Utilizaremos o Jupyter Notebook 05-Strings.ipynb
-
13Correção dos exercícios sobre stringsVídeo Aula
Nessa videoaula, corrigimos os exercícios sobre Strings.
Utilizaremos o Jupyter Notebook 05-Strings.ipynb
-
14ListasVídeo Aula
Nessa videoaula, estudaremos sobre o conceito de listas. Uma lista em Python é uma sequência ou coleção ordenada de valores. Cada valor na lista é identificado por um índice. E os valores que formam uma lista são chamados de elementos ou itens.
Utilizaremos o Jupyter Notebook 06-Listas.ipynb
-
15Correção dos exercícios sobre listasVídeo Aula
Vamos fazer a correção dos exercícios sobre listas.
Utilizaremos o Jupyter Notebook 06-Listas.ipynb
-
16TuplasVídeo Aula
Nessa videoaula estudaremos o conceito sobre tuplas. Tupla é um tipo de estrutura de dados utilizada em Python que funciona de modo semelhante a uma lista. Assim como as listas, uma tupla em Python é uma sequência ou coleção ordenada de valores, entretanto com a característica principal de ser imutável.
Utilizaremos o Jupyter Notebook 07-Tuplas.ipynb
-
17Correção dos exercícios sobre tuplasVídeo Aula
Nessa videoaula, apresentaremos uma proposta para resolver os exercícios sobre Tuplas.
Utilizaremos o Jupyter Notebook 07-Tuplas.ipynb
-
18DicionáriosVídeo Aula
Nessa videoaula, estudaremos sobre o conceito de Dicionários. Dicionários são estruturas de armazenamento de dados mapeados por um par de chave e valor. Uma chave pode ter um ou diversos valores associados a ela. Os valores de um dicionário podem ser de qualquer tipo de dado e também podem ser modificados sempre que necessário.
Utilizaremos o Jupyter Notebook 08-Dicionarios.ipynb
-
19Correção dos exercícios sobre dicionáriosVídeo Aula
Nessa videoaula, faremos a correção do exercício sobre dicionários.
Utilizaremos o Jupyter Notebook 08-Dicionarios.ipynb
-
20Estrutura Condicional IF - ELIF - ELSEVídeo Aula
Nessa videoaula, estudaremos as estruturas condicionais. Uma estrutura de condição, como o próprio nome já diz, verifica a condição de uma sentença e executa um código ou bloco de código caso a condição seja verdadeira.
Em Python, utilizamos a palavra reservada IF para construir uma estrutura condicional. IF é uma palavra em inglês, que traduzindo para o português, significa a conjunção condicional SE.
Utilizaremos o Jupyter Notebook 09-If-Elif-Else.ipynb
-
21Correção dos exercícios sobre estruturas condicionaisVídeo Aula
Nessa videoaula faremos a correção dos exercícios sobre estruturas condicionais.
Utilizaremos o Jupyter Notebook 09-If-Elif-Else.ipynb
-
22Estrutura de repetição FORVídeo Aula
Em algumas situações é comum que uma mesma instrução, ou um conjunto delas, precise ser executada várias vezes seguidas. Nesses casos, normalmente, utilizamos um loop também conhecido como laço de repetição, que permite executar o mesmo bloco de código enquanto uma condição é atendida. Em Python, os loops são codificados com as estruturas de repetição FOR e WHILE. Nessa videoaula estudaremos sobre a estrutura de repetição FOR e na próxima videoaula estudaremos a estrutura de repetição WHILE.
Utilizaremos o Jupyter Notebook 10-For.ipynb
-
23Correção dos exercícios sobre estrutura de repetição FORVídeo Aula
Vamos corrigir os exercícios sobre a estrutura de repetição FOR.
Utilizaremos o Jupyter Notebook 10-For.ipynb
-
24Estrutura de repetição WHILEVídeo Aula
Nessa videoaula, continuaremos o estudo sobre estruturas de repetição. Nós vimos que quando queremos executar o mesmo código diversas vezes, utilizamos uma estrutura de repetição. Na videoaula anterior estudamos a estrutura de repetição FOR. Agora, estudaremos sobre a estrutura de repetição WHILE.
Utilizaremos o Jupyter Notebook 11-While.ipynb
-
25Correção dos exercícios sobre estrutura de repetição WHILEVídeo Aula
Vamos fazer a correção dos exercícios sobre estrutura de repetição WHILE.
Utilizaremos o Jupyter Notebook 11-While.ipynb
-
26Classes, Objetos e MétodosVídeo Aula
Nessa videoaula, estudaremos um conceito muito importante chamado de Programação Orientada a Objetos. Entende-se por Programação Orientada a Objetos como um padrão de desenvolvimento de softwares largamente utilizado em muitas linguagens de programação atuais como Python, Java, C sharp, PHP, C++, entre outras. Neste padrão de programação são criadas coleções de Classes e Objetos com estrutura e comportamentos próprios.
Chamamos de Linguagem Orientada Objetos, aquela linguagem que aceita Programação Orientada a Objetos. E Python é uma Linguagem Orientada Objetos.
Utilizaremos o Jupyter Notebook 12-Classes-objetos-metodos.ipynb
-
27Correção dos exercícios sobre Classes, Objetos e MétodosVídeo Aula
Vamos fazer a correção dos exercícios sobre Classes, Objetos e Métodos.
Utilizaremos o Jupyter Notebook 12-Classes-objetos-metodos.ipynb
-
28FunçõesVídeo Aula
Nessa videoaula, estudaremos o conceito de funções. Uma função em programação de computadores é um conjunto de comandos que realiza uma tarefa específica. A ideia básica de uma função é encapsular um código, que poderá ser invocado, ou chamado em qualquer outro trecho do programa ou até mesmo em projetos diferentes. Assim como as classes, as funções permitem a reutilização de código. Ou seja, podemos escrever um conjunto de instruções, definir como uma função e usar essas instruções onde for preciso. Isso facilita muito a vida do programador.
Utilizaremos o Jupyter Notebook 13-Funcoes.ipynb
-
29Correção dos exercícios sobre funçõesVídeo Aula
Nessa videoaula, vamos corrigir os exercícios sobre funções.
Utilizaremos o Jupyter Notebook 13-Funcoes.ipynb
-
30Módulos e pacotesVídeo Aula
Nessa videoaula, estudaremos sobre o conceito de módulos e pacotes.
Estamos escrevendo nossas rotinas de código, funções e variáveis em arquivos chamados Jupyter Notebooks. Cada um desses Júpiter Notebooks pode ser chamado de Script Python. Nós salvamos estes scripts e podemos executá-los sempre que necessário.
À medida que o programa se torna maior, é considerada uma boa prática dividir o programa em arquivos menores para facilitar a manutenção. Dessa forma, é interessante utilizar um arquivo separado para salvar as funções que o cientista de dados escreveria em vários projetos diferentes. Fazendo isso, o cientista de dados não precisaria copiar a definição das funções em cada projeto.
Utilizaremos o Jupyter Notebook 14-modulos-e-pacotes.ipynb
-
31NumPyVídeo Aula
Estudamos até agora a biblioteca padrão da linguagem Python. A partir dessa videoaula, iniciaremos o estudo sobre os pacotes voltados para a Ciência de Dados. O primeiro pacote que estudaremos é o NumPy.
Utilizaremos o Jupyter Notebook 16-NumPy.ipynb
-
32Correção dos exercícios sobre NumPyVídeo Aula
Nesta videoaula, faremos a correção dos exercícios sobre o pacote NumPy.
Utilizaremos o Jupyter Notebook 16-NumPy.ipynb
-
33Pandas - SeriesVídeo Aula
Nessa videoaula falaremos sobre o Pandas, um pacote muito importante para a Ciência de Dados. Pandas é uma ferramenta de análise e manipulação de dados de código aberto, flexível, rápida, poderosa, e fácil de usar, construída com base na linguagem de programação Python.
Possui uma sofisticada funcionalidade de indexação, que facilita a coleta dos dados, agregações, limpeza e a seleção de subconjuntos de dados.
O pacote Pandas possui duas estruturas de dados básicas: as Series e os Data Frames. Nessa videoaula, estudaremos inicialmente sobre as Series.
Utilizaremos o Jupyter Notebook 17-Pandas.ipynb
-
34Pandas - DataFramesVídeo Aula
Estudamos na videoaula anterior que o Pandas possui duas estruturas de dados: as Series e os Data Frames. Já estudamos sobre as Series e nesta videoaula estudaremos os Data Frames.
Um Data Frame é uma estrutura de dados de duas dimensões, ou seja, possui linhas e colunas. Normalmente, cada coluna é de um determinado tipo de dado. Podemos pensar em um Data Frame como uma planilha do Microsoft Excel ou uma tabela SQL, por exemplo. Geralmente, é o objeto Pandas mais comumente usado.
Utilizaremos o Jupyter Notebook 17-Pandas.ipynb
-
35Correção dos exercícios sobre PandasVídeo Aula
Nesta videoaula faremos a correção dos exercícios sobre o pacote Pandas.
Utilizaremos o Jupyter Notebook 17-Pandas.ipynb
-
36GroupByVídeo Aula
Nessa videoaula, estudaremos sobre agrupamento de dados em um conjunto de dados. Uma operação de agrupamento envolve uma combinação de ações como dividir o conjunto de dados em grupos com base em algum critério, aplicar funções para cada grupo independente e combinar os resultados em uma estrutura de dados. O agrupamento de dados permite observar os dados a partir de diversas perspectivas.
Utilizaremos o Jupyter Notebook 18-GroupBy.ipynb
-
37Visualização dos dados - introduçãoVídeo Aula
Nessa videoaula, iniciaremos o estudo sobre visualização de dados.
Visualização de dados é a representação dos dados no formato gráfico. É muito mais fácil para o cérebro humano analisar os dados em uma imagem do que em uma tabela. Por isso, a visualização dos dados deve ser utilizada durante toda a fase de exploração dos dados.
Utilizaremos o Jupyter Notebook 19-Visualizacao-De-Dados.ipynb
-
38Gráficos de Barras: Características e UsoVídeo Aula
Principais características de um gráfico de barras
-
39Gráfico Histograma: Características e usoVídeo Aula
Principais características de um gráfico histograma
-
40Visualização dos dados - MatplotlibVídeo Aula
Matplotlib é uma biblioteca desenvolvida para criar visualizações estáticas, animadas e interativas em Python. Matplotlib foi projetada com a filosofia de que devemos ser capazes de criar plotagens simples com apenas alguns comandos ou apenas um.
Utilizaremos o Jupyter Notebook 19-Visualizacao-De-Dados.ipynb
-
41Visualização dos dados - SeabornVídeo Aula
Seaborn é uma biblioteca desenvolvida para construir gráficos estatísticos em Python. Ela fornece uma interface de alto nível baseada no Matplotlib e integra-se muito bem com as estruturas de dados do Pandas. As funções da biblioteca Seaborn utilizam uma API declarativa e orientada a conjuntos de dados, que facilitam o entendimento sobre os dados de forma gráfica.
Utilizaremos o Jupyter Notebook 19-Visualizacao-De-Dados.ipynb
-
42Visualização dos dados - PlotlyVídeo Aula
Nessa videoaula, falaremos sobre a biblioteca Plotly desenvolvida para visualização de dados. Plotly é uma biblioteca de código aberto desenvolvida para criar gráficos interativos, que oferece suporte a mais de 40 tipos de gráficos, cobrindo uma ampla variedade de casos de uso, desde gráficos estatísticos, financeiros, geográficos, científicos, a gráficos tridimensionais.
Utilizaremos o Jupyter Notebook 19-Visualizacao-De-Dados.ipynb
-
43Correção dos exercícios sobre visualização de dadosVídeo Aula
Nessa videoaula, faremos a correção dos exercícios sobre visualização de dados.
Utilizaremos o Jupyter Notebook 19-Visualizacao-De-Dados.ipynb
-
44Introdução a estatísticaVídeo Aula
Nessa videoaula, iniciaremos o estudo sobre estatística.
Utilizaremos a apresentação 03 - Introdução à Estatística.pptx
-
45Estatística descritiva univariada categóricaVídeo Aula
Nessa videoaula e nas próximas, faremos um estudo mais aprofundado sobre Estatística Descritiva.
Utilizaremos o Jupyter Notebook 20-Estatistica-Descritiva.ipynb
-
46Correção dos exercícios sobre Estatística Descritiva Univariada categóricaVídeo Aula
Correção dos exercícios sobre Estatística Descritiva Univariada categórica.
Utilizaremos o Jupyter Notebook 20-Estatistica-Descritiva.ipynb
-
47Estatística Descritiva Univariada Quantitativa parte 1Vídeo Aula
Nós estudamos até agora as estatísticas descritivas de uma única variável categórica. Nessa videoaula, estudaremos as estatísticas descritivas utilizadas com uma variável quantitativa. Essas estatísticas são tabela de distribuição de frequências, os gráficos de linhas, de dispersão, histograma e boxplot, utilizamos também, as medidas de posição ou localização, as medidas de dispersão ou variabilidade, e por fim, as medidas de forma, que são a assimetria e a curtose.
Utilizaremos o Jupyter Notebook 21-Estatistica-Descritiva-Univariada-Quantitativa-parte1.ipynb
-
48Estatística Descritiva Univariada Quantitativa parte 2Vídeo Aula
Nós estamos estudando as estatísticas descritivas utilizadas com uma variável quantitativa. Aprendemos como construir a tabela de distribuição de frequências e iniciamos o estudo sobre as medidas resumo. Para compreender o comportamento de um conjunto de dados, o cientista de dados utiliza as medidas resumo. As medidas resumo são subdivididas em medidas de posição, medidas de dispersão e medidas de forma. Dentre as medidas resumo, já estudamos as medidas de posição. Nós aprendemos que as medidas de posição são subdivididas em medidas de tendência central e medidas separatrizes. As medidas de tendência central são média, mediana e moda. E as medidas separatrizes são os quartis, os decis e os percentis. Também falamos sobre os gráficos histograma e Boxplot.
Utilizaremos o Jupyter Notebook 22-Estatistica-Descritiva-Univariada-Quantitativa-parte2.ipynb
-
49Estatística Descritiva Univariada Quantitativa parte 3Vídeo Aula
Estamos estudando as estatísticas descritivas utilizadas com uma variável quantitativa. Já aprendemos como construir a tabela de distribuição de frequências e iniciamos o estudo sobre as medidas resumo. Para compreender o comportamento de um conjunto de dados, o cientista de dados utiliza as medidas resumo. Essas medidas resumo são subdivididas em medidas de posição, medidas de dispersão e medidas de forma. Já aprendemos que as medidas de posição são subdivididas em medidas de tendência central e medidas separatrizes. As medidas de tendência central são média, mediana e moda. E as medidas separatrizes são os quartis, os decis e os percentis. Também estudamos os gráficos histograma e Boxplot.
Utilizaremos o Jupyter Notebook 23-Estatistica-Descritiva-Univariada-Quantitativa-parte3.ipynb
-
50Estatística descritiva bivariada categóricaVídeo Aula
Nas videoaulas anteriores, estudamos as estatísticas descritivas utilizadas para analisar uma variável, também conhecida como estatística descritiva univariada. A partir de agora, estudaremos os conceitos sobre as estatísticas descritivas envolvendo duas variáveis, também chamada de análise descritiva bivariada.
Utilizaremos o Jupyter Notebook 24-Estatistica-Descritiva-Bivariada-categorica.ipynb
-
51Correção dos exercícios sobre estatística descritiva bivariada categóricaVídeo Aula
Nessa videoaula, faremos a correção dos exercícios propostos para o tema estatística descritiva utilizada com duas variáveis categóricas.
Utilizaremos o Jupyter Notebook 24-Estatistica-Descritiva-Bivariada-categorica.ipynb
-
52Estatística descritiva bivariada quantitativaVídeo Aula
Nós aprendemos que a análise bivariada tem como objetivo estudar as relações entre duas variáveis. Essas relações são chamadas de associações para variáveis categóricas e correlações para variáveis quantitativas. Essas relações são analisadas por meio de tabelas, gráficos, medidas de associação e por medidas de correlação.
Aprendemos também, que as estatísticas descritivas utilizadas para representar as associações entre duas variáveis categóricas são as tabelas de contingência, também conhecidas como tabelas de classificação cruzada, ou ainda, do inglês como cross tabulêichiom.
Nessa videoaula, estudaremos as estatísticas descritivas utilizadas para representar as relações entre duas variáveis quantitativas e o grau de correlação entre elas. Isso pode ser feito por meio de gráficos de dispersão e pelo coeficiente de correlação.
Utilizaremos o Jupyter Notebook 25-Estatistica-Descritiva-Bivariada-quantitativa.ipynb
-
53Correção dos exercícios sobre estatística descritiva bivariada quantitativaVídeo Aula
Nessa videoaula, faremos a correção dos exercícios propostos para o tema estatística descritiva utilizada com duas variáveis quantitativas.
Utilizaremos o Jupyter Notebook 25-Estatistica-Descritiva-Bivariada-quantitativa.ipynb
-
54Introdução a probabilidadeVídeo Aula
A estatística probabilística utiliza a teoria das probabilidades para explicar a frequência de ocorrência de determinados eventos incertos de forma a estimar ou prever a ocorrência de eventos futuros. O exemplo básico quando estudamos probabilidade é o lançamento de um dado onde não sabemos ao certo qual elemento será sorteado, de modo que a probabilidade pode ser utilizada para indicar a possibilidade da ocorrência de determinado evento.
Utilizamos a apresentação 04 - Introdução à Probabilidade.pptx
-
55Variáveis Aleatórias e distribuição de probabilidades para variáveis discretasVídeo Aula
Estamos estudando sobre estatística probabilística. Na videoaula anterior, aprendemos os conceitos fundamentais e as regras básicas da probabilidade. Nessa videoaula, iniciaremos o estudo sobre as variáveis aleatórias discretas e contínuas e as principais distribuições de probabilidade para cada um dos tipos de variáveis aleatórias.
Utilizaremos a apresentação 05 - Variáveis Aleatórias e distribuições de probabilidade para variáveis discretas.pptx
-
56Distribuições de probabilidades para variáveis contínuasVídeo Aula
Na videoaula anterior, estudamos as principais distribuições de probabilidades utilizadas com variáveis aleatórias discretas e nesta videoaula estudaremos as principais distribuições de probabilidades utilizadas com variáveis aleatórias contínuas.
Utilizaremos a apresentação 06 - Distribuições de probabilidades para variáveis contínuas.pptx
-
57Distribuição normal de probabilidadesVídeo Aula
A distribuição normal é a distribuição de probabilidades mais utilizada e importante, pois permite modelar uma infinidade de fenômenos naturais, estudos do comportamento humano, processos industriais, entre outros, além de possibilitar o uso de aproximações para o cálculo de probabilidades de muitas variáveis aleatórias.
Utilizaremos a apresentação 07 - Distribuição normal de probabilidades.pptx
-
58Estatística Inferencial parte 1Vídeo Aula
A estatística inferencial é o processo de estimar informações sobre uma população a partir dos resultados observados em uma amostra.
Utilizaremos a apresentação 08 - Estatística inferencial parte 1.pptx
-
59Estatística Inferencial parte 2Vídeo Aula
Estamos estudando sobre Estatística inferencial. E nesta videoaula continuaremos abordando este assunto.
Utilizaremos a apresentação 09 - Estatística inferencial parte 2.pptx e o Jupyter Notebook 26-Calculando-tamanho-da-amostra.ipynb
-
60Estatística Inferencial parte 3Vídeo Aula
Nessa videoaula, daremos continuidade ao estudo sobre estatística inferencial falando sobre teste de hipóteses. Um dos problemas a serem resolvidos pela inferência estatística é o de testar hipóteses.
Utilizaremos a apresentação 10 - Estatística inferencial parte 3.pptx
-
61Ciência de DadosVídeo Aula
A partir dessa videoaula iniciaremos um estudo mais aprofundado sobre Ciência de Dados e Machine Learning. Já estudamos sobre a linguagem de programação Python e sobre os principais conceitos estatísticos. A proposta é apresentar os conceitos teóricos, para enfim, trabalharmos em projetos de ciência de dados.
Estudaremos os conceitos fundamentais e como estes conceitos nos ajudam a pensar sobre os problemas onde a Ciência de Dados pode ser executada. Abordaremos Data Science como um processo, que possui fases bem definidas e que reúne conhecimentos em diversas áreas. E dentro desse processo, estudaremos os conceitos sobre Machine Learning, também conhecido como aprendizado de máquina.
Utilizaremos a apresentação 11 - Ciência de dados.pptx
-
62Etapas de um Projeto de Ciência de DadosVídeo Aula
Nessa videoaula, estudaremos as etapas de um projeto de Ciência de Dados. Como acontece em muitas ciências maduras, existe um processo bem compreendido que atribui uma estrutura no desenvolvimento de um projeto de Ciência de Dados permitindo consistência, repetitividade e objetividade.
Uma proposta muito importante para o planejamento e execução de projetos de mineração de dados foi desenvolvida pelo projeto CRISP-DM, da sigla em inglês Cross Industry Standard Process for Data Mining. Esse modelo de processo é independente tanto do setor a que a empresa pertence quanto da tecnologia utilizada.
Utilizaremos a apresentação 12 - Etapas de um projeto de Ciência de Dados.pptx
-
63Introdução a Machine LearningVídeo Aula
Machine learning é uma sub área da inteligência artificial. O principal objetivo do Machine Learning é treinar um algoritmo que roda em um computador. Por essa razão que se fala em aprendizado de máquina. Este algoritmo deve ser treinado com um conjunto de dados e durante o treinamento o algoritmo aprende o modelo matemático que representa os dados. Uma vez treinado, apresentamos novos dados ao modelo e ele será capaz de realizar previsões. Portanto, em vez de codificar manualmente as rotinas de software com um conjunto específico de instruções para realizar uma tarefa específica, a máquina é treinada usando grandes quantidades de dados e algoritmos, que lhe dão a capacidade de aprender como executar a tarefa.
Utilizaremos a apresentação 13 - Introdução à Machine Learning .pptx
-
64Tipos de algoritmosVídeo Aula
Nessa videoaula, estudaremos os tipos de algoritmos de aprendizado de máquina.
Basicamente, o tipo de algoritmo está diretamente relacionado ao tipo de aprendizado com o qual trabalharemos. De fato, tudo depende da definição do problema de negócio. Se durante a definição do problema do negócio for definido que o projeto utilizará um aprendizado supervisionado de classificação, então o cientista de dados utilizará algoritmos de classificação. Caso o processo de aprendizado for supervisionado de regressão, então será necessário utilizar algoritmos de regressão. Por fim, se o projeto indicar um aprendizado não supervisionado, então o cientista de dados utilizará algoritmos de aprendizado não supervisionado. Resumindo, o tipo de algoritmo depende do tipo de aprendizado.
Utilizaremos a apresentação 14 - Tipos de algoritmos.pptx
-
65Como o algoritmo encontra a função aproximadaVídeo Aula
Nessa videoaula, vamos aprofundar no conceito sobre modelos preditivos. Podemos definir modelo preditivo como uma função matemática aproximada, que aplicada a um conjunto de dados consegue identificar padrões, muitas vezes despercebidos possibilitando realizar previsões.
Utilizaremos a apresentação 15 - Como o algoritmo encontra a função aproximada.pptx
-
66Métodos de aprendizagem parte 1Vídeo Aula
Nessa videoaula, iniciaremos o estudo sobre os métodos de aprendizado utilizados pelos algoritmos durante o treinamento do modelo.
Cada método de aprendizado utiliza uma técnica diferente. Existem basicamente quatro métodos de aprendizado. Os Métodos Baseados em Instância, os Métodos Probabilísticos, os Métodos Baseados em Procura e os Métodos Baseados em Otimização.
Utilizaremos a apresentação 16 - Métodos de aprendizagem parte 1.pptx
-
67Métodos de aprendizagem parte 2Vídeo Aula
Nesta videoaula, iniciaremos o estudo sobre os Métodos Baseados em Otimização. Os Métodos Baseados em Otimização aprendem sobre os dados a partir da otimização de uma função matemática, onde o objetivo é minimizar ou maximizar a função aproximada do modelo.
Os algoritmos mais comuns desta categoria são as Máquinas de Vetores de Suporte, também conhecidas no termo em inglês como Support Vector Machines, ou ainda SVM, e as Redes Neurais Artificiais (RNAs).
Esses algoritmos são mais avançados do que aqueles baseados em qualquer outro método. Nesta videoaula, estudaremos as Máquinas de Vetores de Suporte e na próxima estudaremos as Redes Neurais Artificiais.
Utilizaremos a apresentação 17 - Métodos de aprendizagem parte 2.pptx
-
68Métodos de aprendizagem parte 3Vídeo Aula
Nessa videoaula, estudaremos as Redes Neurais Artificiais. As redes neurais, também conhecidas como Redes Neurais Artificiais ou Redes Neurais Simuladas, são um subconjunto de aprendizado de máquina e estão no núcleo dos algoritmos de Deep Learning. Seu nome e estrutura são inspirados no cérebro humano imitando a maneira como os neurónios biológicos enviam sinais uns para os outros.
As redes neurais artificiais são, provavelmente, a mais antiga técnica de Machine Learning em uso.
Utilizaremos a apresentação 18 - Métodos de aprendizagem parte 3.pptx
-
69Aprendizado não supervisionado - clusterizaçãoVídeo Aula
Nessa videoaula, estudaremos um pouco mais sobre aprendizado não supervisionado. Em problemas de aprendizado não supervisionado não temos os dados de saída, temos apenas os dados de entrada.
Ao falar sobre aprendizado não supervisionado, estamos falando sobre agrupamento dos dados. Podemos encontrar também o termo em inglês clustering, ou ainda, o termo "clusterização". Os grupos formados pelos algoritmos de "clusterização" também são chamados de clusters.
Utilizaremos a apresentação 19 - Aprendizado não supervisionado - clusterização.pptx
-
70Métodos EnsembleVídeo Aula
Um Método Ensemble é uma técnica de aprendizado de máquina que combina o resultado de múltiplos modelos com o objetivo de produzir um melhor modelo preditivo.
Construir um Método Ensemble consiste em dois passos. Primeiro, construir diversos modelos e segundo, combinar suas previsões. Pode-se gerar modelos diferentes variando por exemplo os pesos das observações, valores de dados, parâmetros, subconjuntos de variáveis ou aplicando diferentes técnicas de pré-processamento.
Utilizaremos a apresentação 20 - Métodos Ensemble.pptx
-
71Generalização, overfitting e underfittingVídeo Aula
Nessa videoaula, estudaremos sobre alguns dos conceitos mais importantes em Machine Learning que são generalização, overfitting e underfitting.
Utilizaremos a apresentação 21 - Generalização - overfitting e underfitting.pptx
-
72Tratando valores nulosVídeo Aula
O cientista de dados procura a generalização dos dados para seus modelos preditivos. Aprenderemos diversas técnicas que contribuem para criar um modelo generalizável. Nesta videoaula, estudaremos sobre como tratar valores nulos.
Utilizaremos o Jupyter Notebook 27-Tratando-valores-nulos.ipynb
-
73Identificando e tratando valores outliersVídeo Aula
Nesta videoaula, aprenderemos a identificar e tratar valores considerados outliers. Outliers são valores atípicos, ou seja, que se afastam da maioria dos valores encontrados no conjunto de dados. Também são conhecidos como valores ausentes, anormais ou extremos. Esses outliers são problemáticos para muitas análises estatísticas, porque podem fazer com que os testes percam descobertas significativas ou distorçam os resultados reais, causando problemas em algoritmos de aprendizado de máquina.
Utilizaremos o Jupyter Notebook 28-Identificando-Tratando-valores-outliers.ipynb
-
74Como transformar variáveis categóricas em númerosVídeo Aula
Nesta videoaula, estudaremos sobre como transformar variáveis qualitativas em números. As variáveis qualitativas representam características de um indivíduo, objeto ou elemento, que não podem ser medidas ou quantificadas, como por exemplo, a cor dos olhos, estado civil, religião, sexo, grau de escolaridade, classe social, tipo sanguíneo entre outros. Observe que as respostas são dadas em categorias. Por essa razão, as variáveis qualitativas também são chamadas de categóricas.
Normalmente, as variáveis categóricas são do tipo texto. Por exemplo, normalmente a variável sexo possui os valores masculino ou feminino. Acontece que não podemos entregar texto para os algoritmos de aprendizado de máquina. Lembre que o objetivo do algoritmo é encontrar uma função matemática aproximada que represente os dados. E para encontrar uma função aproximada, o algoritmo precisa de valores numéricos.
Utilizaremos o Jupyter Notebook 29-Como-transformar-variaveis-categoricas-em-numeros.ipynb
-
75Seleção de variáveisVídeo Aula
Nesta videoaula, estudaremos sobre seleção de variáveis. O objetivo da seleção de variáveis é selecionar as melhores variáveis para treinar o modelo de Machine Learning. Essa técnica também é conhecida como Feature Selection, ou como seleção de atributos, ou ainda, como seleção de características.
Utilizaremos o Jupyter Notebook 30-Selecao-de-Variaveis.ipynb
-
76Balanceamento de classesVídeo Aula
Nesta videoaula, estudaremos uma técnica extremamente importante que é o balanceamento de classes em problemas de classificação. O aprendizado do algoritmo e o nível de precisão dos modelos podem ser afetados quando o conjunto de dados apresenta classes desequilibradas.
Utilizaremos o Jupyter Notebook 31-Balanceamento-de-classes.ipynb
-
77Normalização e PadronizaçãoVídeo Aula
Nesta videoaula, estudaremos sobre normalização e padronização, duas técnicas muito importantes que contribuem para o desenvolvimento de modelos generalizáveis.
Utilizaremos o Jupyter Notebook 32-Normalizacao-e-Padronizacao.ipynb
-
78Métricas de avaliação para modelos preditivos de classificaçãoVídeo Aula
Nesta videoaula, iniciaremos o estudo sobre as métricas utilizadas para avaliar os modelos preditivos. A avaliação do modelo consiste em medir a precisão, ou seja, verificar quanto o modelo acertou.
Inicialmente estudaremos as métricas específicas para avaliar o desempenho dos modelos de classificação.
Utilizaremos o Jupyter Notebook 33-Metricas-de-avaliacao-de-modelos-classificacao.ipynb
-
79Métricas de avaliação para modelos preditivos de regressãoVídeo Aula
Nesta videoaula, estudaremos algumas métricas utilizadas para avaliar os modelos de regressão.
Utilizaremos o Jupyter Notebook 34-Metricas-de-avaliacao-de-modelos-regressao.ipynb
-
80Métricas de avaliação para modelos de clusterizaçãoVídeo Aula
Nesta videoaula, continuaremos estudando as métricas utilizadas para avaliar os modelos preditivos. Nas videoaulas anteriores, estudamos algumas métricas para avaliar modelos de classificação e regressão. Nesta videoaula, estudaremos sobre algumas métricas utilizadas para avaliar os modelos de "clusterização".
Utilizaremos o Jupyter Notebook 35-Metricas-de-avaliacao-de-modelos-clusterizacao.ipynb
-
81Algoritmos de classificaçãoVídeo Aula
Nesta videoaula, estudaremos os principais algoritmos utilizados em problemas de classificação.
Utilizaremos o Jupyter Notebook 36-Algoritmos-Classificacao.ipynb
-
82Algoritmos de regressãoVídeo Aula
Na videoaula anterior, estudamos os principais algoritmos utilizados em problemas de classificação e nesta videoaula estudaremos os principais algoritmos utilizados em problemas de regressão.
Utilizaremos o Jupyter Notebook 37-Algoritmos-Regressao.ipynb
-
83Algoritmos de clusterizaçãoVídeo Aula
Já estudamos os principais algoritmos de classificação e também os principais algoritmos utilizados em problemas de regressão. Nesta videoaula, estudaremos os principais algoritmos utilizados em problemas de "clusterização".
Utilizaremos o Jupyter Notebook 38-Algoritmos-Clusterizacao.ipynb