Manipulação de Dados em Grande Escala com PySpark
- Descrição
- Currículo
- FAQ
- Revisões
Todas as empresas coletam e armazenam dados para diferentes finalidades. À medida que a empresa cresce, torna-se vital armazenar e processar esses dados de forma adequada e em grandes volumes. Com isso em mente, criei este curso com o objetivo de capacitar os alunos a manipular dados utilizando Python, uma linguagem amplamente reconhecida e a mais utilizada para esse propósito, juntamente com a poderosa biblioteca PySpark.
Vamos começar com os fundamentos da programação em Python e, em seguida, avançar para conteúdos mais complexos.
-
Para Analistas de Dados: Você aprenderá todo o processo, desde a consulta nas fontes de dados, passando pelas transformações necessárias, até a preparação dos dados no formato ideal para análise e visualização.
-
Para Cientistas de Dados: O conteúdo deste curso será inestimável para a limpeza de dados, aproveitando a capacidade de processamento do Spark, além de possibilitar o uso de bibliotecas de Machine Learning na construção de modelos preditivos.
-
Para Engenheiros de Dados: Assim como eu, você utilizará este curso para compreender os diferentes formatos de origem e destino dos dados e realizar transformações de dados brutos em formatos mais adequados, facilitando o trabalho dos analistas de dados. Além disso, você receberá diversas dicas para melhorar o desempenho das consultas e escolher a melhor estratégia de processamento.
-
4Um pouco sobre programação e PythonVídeo Aula
-
5Vamos começar a programar, entendendo o que são variáveis e os tipos de dadosVídeo Aula
-
6Vamos dar mais um passo, entendendo o que são listas e como utilizá-lasVídeo Aula
-
7Como fazer o computador entender condições e repetir uma tarefaVídeo Aula
-
8Criando funções, diminuindo seu esforçoVídeo Aula