Formação Spark com Pyspark : o Curso Completo
- Descrição
- Currículo
- FAQ
- Revisões
Bem vindo ao melhor e mais atualizado curso de Spark!
Na era “Big Data” o Spark se tornou a principal ferramenta de processamento de dados no mundo devido a sua capacidade de processar volumes massivos de dados com alta performance, se tornando uma ferramenta essencial para Cientistas e Engenheiros de Dados. Sua arquitetura distribuída permite processar dados utilizando paralelismo e memória, persistindo dados quando necessário. Além disso o Spark é capaz de importar dados de praticamente qualquer fonte, bem como também exportar dados processados para os principais formatos e bancos de dados utilizados.
Do ponto de vista profissional, conhecer Spark é uma das habilidades mais importantes ao lado de Machine Learning e Python. E o melhor disso é o que Spark já traz tudo isso. Você pode utilizar Spark com Python, através do Pyspark, e você pode criar modelos de Machine Learning utilizando as próprias bibliotecas do Spark.
Neste curso prático, você vai começar do zero e aprender todas as principais características desta ferramenta. Entre outras coisas você vai:
-
Aprender a instalar e configurar o Spark
-
Conhecer o principal objeto de dados: DataFrames do Spark
-
Processar DataFrames através de transformações e ações
-
Consultar Dados no Spark com Sintaxe SQL
-
Criar Views e fazer Joins
-
Persistir dados em disco, criando tabelas em formatos como Parquet e ORC
-
Importar dados de fontes como Mongodb, PostgreSQL e arquivos como Json e Parquet
-
Criar aplicações que você pode rodar na linha de comendo
-
Machine Learning com Spark: crie modelos e faça previsões
-
Construa Pipelines de Marchine Learning
-
Processe dados em tempo real com Spark Structured Streaming
-
Otimize o Spark com Cache, Persistência, Particionamento e Bucketing
-
Use Spark com Jupyter Notebooks
-
Use Spark com Pandas e outras bibliotecas do Python
-
Construa um Cluster!
Você ainda vai encontrar material do curso para baixar: scripts, slides e dados de exemplo.
-
8Atenção: sobre o ambiente para executar o curso!Texto
-
9Introdução sobre a InstalaçãoVídeo Aula
-
10DownloadsVídeo Aula
-
11Instalando VM UbuntuVídeo Aula
-
12Instalando SparkVídeo Aula
-
13Bibliotecas AdicionaisVídeo Aula
-
14Rodando ExemplosVídeo Aula
-
15Baixando dados de ExemploVídeo Aula
-
16Opcional: Putty com SSHVídeo Aula
-
17Putty com SSHVídeo Aula
-
18RDD, Dataset e DataframeVídeo Aula
-
19RDD parte IVídeo Aula
-
20RDD parte IIVídeo Aula
-
21DataFrames Parte IVídeo Aula
-
22DataFrames Parte IIVídeo Aula
-
23DataFrames Parte IIIVídeo Aula
-
24DataFrames Parte IVVídeo Aula
-
25Principais Ações e TransformaçõesVídeo Aula
-
26Exportando dadosVídeo Aula
-
27Importando DadosVídeo Aula
-
28Atividades: Faça você mesmoVídeo Aula
-
29Solução do Faça você mesmoVídeo Aula
-
30Spark SQLVídeo Aula
-
31Bancos de Dados e TabelasVídeo Aula
-
32Tabelas Gerenciadas e ExternasVídeo Aula
-
33ViewsVídeo Aula
-
34Comparando DataFrames com Tabelas SQLVídeo Aula
-
35JoinsVídeo Aula
-
36Joins com DataFrames e SQLVídeo Aula
-
37Utilizando Spark-sqlVídeo Aula
-
38Atividades: Faça você mesmoVídeo Aula
-
39Solução do Faça você mesmoVídeo Aula
-
40Solução do Faça você mesmo - ContinuaçãoVídeo Aula
-
49Aplicação 1: Escrevendo no ConsoleVídeo Aula
-
50Aplicação 2: Escrevendo no Console com ParâmetrosVídeo Aula
-
51Opção e argumentos em Linha de ComandoVídeo Aula
-
52Aplicação 3: Conversor de Formatos de Arquivos em SparkVídeo Aula
-
53Atividades: Faça você mesmoVídeo Aula
-
54Solução do Faça você mesmoVídeo Aula
-
55Fundamentos de Machine LearningVídeo Aula
-
56Machine Learning no SparkVídeo Aula
-
57Preparando Dados para RegressãoVídeo Aula
-
58Criando um Modelo de RegressãoVídeo Aula
-
59Preparando Dados para ClassificaçãoVídeo Aula
-
60Criando um Modelo de ClassificaçãoVídeo Aula
-
61PipelinesVídeo Aula
-
62Atividades: Faça você mesmoVídeo Aula
-
63Solução do Faça você mesmoVídeo Aula