Machine Learning para Competições Kaggle - Especial COVID-19
- Descrição
- Currículo
- FAQ
- Revisões
De acordo com o CDC (Centers for Disease Control and Prevention), o novo coronavírus de 2019 é um vírus identificado como a causa de um surto de doença respiratória detectado pela primeira vez em Wuhan, na China. Desde o início, muitos dos pacientes do surto em Wuhan teriam algum vínculo com um grande mercado de frutos do mar e animais silvestres. Um número crescente de pacientes supostamente não teve exposição ao mercado de animais, indicando a ocorrência de disseminação de pessoa para pessoa. O vírus já se espalhou para praticamente todos os países do mundo, causando muitas mortes e sérios problemas na economia. Devido a isso, a Casa Branca dos Estados Unidos junto com pesquisadores e líderes do Allen Institute for AI, Chan Zuckerberg Initiative (CZI), Georgetown University’s Center for Security and Emerging Technology (CSET), Microsoft, e o National Library of Medicine (NLM) at the National Institutes of Health lançaram uma base de dados com artigos publicados sobre o COVI-19, SARS-CoV-2 e vírus do grupo dos coronavírus.
A base de dados possui mais de 30.000 artigos científicos sobre essas doenças, sendo que o objetivo principal é ajudar pesquisadores e profissionais da saúde obterem informações relevantes sobre esses assuntos. Leia alguns trechos do chamado (call to action) da Casa Branca: “A Casa Branca se une a essas instituições ao emitir um apelo à ação dos especialistas em inteligência artificial da nação para desenvolver novas técnicas de mineração de texto e dados que podem ajudar a comunidade científica a responder perguntas científicas de alta prioridade relacionadas ao COVID-19“, “Precisamos nos unir como empresas, governos e cientistas e trabalhar para trazer nossas melhores tecnologias para a biomedicina, epidemiologia, IA e outras ciências. O recurso e desafio da literatura COVID-19 estimulará esforços que podem acelerar o caminho para soluções em COVID-19“, “Uma das aplicações mais imediatas e impactantes da IA é a capacidade de ajudar cientistas, acadêmicos e tecnólogos a encontrar as informações corretas em um mar de artigos científicos para impulsionar a pesquisa mais rapidamente“, “É difícil para as pessoas revisarem manualmente mais de 20.000 artigos e sintetizarem suas descobertas. Avanços recentes em tecnologia podem ser úteis aqui“.
Como essa base de dados foi postada como um desafio no Kaggle, é uma ótima oportunidade para testar as habilidades adquiridas em cursos iniciais, e ainda aprender novas habilidades necessárias para resolver problemas reais. Entretanto, fazer essa transição entre um ambiente educacional e aquele que encontramos no Kaggle, que imita os desafios que devemos encontrar no mercado de trabalho, tende a ser um degrau muito grande, pois a natureza dos dados e dos problemas propostos aumenta de complexidade num nível que os cursos básicos não contemplam. Pensando nisso, este curso tem o objetivo de preencher essa lacuna na formação dos cientistas de dados, mostrando detalhadamente como abordar os desafios, passando pelas fases de exploração e tratamento de dados, escolha de abordagem de solução, construção de um modelo, treinamento e validação. O entendimento desse processo é o primeiro passo para que os competidores possam desenvolver melhorias e começar sua escalada rumo ao topo dos rankings.
Além da base de dados descrita acima, neste curso também focaremos em mais duas bases de dados relacionadas ao COVID-19. Com isso, o curso está dividido em três partes:
-
Recuperação de informações de bases de dados de artigos: vamos usar a base de dados dos artigos científicos e aplicar várias técnicas de mineração de textos e processamento de linguagem natural, utilizando bibliotecas como NLTK (Natural Language Toolkit, spaCy, WordCloud e fuzzywuzzy. Focaremos na etapa de preparação e visualização dos textos, como por exemplo: contagem de termos frequentes, nuvem de palavras e aplicação de algoritmos para agrupamento, como o k-means! Implementaremos também sistemas de busca em textos que levam em consideração palavras-chave e similaridade entre documentos utilizando TF-IDF (Term Frequency – Inverse Document Frequency)
-
Previsões de mortes por COVID-19: utilizaremos outra base de dados do Kaggle para prever as mortes diárias, utilizando algoritmos de regressão
-
Diagnóstico de pacientes com COVID-19 por meio do Raio-X do tórax: vamos utilizar modernas técnicas de Deep Learning com o TensorFlow 2.0, ou seja, redes neurais convolucionais e transferência de aprendizagem (transfer learning) para classificar imagens de pacientes doentes e saudáveis!
Os códigos serão desenvolvidos utilizando a linguagem Python linha por linha e com o Google Colab, de forma que você entenda todas as análises necessárias para participar dessas competições!
-
4Introdução ao desafio do KaggleVídeo Aula
-
5Instalação e importação das bibliotecasVídeo Aula
-
6IMPORTANTE: Base de dadosTexto
-
7Carregamento dos arquivos da base de dadosVídeo Aula
-
8Criação do dataframe com os textos 1Vídeo Aula
-
9Criação do dataframe com os textos 2Vídeo Aula
-
10Pré-processamento dos textos 1Vídeo Aula
-
11Pré-processamento dos textos 2Vídeo Aula
-
12Pré-processamento dos textos 3Vídeo Aula
-
13Pré-processamento dos textos 4Vídeo Aula
-
14Pré-processamento dos textos 5Vídeo Aula
-
15Termos frequentes 1Vídeo Aula
-
16Termos frequentes 2Vídeo Aula
-
17Nuvem de palavrasVídeo Aula
-
18Ajustes no pré-processamentoVídeo Aula
-
19Reconhecimento de entidades nomeadas 1Vídeo Aula
-
20Reconhecimento de entidades nomeadas 2Vídeo Aula
-
21Textos utilizados para pesquisaVídeo Aula
-
22Pesquisa com uma palavra e NLTKVídeo Aula
-
23Pesquisa com uma palavra e find 1Vídeo Aula
-
24Pesquisa com uma palavra e find 2Vídeo Aula
-
25Pesquisa com uma palavra e find 3Vídeo Aula
-
26Pesquisa com uma palavra e find 4Vídeo Aula
-
27Pesquisa com uma palavra e find 5Vídeo Aula
-
28Pesquisa com mais palavras e spaCy 1Vídeo Aula
-
29Pesquisa com mais palavras e spaCy 2Vídeo Aula
-
30Pesquisa com mais palavras e spaCy 3Vídeo Aula
-
31Documentos similares com fuzzywuzzy 1Vídeo Aula
-
32Documentos similares com fuzzywuzzy 2Vídeo Aula
-
33Documentos similares com fuzzywuzzy 3Vídeo Aula
-
34Documentos similares com fuzzywuzzy 4Vídeo Aula
-
35TF-IDF - teoriaVídeo Aula
-
36TF-IDF - teste práticoVídeo Aula
-
37Similaridade do cossenoVídeo Aula
-
38Documentos similares com TF-IDF e cosseno 1Vídeo Aula
-
39Documentos similares com TF-IDF e cosseno 2Vídeo Aula
-
40Tratamento da base de dadosVídeo Aula
-
41TF-IDFVídeo Aula
-
42Introdução a PCA e LDAVídeo Aula
-
43Redução de dimensionalidade com PCAVídeo Aula
-
44Algoritmo k-means - introduçãoVídeo Aula
-
45Algoritmo k-means - cálculos matemáticosVídeo Aula
-
46Algoritmo k-means - inicializaçãoVídeo Aula
-
47Número de clusters com WCSSVídeo Aula
-
48Agrupamento com k-meansVídeo Aula
-
49Visualização dinâmica dos resultadosVídeo Aula
-
50Sumarização de documentosVídeo Aula
-
51Exploração da base de dados 1Vídeo Aula
-
52Exploração da base de dados 2Vídeo Aula
-
53Preparação da base de dados 1Vídeo Aula
-
54Preparação da base de dados 2Vídeo Aula
-
55Regressão linear - teoriaVídeo Aula
-
56Regressão polinomial - teoriaVídeo Aula
-
57Regressão polinomial - treinamentoVídeo Aula
-
58Regressão polinomial - previsões de mortesVídeo Aula