141 avaliações

Machine Learning para Competições Kaggle - Especial COVID-19

Atenda ao chamado da Casa Branca e ajude a comunidade científica e os profissionais de saúde na pandemia de COVID-19

Instrutor

Jones Granatyr

Categoria

Data Science

Development

870 Alunos Inscrito

Descrição
Currículo
FAQ
Revisões

Tempo de leitura 5 minutes

De acordo com o CDC (Centers for Disease Control and Prevention), o novo coronavírus de 2019 é um vírus identificado como a causa de um surto de doença respiratória detectado pela primeira vez em Wuhan, na China. Desde o início, muitos dos pacientes do surto em Wuhan teriam algum vínculo com um grande mercado de frutos do mar e animais silvestres. Um número crescente de pacientes supostamente não teve exposição ao mercado de animais, indicando a ocorrência de disseminação de pessoa para pessoa. O vírus já se espalhou para praticamente todos os países do mundo, causando muitas mortes e sérios problemas na economia. Devido a isso, a Casa Branca dos Estados Unidos junto com pesquisadores e líderes do Allen Institute for AI, Chan Zuckerberg Initiative (CZI), Georgetown University’s Center for Security and Emerging Technology (CSET), Microsoft, e o National Library of Medicine (NLM) at the National Institutes of Health lançaram uma base de dados com artigos publicados sobre o COVI-19, SARS-CoV-2 e vírus do grupo dos coronavírus.

A base de dados possui mais de 30.000 artigos científicos sobre essas doenças, sendo que o objetivo principal é ajudar pesquisadores e profissionais da saúde obterem informações relevantes sobre esses assuntos. Leia alguns trechos do chamado (call to action) da Casa Branca: “A Casa Branca se une a essas instituições ao emitir um apelo à ação dos especialistas em inteligência artificial da nação para desenvolver novas técnicas de mineração de texto e dados que podem ajudar a comunidade científica a responder perguntas científicas de alta prioridade relacionadas ao COVID-19“, “Precisamos nos unir como empresas, governos e cientistas e trabalhar para trazer nossas melhores tecnologias para a biomedicina, epidemiologia, IA e outras ciências. O recurso e desafio da literatura COVID-19 estimulará esforços que podem acelerar o caminho para soluções em COVID-19“, “Uma das aplicações mais imediatas e impactantes da IA é a capacidade de ajudar cientistas, acadêmicos e tecnólogos a encontrar as informações corretas em um mar de artigos científicos para impulsionar a pesquisa mais rapidamente“, “É difícil para as pessoas revisarem manualmente mais de 20.000 artigos e sintetizarem suas descobertas. Avanços recentes em tecnologia podem ser úteis aqui“.

Como essa base de dados foi postada como um desafio no Kaggle, é uma ótima oportunidade para testar as habilidades adquiridas em cursos iniciais, e ainda aprender novas habilidades necessárias para resolver problemas reais. Entretanto, fazer essa transição entre um ambiente educacional e aquele que encontramos no Kaggle, que imita os desafios que devemos encontrar no mercado de trabalho, tende a ser um degrau muito grande, pois a natureza dos dados e dos problemas propostos aumenta de complexidade num nível que os cursos básicos não contemplam. Pensando nisso, este curso tem o objetivo de preencher essa lacuna na formação dos cientistas de dados, mostrando detalhadamente como abordar os desafios, passando pelas fases de exploração e tratamento de dados, escolha de abordagem de solução, construção de um modelo, treinamento e validação. O entendimento desse processo é o primeiro passo para que os competidores possam desenvolver melhorias e começar sua escalada rumo ao topo dos rankings.

Além da base de dados descrita acima, neste curso também focaremos em mais duas bases de dados relacionadas ao COVID-19. Com isso, o curso está dividido em três partes:

Recuperação de informações de bases de dados de artigos: vamos usar a base de dados dos artigos científicos e aplicar várias técnicas de mineração de textos e processamento de linguagem natural, utilizando bibliotecas como NLTK (Natural Language Toolkit, spaCy, WordCloud e fuzzywuzzy. Focaremos na etapa de preparação e visualização dos textos, como por exemplo: contagem de termos frequentes, nuvem de palavras e aplicação de algoritmos para agrupamento, como o k-means! Implementaremos também sistemas de busca em textos que levam em consideração palavras-chave e similaridade entre documentos utilizando TF-IDF (Term Frequency – Inverse Document Frequency)
Previsões de mortes por COVID-19: utilizaremos outra base de dados do Kaggle para prever as mortes diárias, utilizando algoritmos de regressão
Diagnóstico de pacientes com COVID-19 por meio do Raio-X do tórax: vamos utilizar modernas técnicas de Deep Learning com o TensorFlow 2.0, ou seja, redes neurais convolucionais e transferência de aprendizagem (transfer learning) para classificar imagens de pacientes doentes e saudáveis!

Os códigos serão desenvolvidos utilizando a linguagem Python linha por linha e com o Google Colab, de forma que você entenda todas as análises necessárias para participar dessas competições!

COVID-19: Tratamento e análise da base de dados

COVID-19: Pesquisa de palavras-chave nos documentos

COVID-19: Similaridade entre documentos

COVID-19: Agrupamento de documentos com k-means

Previsões de mortes por COVID-19

Diagnóstico de COVID-19 com imagens de Raio-X

How long do I have access to the course materials?

You can view and review the lecture materials indefinitely, like an on-demand channel.

Can I take my courses with me wherever I go?

Definitely! If you have an internet connection, courses on Udemy are available on any device at any time. If you don't have an internet connection, some instructors also let their students download course lectures. That's up to the instructor though, so make sure you get on their good side!

5.0

141 avaliações

Please, login to leave a review

Estrelas 5

Estrelas 4

Estrelas 3

Estrelas 2

Estrelas 1

Mostrar mais