De 0 A 1: Spark For Data Science Com Python

Simpliv

Descrição do Programa

Leia a Descrição Oficial

De 0 A 1: Spark For Data Science Com Python

Simpliv

Ensinado por uma equipe de 4 pessoas, incluindo 2 Stanford-educated, ex-Googlers e 2 ex-Flipkart Lead Analysts. Esta equipe tem décadas de experiência prática em trabalhar com Java e com bilhões de linhas de dados.

Obtenha seus dados para voar usando o Spark para análise, aprendizado de máquinas e ciência dos dados

Vamos analisar isso.

O que é Spark? Se você é um analista ou um cientista de dados, você está acostumado a ter vários sistemas para trabalhar com dados. SQL, Python, R, Java, etc. Com o Spark, você tem um único mecanismo onde você pode explorar e jogar com grandes quantidades de dados, executar algoritmos de aprendizado de máquina e usar o mesmo sistema para produzir seu código.

Análise: usando Spark e Python você pode analisar e explorar seus dados em um ambiente interativo com feedback rápido. O curso mostrará como aproveitar o poder de RDDs e Dataframes para manipular dados com facilidade.

Aprendizado de máquinas e ciência de dados: a funcionalidade principal da Spark e as bibliotecas integradas facilitam a implementação de algoritmos complexos como Recomendações com poucas linhas de código. Abrangeremos uma variedade de conjuntos de dados e algoritmos, incluindo os conjuntos de dados PageRank, MapReduce e Graph.

O que está coberto:

Muitas coisas legais

  • Recomendações de música usando mínimos quadrados alternativos e o conjunto de dados do Audioscrobbler
  • Dataframes e Spark SQL para trabalhar com dados do Twitter
  • Usando o algoritmo PageRank com o conjunto de dados do gráfico da Web do Google
  • Usando Spark Streaming para processamento de fluxo
  • Trabalhando com dados gráficos usando o conjunto de dados da rede Marvel Social

... e, claro, todas as características básicas e avançadas da Spark:

  • Conjuntos de dados distribuídos resilientes, transformações (mapa, filtro, planilha), ações (reduzir, agregado)
  • Emparelhe RDDs, reduceByKey, combineByKey
  • Variáveis ​​de transmissão e acumulação
  • Spark for MapReduce
  • A API Java para Spark
  • Spark SQL, Spark Streaming, MLlib e GraphFrames (GraphX ​​para Python)

Usando fóruns de discussão

Use os fóruns de discussão sobre este curso para se envolver com outros alunos e ajudar-se mutuamente. Infelizmente, como desejamos, não é possível para nós em Loonycorn responder a perguntas individuais dos alunos :-(

Somos super pequenos e autofinanciados com apenas 2 pessoas desenvolvendo conteúdo de vídeo técnico. Nossa missão é disponibilizar cursos de alta qualidade a preços super baixos.

A única maneira de manter nossos preços baixos é * NÃO oferecer suporte técnico adicional por e-mail ou em pessoa *. A verdade é que o suporte direto é extremamente caro e simplesmente não escala.

Entendemos que isso não é ideal e que muitos estudantes podem se beneficiar desse suporte adicional. A contratação de recursos para suporte adicional tornaria nossa oferta muito mais cara, derrotando nossa finalidade original.

É um forte trade-off.

Obrigado pela sua paciência e compreensão!

Quem é o público-alvo?

  • Sim! Analistas que querem aproveitar a Spark para analisar conjuntos de dados interessantes
  • Sim! Cientistas de dados que desejam um único mecanismo para analisar e modelar dados, além de produzi-lo.
  • Sim! Engenheiros que desejam usar um mecanismo de computação distribuído para processamento em lote ou fluxo ou ambos

CONHECIMENTO BÁSICO

  • O curso assume o conhecimento de Python. Você pode escrever o código Python diretamente no shell PySpark. Se você já tiver o IPython Notebook instalado, mostraremos como configurá-lo para Spark
  • Para a seção Java, assumimos um conhecimento básico de Java. Um IDE que suporte o Maven, como IntelliJ IDEA / Eclipse seria útil
  • Todos os exemplos funcionam com ou sem Hadoop. Se você quiser usar o Spark com o Hadoop, você precisará instalar o Hadoop (em modo pseudo-distribuído ou em cluster).

O QUE APLICARÁ

  • Use Spark para uma variedade de tarefas de análise e aprendizado de máquina
  • Implementar algoritmos complexos como o PageRank ou Recomendações de música
  • Trabalhe com uma variedade de conjuntos de dados de atrasos da linha aérea para o Twitter, gráficos da Web, redes sociais e avaliações de produtos
  • Use todos os diferentes recursos e bibliotecas do Spark: RDDs, Dataframes, Spark SQL, MLlib, Spark Streaming e GraphX
Essa escola oferece programas em:
  • Inglês


Última atualização February 10, 2018
Duração e Preço
Este curso é Online
Start Date
Data inicial
Inscrições abertas
Duration
Duração
8 horas
Meio Período
Período integral
Price
Preço
19 USD
Locations
EUA - Fremont, Califórnia
Data inicial : Inscrições abertas
Prazo para inscrição Solicitar Informações
Data de conclusão Solicitar Informações
Dates
Inscrições abertas
EUA - Fremont, Califórnia
Prazo para inscrição Solicitar Informações
Data de conclusão Solicitar Informações