Olá a todos, sou o Vinicius Vale e hoje vou falar sobre Big Data e o mercado de trabalho. 

Para você que está chegando agora no mundo Big Data, primeiro precisa conhecer um pouco sobre esse tema. O artigo NoSQL na Era da Informação lhe dará informações necessárias para começar.

Antes do Big Data, as areas de TI eram facilmente separadas em 3 segmentos: Infraestrutura, Desenvolvimento e Suporte.

Com a chegada da Nuvem a infraestrutura evoluiu e foi transformada em serviço, e passamos a nos familiarizamos com termos como IAAS, PAAS, SAAS. Dessa forma, as empresas começam a focar mais no negócio.

Quando a nuvem conquista o mercado, a necessidade de criar uma esteira automatizada das aplicações e a unificação entre Desenvolvimento e a Infraestrutura criam uma nova habilidade. Futuramente, é dado o nome de Devops. O Devops trabalha diretamente com camadas mais baixas, como Virtualização, O/S e Middleware, e por isso não está diretamente ligada com Big Data. 

Quando falamos /Big/ Data estamos focando na camada Dados, uma camada cheia de armadilhas e segredos os quais precisamos entender.

Os dados em si não significam nada, precisamos transformá-lo em informação – seja estruturada ou não estruturada. A partir da informação conseguimos ter conhecimento – relacionando as informações, para termos Insights – refere-se no descobrimento de algo que eleva os resultados do negócio – mais assertivos e dessa forma, chegarmos a sabedoria aperfeiçoando o negócio.

Quando se entra no mundo Big Data, as principais vagas que encontramos são:  /Big/ Data Engineer, /Big/ Data Analyst, Data Scientist e as variantes. 

/Big/ Data Engineer ou Architect

Esse é um cargo que pode ou não vir com o Big, muita vezes com uma variante /Big/ Data Architect, porém não importa o nome ambos pedem uma série de habilidades e experiências.

Considerando a quantidade de habilidades necessárias, dificilmente é um cargo de estágio. O profissional já deve possuir alguma bagagem no mercado, quem é de Infraestrutura ou Banco de Dados tem mais facilidade em adaptar-se neste cargo. As principais tarefas são: 

  • ETL – Encarregado de extrair, transformar e carregar o dado para dentro de um Data Lake sendo fontes oriundas de diversos locais como: bases de dados SQL, noSQL, Kafka entre outros.
  • Modelagem de Dados – Saber estruturar os diferentes tipos de dados – estruturados, semi-estruturados ou não estruturados. Definindo formatos de arquivo, compactação. Além de quebrá-los em partições para uma melhor performance. 
  • Soluções Datawarehouse – Conhecer soluções de datawarehouse como Hive, Impala. Integrando essas ferramentas com soluções da Data Visualization como Tableau, Metabase e etc.
  • Conhecimentos avançados em linguagens SQL e NoSQL – Necessário para conseguir analisar e extrair informações mais consolidadas ou até mesmo importar para dentro de um Data Lake ou Data Smart.
  • Conhecimento em Linguagem de Programação – SHELL Script ou Python são preferências, porém Java e Scala também estão nessa lista. Principalmente pela necessidade de integrar ferramentas e soluções.

No geral, o Engineer – em relação ao Architect – possui conhecimentos básicos em matemática e estatísticas conhecendo algumas linguagens de programação específicas para aplicação de modelos matemáticos, como a linguagem R, por exemplo.

Agora que entendemos quais são as tarefas de um Data Engineer, vamos entender quais as habilidades necessárias para entrar bem neste mercado.

  • SQL avançado.
  • Conhecimento conceitual sobre ACID e BASE.
  • Conhecimento técnico de bancos relacionais como: PostgreSQL ou MySQL.
  • Conhecimento conceitual sobre banco NoSQL e seus tipos: Chave-Valor, Documento, Família de Colunas ou Grafos.
  • Conhecimento técnico de banco NoSQL.
  • Conhecimento sobre Ecossistema Hadoop (HDFS, YARN, HIVE, Zookeeper e etc).
  • Conhecimento sobre Ingestão de Dados com Flume, Sqoop, Flink, Storm ou Kafka.
  • Conhecimento sobre os tipos de serviços nas Nuvem, de preferência Storage e processamento distribuído como S3, Google Storage ou EMR.
  • Conhecimento avançado de Linux.
  • Conhecimento em linguagem de programação como Python, Java, Spark ou Shell Script.
  • Conhecimento básico em linguagem estatística como R ou Python.

Com essa lista de habilidades entende-se os motivos do profissional de Big Data ser tão difícil de achar. O mercado ainda não formou essas pessoas, estávamos acostumados com vaga simples como Programador Java, Desenvolvedor PHP e etc. Quando o Big Data chegou ele bagunçou com os requisitos para alguns cargos, e isso tem estressado o mercado para capacitar esses profissionais.

Obviamente de quem chegou hoje no mercado de trabalho, o Big Data é um sonho distante, porém não é impossível. Conheça alguns cursos da SUDOERS que podem lhe ajudar nesse trajeto.

No próximo artigo iremos falar sobre os outros cargos para Big Data, clique aqui.