Blog

Similaridade entre Strings

Quem trabalha como engenheiro de dados tem o hábito de trabalhar com vários tipos de arquivos de diversas fontes, com isso, é normal receber arquivos com dados que deveriam ser iguais, porém não são. É comum, por exemplo, esperar que chegue no cabeçalho do arquivo…

A camada Real Time

Já sabemos que Big Data é o centro das atenções no mercado de trabalho, e quando falamos de novas tecnologias qualquer empresa hoje sabe o que precisa fazer, mesmo que ainda não saiba como. Neste contexto, vemos que real time é o objetivo final das…

O que é Pipeline de Dados?

Nesse post vamos falar sobre o que é Pipeline de Dados e qual o papel do Engenheiro de Dados. Pipelines são fluxos onde a entrada de um dado é processado e enviado para outro processo. Nesta imagem podemos analisar um fluxo “pipeline” dividido em 3…

Do Raw para Analytics – Big Data

Recentemente fui acionado para fazer uma tarefa no Data Lake que possui aproximadamente 150Tb. Normalmente, o processo de ingestão é automatizado. Porém, às vezes, algum processo para e precisa reprocessar. Neste caso, os arquivos ingeridos estavam em parte corrompidos. Houve uma falha no processo de…