Similaridade entre Strings
Quem trabalha como engenheiro de dados tem o hábito de trabalhar com vários tipos de arquivos de diversas fontes, com isso, é normal receber arquivos com dados que deveriam ser iguais, porém não são. É comum, por exemplo, esperar que chegue no cabeçalho do arquivo…
A camada Real Time
Já sabemos que Big Data é o centro das atenções no mercado de trabalho, e quando falamos de novas tecnologias qualquer empresa hoje sabe o que precisa fazer, mesmo que ainda não saiba como. Neste contexto, vemos que real time é o objetivo final das…
O que é Pipeline de Dados?
Nesse post vamos falar sobre o que é Pipeline de Dados e qual o papel do Engenheiro de Dados. Pipelines são fluxos onde a entrada de um dado é processado e enviado para outro processo. Nesta imagem podemos analisar um fluxo “pipeline” dividido em 3…
Ingestão Contínua – O Sonho de todo engenheiro de dados.
Dentro de uma Squad de engenharia de dados, as principais ações estão sempre relacionadas a dados. E os dados, podem ser representados de diversas maneiras. Arquivos estruturados, que possuem delimitadores definidos, como arquivos CSV, TSV. Ou talvez, arquivos semi-estruturados como arquivos em formato JSON ou…
Do Raw para Analytics – Big Data
Recentemente fui acionado para fazer uma tarefa no Data Lake que possui aproximadamente 150Tb. Normalmente, o processo de ingestão é automatizado. Porém, às vezes, algum processo para e precisa reprocessar. Neste caso, os arquivos ingeridos estavam em parte corrompidos. Houve uma falha no processo de…
Cloud
Vinicius Vale faz um bate papo com o especialista em Cloud, Douglas Altwig.
Ecossistema Hadoop
Vinicius Vale faz um bate papo com os especialistas em Big Data, Moisés Pereira e Bruno Flammarion.
5 Passos para montar seu Data Lake
Vinicius Vale faz um bate papo com o especialista em Big Data, Moisés Pereira.
O dia a dia do engenheiro de dados
Vinicius Vale faz um bate papo com os especialistas em Big Data, Moisés Pereira e Paulo Werneck.
Categorias
- AI (1)
- Big Data (18)
- Cloud (3)
- Dados Abertos (2)
- Devops (7)
- Liderança (6)
- Linux (13)
- Modelagem (6)
- MongoDB (1)
- NoSQL (11)
- PostgreSQL (26)
- Sem categoria (1)