Apache Parquet: o que é, como funciona o arquivo Parquet e suas vantagens

O Apache Parquet é um formato de arquivo de código aberto, disponível para qualquer projeto no ecossistema Hadoop. O formato Parquet é amplamente utilizado para armazenamento eficiente de grandes volumes de dados em vários cenários de Big Data e Data Science.

O arquivo Parquet, por ser colunar, foi projetado para entregar alto desempenho no processamento de dados, sendo muito superior em eficiência e compactação se comparado a formatos tradicionais, como CSV.

Um exemplo prático disso é a sua utilização em data lakes e pipelines de big data.

O Parquet file, ou arquivo Parquet, possui uma organização interna dos dados semelhante a uma tabela de um banco de dados relacional (RDBMS), estruturada em linhas e colunas. No entanto, diferentemente destes bancos de dados, o Parquet armazena os dados em formato colunar.

Devido à sua estrutura colunar, o arquivo Parquet garante uma melhor compactação e alto desempenho ao se trabalhar com grandes volumes de dados, tornando-se o padrão para parquet files em soluções modernas de Big Data.

Neste artigo você vai entender o que é Apache Parquet, como funcionam os arquivos Parquet na prática, exemplos de aplicação, as principais diferenças entre arquivos CSV e Parquet, além das vantagens do formato Parquet.

O que é Apache Parquet e para que serve o arquivo Parquet?

O Apache Parquet é um arquivo de formato binário que permite o armazenamento dos dados utilizando tipos primitivos específicos, como: BOOLEAN, INT32, INT64, INT96 (deprecated, usado apenas em implementações legadas), FLOAT, DOUBLE, BYTE_ARRAY (arrays de bytes de tamanho variável) e FIXED_LEN_BYTE_ARRAY (arrays de bytes de tamanho fixo).

Os metadados de um arquivo Parquet contêm informações como versão, esquema, tipos e outros dados relevantes, e ficam gravados ao final do arquivo. Segundo a documentação do Apache Parquet, esse formato é projetado explicitamente para separar os metadados dos dados.

Quando isso acontece, é possível referenciar vários arquivos Parquet. Assim, teremos os dados em vários arquivos onde eles podem ser lidos paralelamente, ou seja, ao mesmo tempo.

Os metadados são segmentados principalmente em dois tipos: metadados de arquivo (FileMetaData) e metadados de cabeçalho de página (PageHeader).

Os metadados de coluna (ColumnMetaData) fazem parte dos metadados de arquivo e são armazenados no rodapé. No caso dos metadados de arquivo, eles são armazenados no rodapé de cada arquivo e contêm as seguintes informações:

Versão do formato Parquet.
Esquema (estrutura) dos dados.
Metadados da coluna (tipo, número de valores, localização, codificação).
Número de grupos de linhas.
Pares de valor-chave adicionais.

Espera-se que a leitura de um arquivo Parquet, seja inicialmente feita pelos metadados. Assim, será possível localizar e identificar apenas as colunas relevantes ao consultar arquivos Parquet, otimizando tempo e recursos para análise de parquet data.

Arquivo Parquet vs CSV – vantagens, exemplos e principais diferenças

O formato CSV é um dos mais utilizados para armazenamento e transferência de dados e sua estrutura se assemelha a uma tabela de banco de dados, formada por colunas e linhas. Normalmente, a primeira linha do arquivo traz o cabeçalho e os dados são separados por vírgulas, ponto e vírgula ou tabulação.

Ferramentas como Google Sheets e Excel podem ser utilizadas para criar um arquivo CSV. Porém, ainda que seja um dos formatos mais populares para a criação de arquivos, há limitações quando comparado ao formato Parquet.

Por exemplo, ao utilizar serviços como Amazon Athena, Amazon S3 e Google Dataproc, pode haver cobrança baseada não só na quantidade de dados armazenados, mas também no volume de dados processados durante as consultas.

Diversos benchmarks independentes demonstram vantagens significativas do Parquet sobre CSV. Por exemplo, segundo o benchmark TPC-H do DuckDB em escala 20, arquivos Parquet foram 5x menores que arquivos CSV equivalentes (3.2 GB vs 16 GB) e executaram consultas analíticas de 7 a 10x mais rápido.

Arquivo	Espaço utilizado	Tempo de execução
CSV	1 TB	236 segundos
Apache Parquet	130 GB	6,78 segundos

O Databricks também documentou economias de armazenamento de pelo menos um terço em grandes datasets, além de melhorias significativas no tempo de varredura e desserialização.

Principais vantagens do arquivo Parquet e do formato Parquet

Consultar apenas colunas de arquivos parquet pode diminuir drasticamente o tempo das queries e o volume de dados processados, tornando o arquivo parquet referência de performance.
A compactação é feita coluna por coluna e pode ser realizada utilizando diversos codecs disponíveis, como Snappy, Gzip, Brotli, Zstd, LZ4 e LZO. Cada coluna pode usar um codec diferente, permitindo otimizar a compressão de acordo com o tipo de dado armazenado.
Ao utilizar o formato colunar como o Parquet, é possível realizar evolução de schema de forma limitada. Inicialmente pode-se criar um arquivo com poucas colunas e gradualmente ir adicionando novas colunas ao schema, ou mesclar schemas que não entrem em conflito, podendo ter vários arquivos com schemas diferentes e compatíveis entre si.
Os tipos de dados mapeados facilitam a identificação das informações em cada coluna, como textos ou números. No entanto, por ser um formato binário, não é possível ler o conteúdo do arquivo Parquet diretamente sem uma ferramenta apropriada, diferentemente do CSV.

Resumo: quando usar arquivo Parquet e principais aplicações

Atualmente, o Apache Parquet continua em ativo desenvolvimento. A versão mais recente do parquet-java é a 1.17.0, lançada em janeiro de 2026, e o parquet-format está na versão 2.12.0 (agosto de 2025).

O projeto permanece como um dos formatos colunares mais utilizados em arquiteturas modernas de data lake e lakehouse, sendo a base para tecnologias como Delta Lake, Apache Iceberg e Apache Hudi.

Neste artigo conhecemos um pouco sobre o projeto Apache Parquet, que é um formato de arquivo de código aberto e orientado por colunas.

O formato colunar do Parquet traz eficiência ao armazenar e analisar grandes volumes de dados, pois permite que as consultas foquem apenas nas informações relevantes, reduzindo a quantidade de dados processada.

Vale ressaltar que o arquivo Parquet se tornou padrão em soluções de big data modernas, como Spark, Hive, AWS Athena e Google BigQuery. Se você está construindo um pipeline de dados ou precisa de alta performance, usar arquivos parquet é uma recomendação amplamente adotada pelo mercado.

Para saber mais, acompanhe as novidades na página do projeto Apache Parquet e em nossos cursos aqui da Alura.

Como aprender mais sobre Apache Parquet?

Quer ver o Apache Parquet sendo usado na prática em pipelines de dados? O curso de Spark da Alura mostra como trabalhar com grandes volumes de dados e formatos como Parquet no ecossistema Big Data.

Avalie este artigo

✨ Agradecemos pela sua avaliação! ✨

Imersões

7 Days of Code

Artigos

Podcasts

Tech Guide

Vídeos Extras

Depoimentos de Alunos

Cases de Sucesso Exclusivo para estudantes Alura

Apache Parquet: o que é, como funciona o arquivo Parquet e suas vantagens

O que é Apache Parquet e para que serve o arquivo Parquet?

Arquivo Parquet vs CSV – vantagens, exemplos e principais diferenças

Principais vantagens do arquivo Parquet e do formato Parquet

Resumo: quando usar arquivo Parquet e principais aplicações

Como aprender mais sobre Apache Parquet?

Avalie este artigo

Leia também

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP