Apache Parquet: o que é, como funciona o arquivo Parquet e suas vantagens 

Danielle Oliveira
Danielle Oliveira

Compartilhe

Avalie este artigo

6 minutos de leitura

O Apache Parquet é um formato de arquivo de código aberto, disponível para qualquer projeto no ecossistema Hadoop. O formato Parquet é amplamente utilizado para armazenamento eficiente de grandes volumes de dados em vários cenários de Big Data e Data Science

O arquivo Parquet, por ser colunar, foi projetado para entregar alto desempenho no processamento de dados, sendo muito superior em eficiência e compactação se comparado a formatos tradicionais, como CSV.

Um exemplo prático disso é a sua utilização em data lakes e pipelines de big data. 

O Parquet file, ou arquivo Parquet, possui uma organização interna dos dados semelhante a uma tabela de um banco de dados relacional (RDBMS), estruturada em linhas e colunas. No entanto, diferentemente destes bancos de dados, o Parquet armazena os dados em formato colunar. 

Devido à sua estrutura colunar, o arquivo Parquet garante uma melhor compactação e alto desempenho ao se trabalhar com grandes volumes de dados, tornando-se o padrão para parquet files em soluções modernas de Big Data

Neste artigo você vai entender o que é Apache Parquet, como funcionam os arquivos Parquet na prática, exemplos de aplicação, as principais diferenças entre arquivos CSV e Parquet, além das vantagens do formato Parquet. 

O que é Apache Parquet e para que serve o arquivo Parquet? 

O Apache Parquet é um arquivo de formato binário que permite o armazenamento dos dados utilizando tipos primitivos específicos, como: BOOLEAN, INT32, INT64, INT96 (deprecated, usado apenas em implementações legadas), FLOAT, DOUBLE, BYTE_ARRAY (arrays de bytes de tamanho variável) e FIXED_LEN_BYTE_ARRAY (arrays de bytes de tamanho fixo). 

Os metadados de um arquivo Parquet contêm informações como versão, esquema, tipos e outros dados relevantes, e ficam gravados ao final do arquivo.  Segundo a documentação do Apache Parquet, esse formato é projetado explicitamente para separar os metadados dos dados. 

Quando isso acontece, é possível referenciar vários arquivos Parquet. Assim, teremos os dados em vários arquivos onde eles podem ser lidos paralelamente, ou seja, ao mesmo tempo. 

Os metadados são segmentados principalmente em dois tipos: metadados de arquivo (FileMetaData) e metadados de cabeçalho de página (PageHeader).

Os metadados de coluna (ColumnMetaData) fazem parte dos metadados de arquivo e são armazenados no rodapé. No caso dos metadados de arquivo, eles são armazenados no rodapé de cada arquivo e contêm as seguintes informações: 

  • Versão do formato Parquet. 
  • Esquema (estrutura) dos dados. 
  • Metadados da coluna (tipo, número de valores, localização, codificação). 
  • Número de grupos de linhas. 
  • Pares de valor-chave adicionais. 

Espera-se que a leitura de um arquivo Parquet, seja inicialmente feita pelos metadados. Assim, será possível localizar e identificar apenas as colunas relevantes ao consultar arquivos Parquet, otimizando tempo e recursos para análise de parquet data. 

Banner promocional da Alura destacando até 35% de desconto em cursos de tecnologia. A mensagem reforça que a diferença entre potencial e resultado está no preparo, incentivando profissionais a se anteciparem às mudanças do mercado e investirem no desenvolvimento de novas habilidades. A imagem mostra uma pessoa usando fones de ouvido e há um botão com a chamada "Aproveitar agora" para começar a evoluir na carreira tech.

Arquivo Parquet vs CSV – vantagens, exemplos e principais diferenças 

O formato CSV é um dos mais utilizados para armazenamento e transferência de dados e sua estrutura se assemelha a uma tabela de banco de dados, formada por colunas e linhas. Normalmente, a primeira linha do arquivo traz o cabeçalho e os dados são separados por vírgulas, ponto e vírgula ou tabulação. 

Ferramentas como Google Sheets e Excel podem ser utilizadas para criar um arquivo CSV. Porém, ainda que seja um dos formatos mais populares para a criação de arquivos, há limitações quando comparado ao formato Parquet. 

Por exemplo, ao utilizar serviços como Amazon Athena, Amazon S3 e Google Dataproc, pode haver cobrança baseada não só na quantidade de dados armazenados, mas também no volume de dados processados durante as consultas. 

Diversos benchmarks independentes demonstram vantagens significativas do Parquet sobre CSV. Por exemplo, segundo o benchmark TPC-H do DuckDB em escala 20, arquivos Parquet foram 5x menores que arquivos CSV equivalentes (3.2 GB vs 16 GB) e executaram consultas analíticas de 7 a 10x mais rápido. 

Arquivo Espaço utilizado Tempo de execução 
CSV 1 TB 236 segundos 
Apache Parquet 130 GB 6,78 segundos 

O Databricks também documentou economias de armazenamento de pelo menos um terço em grandes datasets, além de melhorias significativas no tempo de varredura e desserialização. 

Principais vantagens do arquivo Parquet e do formato Parquet   

  • Consultar apenas colunas de arquivos parquet pode diminuir drasticamente o tempo das queries e o volume de dados processados, tornando o arquivo parquet referência de performance. 
  • A compactação é feita coluna por coluna e pode ser realizada utilizando diversos codecs disponíveis, como Snappy, Gzip, Brotli, Zstd, LZ4 e LZO. Cada coluna pode usar um codec diferente, permitindo otimizar a compressão de acordo com o tipo de dado armazenado. 
  • Ao utilizar o formato colunar como o Parquet, é possível realizar evolução de schema de forma limitada. Inicialmente pode-se criar um arquivo com poucas colunas e gradualmente ir adicionando novas colunas ao schema, ou mesclar schemas que não entrem em conflito, podendo ter vários arquivos com schemas diferentes e compatíveis entre si. 
  • Os tipos de dados mapeados facilitam a identificação das informações em cada coluna, como textos ou números. No entanto, por ser um formato binário, não é possível ler o conteúdo do arquivo Parquet diretamente sem uma ferramenta apropriada, diferentemente do CSV. 

Resumo: quando usar arquivo Parquet e principais aplicações 

Atualmente, o Apache Parquet continua em ativo desenvolvimento. A versão mais recente do parquet-java é a 1.17.0, lançada em janeiro de 2026, e o parquet-format está na versão 2.12.0 (agosto de 2025).

O projeto permanece como um dos formatos colunares mais utilizados em arquiteturas modernas de data lake e lakehouse, sendo a base para tecnologias como Delta Lake, Apache Iceberg e Apache Hudi. 

Neste artigo conhecemos um pouco sobre o projeto Apache Parquet, que é um formato de arquivo de código aberto e orientado por colunas. 

O formato colunar do Parquet traz eficiência ao armazenar e analisar grandes volumes de dados, pois permite que as consultas foquem apenas nas informações relevantes, reduzindo a quantidade de dados processada. 

Vale ressaltar que o arquivo Parquet se tornou padrão em soluções de big data modernas, como Spark, Hive, AWS Athena e Google BigQuery. Se você está construindo um pipeline de dados ou precisa de alta performance, usar arquivos parquet é uma recomendação amplamente adotada pelo mercado. 

Para saber mais, acompanhe as novidades na página do projeto Apache Parquet e em nossos cursos aqui da Alura. 

Como aprender mais sobre Apache Parquet?

Quer ver o Apache Parquet sendo usado na prática em pipelines de dados? O curso de Spark da Alura mostra como trabalhar com grandes volumes de dados e formatos como Parquet no ecossistema Big Data.

Avalie este artigo 

✨ Agradecemos pela sua avaliação! ✨ 

Avalie este artigo

Danielle Oliveira
Danielle Oliveira

Danielle é formada em Sistemas de Informação. Fez parte do Scuba Team. Atualmente é instrutora de Data Science, nas áreas de Banco de dados, Business Intelligence e NoSQL. É apaixonada por livros, música e tecnologia.

Veja outros artigos sobre Data Science