Data Formats: Parquet vs ORC vs CSV

Question

Accepted Answer

Compare file formats commonly used in big data processing. CSV / JSON (Row-based Text Formats) Human-readable, schema-free, supported by all tools. Cons: No compression, no statistics, reads entire rows even for one column, poor performance. Use cases: Data exchange, manual inspection, small datasets. Parquet (Columnar Binary Format) Column-oriented storage — queries only scan needed columns, dramatically reducing I/O. Built-in schema with Schema Evolution support. Per-column compression (Snapp…

Data Formats: Parquet vs ORC vs CSV

CSV / JSON (Row-based Text Formats)

Parquet (Columnar Binary Format)

ORC (Optimized Row Columnar)

Recommendation