今回はデータ形式のParquetについて解説します。 Parquet形式とは Parquet形式は、大規模なデータファイルに使用されるフォーマットの一つであり、以下の構成要素を持ちます。 ファイルヘッダー ファイルがParquet形式であることを示す メタデータ データセットのスキーマ情報(カラム名、データ型など)、各列のデータ詳細(圧縮タイプ、エンコーディングなど)を示す。これによりデータへのアクセス方法が分かる データブロック(行グループ) データ本体。列方向に複数の行グループに分割されて保存されている。例えば1000行のデータであれば、5つの200行を内包する行グループに分けることができる。各行グループに対してメタデータが存在する データブロックの確認 具体的にデータ形式をイメージするために、データ本体の構造について見ていきましょう。 # 時間、周波数、振幅 #行グループ1 [[0.