Apache Parquet |
Автор: admin Просмотров: 2335 Комментарии:
Добавлен: 1 февраля 2017
Обновлено: 1.02.2017 - 16:29
Свободная СУБД для экосистемы Apache Hadoop. Его формат похож на колоночные форматы Hadoop, а именно на RCFile и оптимизированный RCFile. Он совместим с большинством механизмов обработки данных в среде Hadoop. Он обеспечивает эффективное сжатие данных и кодирование схем с повышенной производительностью для массовой обработки комплексных данных.
Apache Parquet начинал разрабатываться совместными усилиями Twitter и Cloudera. Первая версия Apache Parquet 1.0 была выпущен в июле 2013 года.
Возможности Apache Parquet
Apache Parquet выполнен с использованием алгоритмов измельчения и сборки, которые могут быть использованы для хранения данных. Apache Parquet хранит данные, где значения в каждом столбце физически хранятся в смежных ячейках памяти. Это похоже на формат хранения данных в RCFile. Благодаря колоночному хранению, Apache Parquet имеет следующие возможности:
- Колоночное сжатие эффективное и экономит место для хранения.
- Технологии сжатия, специфичные для типа могут быть применены в качестве значения столбцов, как правило, того же типа.
- Запросы, извлекающие конкретные значения столбцов не нуждаются в чтении всей строки данных, таким образом улучшая производительность
- Различные методы кодирования могут быть применены к различным столбцам
- Apache Parquet реализован с помощью Apache Thrift framework, который повышает гибкость работы с несколькими языками программирования, такими как C++, Java, Python, PHP и т.д.
По состоянию на август 2015 года Паркет поддерживает большие фреймворки обработки данных: Apache Hive, Apache Drill, Cloudera Impala, Apache Crunch, Apache Pig, Cascading и Apache Spark.
Сжатие и кодирование
В Parquet сжатие выполняется столбец за столбцом, следовательно позволяя разные схемы кодирования, которые нужно использовать для текста или целочисленных данных. Ещё эта стратегия открывает двери для новых и более совершенных схем кодирования, которые должны быть реализованы, поскольку они придуманы.
Словарь кодирования
Parquet имеет автоматическое словарное динамическое кодирование данных с небольшим количеством уникальных значений (<10^5), значительно повышающее степень сжатия и скорость обработки данных.
Упаковка битов
Хранение целочисленных значений обычно делиться на 32 и 64. Упаковка небольших целочисленных значений в одно пространство делает хранение более эффективным.
Кодирование по длине прогона
Для оптимизации хранения нескольких вхождений одного и того же значения, то значение сохраняется только один раз вместе с числом вхождений.
Parquet выполняет гибридную битовую упаковку и кодирование по длине прогона, где переключатели кодирования дают наилучшие результаты сжатия. Эта стратегия хорошо работает для некоторых типов целочисленных данных и хорошо сочетается с словарным кодированием.
Сравнение
Apache Parquet можно сравнивать с RCFile и с оптимизированными форматами файла RCFile (ORC), так как все три подпадают под категорию колоночного хранения данных в экосистеме Hadoop. Все они имеют сжатие и кодирование с улучшенными характеристиками считывания при стоимости более медленных операций записи. В дополнение ко всем этим функциям, Apache Parquet поддерживает эволюцию схемы, где схема может быть изменена в соответствии с изменениями в данных. Он также предоставляет возможность добавлять новые столбцы в конце структуры файла. В настоящее время, только Apache Hive и Cloudera Impala могут запросить недавно добавленные столбцы и другие механизмы, такие как Apache Pig.
https://en.wikipedia.org/wiki/Apache_Parquet
------------------------
ТРИО теплый пол отзыв
Заработок на сокращении ссылок
Earnings on reducing links
Код PHP на HTML сайты
Категория: Базы данных, Сервера баз данных
Комментарии |