Топ 25 терминов по Data Lake, Lakehouse, ELT
Концепция Data Lake, Lakehouse и ELT становятся все более популярными в области хранилищ данных и обработки данных. Вот топ 25 терминов, связанных с этими концепциями:
Data Lake:
- Data Lake (озеро данных): Централизованное хранилище данных, которое позволяет хранить большие объемы разнородных и неструктурированных данных.
- Raw Data (сырые данные): Необработанные данные, которые сохраняются в Data Lake без преобразования или агрегации.
- Data Ingestion (загрузка данных): Процесс загрузки данных из различных источников в Data Lake.
- Data Catalog (каталог данных): Расширенный метаданный слой, который содержит информацию о доступных данных в Data Lake.
- Data Governance (управление данными): Практики и процессы, направленные на управление и обеспечение качества данных в Data Lake.
Lakehouse:
- Lakehouse: Концепция, объединяющая преимущества Data Lake и традиционного хранилища данных, сочетая хранение сырых данных и возможность аналитической обработки.
- Schema Enforcement (проверка схемы): Процесс проверки и применения схемы данных к данным в Lakehouse, чтобы обеспечить целостность и согласованность.
- Delta Lake: Открытый формат хранения данных в Lakehouse, который обеспечивает транзакционность, версионность и прочность.
- ACID Transactions (транзакции ACID): Гарантируют атомарность, согласованность, изолированность и долговечность операций с данными в Lakehouse.
- Data Quality (качество данных): Мера, определяющая точность, полноту и достоверность данных в Lakehouse.
ELT (Extract, Load, Transform):
- Extract (извлечение): Процесс извлечения данных из источников, таких как базы данных, файлы или API.
- Load (загрузка): Процесс загрузки данных из источников в хранилище данных, такое как Data Lake или Lakehouse.
- Transform (трансформация): Процесс преобразования и обработки данных после загрузки в целевое хранилище данных.
- Data Pipeline (процесс потоковых данных): Серия шагов и операций, необходимых для перемещения данных из источников в хранилище данных через трансформацию.
- Data Wrangling (подготовка данных): Процесс очистки, преобразования и агрегации данных для обеспечения их пригодности для анализа.
Data Lake и Lakehouse (общие термины):
- Big Data (большие данные): Объемные, сложные и быстро меняющиеся данные, которые требуют специальных методов обработки.
- Data Pipeline (процесс потоковых данных): Серия шагов и операций, необходимых для перемещения данных из источников в хранилище данных через трансформацию.
- Data Governance (управление данными): Практики и процессы, направленные на управление и обеспечение качества данных.
- Data Discovery (поиск данных): Процесс обнаружения и исследования данных в хранилище данных с целью понимания и использования доступных данных.
- Data Lineage (цепочка данных): Отслеживание происхождения, перемещения и трансформации данных в хранилище данных.
ELT (дополнительные термины):
- Staging Area (область стейджинга): Временное хранилище данных, где данные загружаются перед трансформацией и загрузкой в целевое хранилище данных.
- Data Mapping (сопоставление данных): Процесс определения соответствия данных между различными источниками и целевым хранилищем данных.
- Data Profiling (профилирование данных): Анализ и изучение данных для определения их структуры, качества и статистических свойств.
- Change Data Capture (захват изменений данных): Механизм, который отслеживает и записывает только измененные данные для улучшения производительности процесса ELT.
- Incremental Load (инкрементная загрузка): Процесс загрузки только новых или измененных данных в хранилище данных без повторной загрузки всего набора данных.
Это лишь некоторые из ключевых терминов, связанных с концепциями Data Lake, Lakehouse и ELT. Область хранилищ данных и обработки данных постоянно развивается, поэтому список терминов может быть более обширным и включать дополнительные понятия в зависимости от конкретных контекстов и решений.
Leave a Reply