Топ 25 терминов по Data Lake, Lakehouse, ELT

Топ 25 терминов по Data Lake, Lakehouse, ELT

Концепция Data Lake, Lakehouse и ELT становятся все более популярными в области хранилищ данных и обработки данных. Вот топ 25 терминов, связанных с этими концепциями:

Data Lake:

  1. Data Lake (озеро данных): Централизованное хранилище данных, которое позволяет хранить большие объемы разнородных и неструктурированных данных.
  2. Raw Data (сырые данные): Необработанные данные, которые сохраняются в Data Lake без преобразования или агрегации.
  3. Data Ingestion (загрузка данных): Процесс загрузки данных из различных источников в Data Lake.
  4. Data Catalog (каталог данных): Расширенный метаданный слой, который содержит информацию о доступных данных в Data Lake.
  5. Data Governance (управление данными): Практики и процессы, направленные на управление и обеспечение качества данных в Data Lake.

Lakehouse:

  1. Lakehouse: Концепция, объединяющая преимущества Data Lake и традиционного хранилища данных, сочетая хранение сырых данных и возможность аналитической обработки.
  2. Schema Enforcement (проверка схемы): Процесс проверки и применения схемы данных к данным в Lakehouse, чтобы обеспечить целостность и согласованность.
  3. Delta Lake: Открытый формат хранения данных в Lakehouse, который обеспечивает транзакционность, версионность и прочность.
  4. ACID Transactions (транзакции ACID): Гарантируют атомарность, согласованность, изолированность и долговечность операций с данными в Lakehouse.
  5. Data Quality (качество данных): Мера, определяющая точность, полноту и достоверность данных в Lakehouse.

ELT (Extract, Load, Transform):

  1. Extract (извлечение): Процесс извлечения данных из источников, таких как базы данных, файлы или API.
  2. Load (загрузка): Процесс загрузки данных из источников в хранилище данных, такое как Data Lake или Lakehouse.
  3. Transform (трансформация): Процесс преобразования и обработки данных после загрузки в целевое хранилище данных.
  4. Data Pipeline (процесс потоковых данных): Серия шагов и операций, необходимых для перемещения данных из источников в хранилище данных через трансформацию.
  5. Data Wrangling (подготовка данных): Процесс очистки, преобразования и агрегации данных для обеспечения их пригодности для анализа.

Data Lake и Lakehouse (общие термины):

  1. Big Data (большие данные): Объемные, сложные и быстро меняющиеся данные, которые требуют специальных методов обработки.
  2. Data Pipeline (процесс потоковых данных): Серия шагов и операций, необходимых для перемещения данных из источников в хранилище данных через трансформацию.
  3. Data Governance (управление данными): Практики и процессы, направленные на управление и обеспечение качества данных.
  4. Data Discovery (поиск данных): Процесс обнаружения и исследования данных в хранилище данных с целью понимания и использования доступных данных.
  5. Data Lineage (цепочка данных): Отслеживание происхождения, перемещения и трансформации данных в хранилище данных.

ELT (дополнительные термины):

  1. Staging Area (область стейджинга): Временное хранилище данных, где данные загружаются перед трансформацией и загрузкой в целевое хранилище данных.
  2. Data Mapping (сопоставление данных): Процесс определения соответствия данных между различными источниками и целевым хранилищем данных.
  3. Data Profiling (профилирование данных): Анализ и изучение данных для определения их структуры, качества и статистических свойств.
  4. Change Data Capture (захват изменений данных): Механизм, который отслеживает и записывает только измененные данные для улучшения производительности процесса ELT.
  5. Incremental Load (инкрементная загрузка): Процесс загрузки только новых или измененных данных в хранилище данных без повторной загрузки всего набора данных.

Это лишь некоторые из ключевых терминов, связанных с концепциями Data Lake, Lakehouse и ELT. Область хранилищ данных и обработки данных постоянно развивается, поэтому список терминов может быть более обширным и включать дополнительные понятия в зависимости от конкретных контекстов и решений.

0 0 голоса
Рейтинг статьи
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x