S'S ALGORITHM

🚩数据工程基础

数据类型

数据特性(properties)

数据仓库和数据湖

数据仓库

数据湖

二者比较

Data Lakehouse

Delta Lake核心原理

Data Mesh

ETL和ELT

Data Sources和Format

相关概念

数据库性能提升方法

Git也是数据工程的重要工具!

数据保护

Storage

S3

EBS Volume

(可参考SAP内容)

EFS - Elastic File System

(可参考SAP内容)

AWS Backup

Database

DynamoDB

RDS

Aurora

(突出关键特性)

DocumentDB

Amazon MemoryDB for Redis

Amazon Keyspaces(for Apache Cassandra)

Amazon Neptune

Amazon Timestream

Redshift

Migration & Transfer

Application Discovery Service

Application Migration Services

DataSync

Snow Family

DMS

Snowball + DMS 数据迁移过程

AWS Transfer Family

Compute

EC2

(记点新的东西吧)

AWS Graviton:自己的处理器processors家族

Lambda

SAM

AWS Batch

Container

ECS

EKS

Amazon Fargate work with ECS/EKS

ECR

ECS/EKS Anywhere

Analytics

AWS Glue

Lake Formation

Athena

EMR(Elastic MapReduce)

Kinesis

Kinesis Stream

Kinesis Data Firehose

Kinesis Data Analytics

Kinesis Video Stream

流数据工程构架

Amazon MSK

OpenSearch

QuickSight

知识补充

Apache Hive是一个构建在Hadoop之上的数据仓库系统,用于在Hadoop分布式文件系统(HDFS)上进行数据的查询和分析。它提供了一种类似于SQL的语言,称为HiveQL(Hive Query Language),使用户能够使用SQL语法来查询存储在Hadoop中的大规模数据集。Hive将SQL查询转换为MapReduce作业,以便在Hadoop集群上并行处理数据。Hive适用于批处理、ETL(提取、转换、加载)操作和数据分析。它支持用户自定义函数(UDFs),并能与其他大数据工具如Pig和Spark集成。通过抽象复杂的MapReduce操作,Hive大大降低了大数据分析的门槛,方便数据工程师和分析师高效处理和分析海量数据。

Custom record locking 是一种手动实现的机制,用于在数据库中防止多个用户或进程同时访问和修改同一条记录,以避免数据不一致或冲突。尽管这种方法提供了灵活性,可以根据特定业务逻辑实现锁定策略,但其缺点在于可能引入复杂性和错误,增加开发和维护成本。此外,不当的锁定策略可能导致死锁、性能下降、资源浪费,以及更难以处理并发问题,特别是在分布式系统中。使用内置数据库锁定机制通常更可靠和高效。

Periodic compaction 是一种定期执行的存储优化技术,用于合并和整理数据文件,以减少碎片化、提高存储效率和提升读写性能。在数据库和大数据系统(如HBase、Cassandra、Kafka)中,数据随时间增多,可能会产生许多小文件或分散的存储块。通过周期性地合并这些文件,系统可以减少I/O开销,降低存储成本,并提高查询效率。这种方法需要在性能和资源利用之间进行平衡,避免频繁合并对系统造成负担。

Firecracker 是一种开源虚拟化技术,由 AWS 开发,专为运行无服务器计算和容器化应用而设计。它通过微虚拟机(MicroVMs)提供安全隔离和高效资源利用,启动速度快,资源开销低,非常适合于 FaaS(Function as a Service)和 CaaS(Container as a Service)环境。Firecracker 是用 Rust 语言编写的,具备内存保护和并发安全特性。它被广泛应用于 AWS Lambda 和 AWS Fargate 等服务中,以提供轻量级、高性能的计算实例。

Application Integration

SQS

SNS

GCP的PubSub对标的是SQS和SNS两个服务。

Step Functions

AppFlow

Amazon EventBridge

MWAA Airflow

⬆️数据工程的各种组件⬇️全面统筹和ML加持

Security & Identity & Compliance

Networking & Content Delivery

Management & Governance

Machine Learning

Developer Tools