isPowerfulBlog
[ETL/ELT] 개념 본문
ETL이란?
추출(Extract), 변환(Transform), 로드(Load)
여러 시스템의 데이터를 데이터 웨어하우스에 결합하는 과정
데이터 파이프라인을 구성하여 원시 데이터를 정리 및 구성하여 스토리지, 데이터 분석, 기계 학습 등의 용도로 준비하는 일련의 과정들
ETL 작동 방식
- source 데이터 베이스에서 관련 데이터 추출
- 분석에 더 적합한 형식으로 데이터 변환
- 데이터를 대상 데이터베이스에 로드
ETL의 장점
- 스토리지 비용 절감
- 보안
ETL의 단점
- 유연성이 낮음
- 대용량 데이터일수록 Transform이 시간이 걸려 실시간에 어려움
- 지속 가능성 낮음.. 유지보수 어려
- 초기 비용이 높음
ELT란?
추출(Extract), 로드(Load), 변환(Transform)으로 ETL과 순서가 다름
비구조화된 데이터들의 사용이 늘어나면서 ELT에 대한 관심도 높아짐
ELT는 빈번하게 로드해야 하는 대량의 비정형 데이터 세트에 적합함.
최소한으로만 처리한 원시 데이터를 데이터 웨어하우스에 일단 로드해놓는데에 초점을 맞춤
따라서 실시간 대규모 데이터를 처리할 때 ETL보다는 ELT가 더 적합
ELT의 장점
- 빠름 -> 실시간 대용량 데이터에 더 적
- 유연함
- 초기 비용이 낮음
- 최소한의 유지만 하면 됨
- 스토리지 확장 가능성 높음
ELT의 단점
- 보안 위험
데이터 웨어하우스(Data Warehouse) vs 데이터 레이크(Data Lake)
- 데이터 웨어하우스: 어느 정도 가치가 있고, 구조화가 된 데이터들이 모여있는 곳
- 데이터 레이크: 구조화된 데이터, 비구조화된 데이터 모두 존재
References
https://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-how
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwipmfGt_dn9AhVT4TgGHenGBOYQFnoECBMQAw&url=https%3A%2F%2Fcloud.google.com%2Flearn%2Fwhat-is-etl%3Fhl%3Dko&usg=AOvVaw1dblmBGa90DhWOzNiWLRfx
https://aws.amazon.com/ko/what-is/etl/
https://pearlluck.tistory.com/650
'Data Engineering' 카테고리의 다른 글
[Kafka] Docker로 Producer, Consumer 통신하기 (Python) (0) | 2023.03.22 |
---|---|
[Kafka] Docker에서 Kafka 단일 Broker Cluster 구성하기 (0) | 2023.03.22 |
[PostgreSQL] psql 기본 명령어 (0) | 2023.01.24 |
[ElasticSearch] Document API: GET, POST, DELETE (0) | 2023.01.11 |
[Logstash] Forwarding messages from Kafka to Elasticsearch (0) | 2022.12.18 |