본문 바로가기
728x90

Data Engineering20

[ETL/ELT] 개념 ETL이란? 추출(Extract), 변환(Transform), 로드(Load) 여러 시스템의 데이터를 데이터 웨어하우스에 결합하는 과정 데이터 파이프라인을 구성하여 원시 데이터를 정리 및 구성하여 스토리지, 데이터 분석, 기계 학습 등의 용도로 준비하는 일련의 과정들 ETL 작동 방식 source 데이터 베이스에서 관련 데이터 추출 분석에 더 적합한 형식으로 데이터 변환 데이터를 대상 데이터베이스에 로드 ETL의 장점 스토리지 비용 절감 보안 ETL의 단점 유연성이 낮음 대용량 데이터일수록 Transform이 시간이 걸려 실시간에 어려움 지속 가능성 낮음.. 유지보수 어려 초기 비용이 높음 ELT란? 추출(Extract), 로드(Load), 변환(Transform)으로 ETL과 순서가 다름 비구조화된 데.. 2023. 3. 14.
[PostgreSQL] psql 기본 명령어 postgresql 설치하면 기본적으로 postgres라는 사용자가 생성된다. postgresql 접속 root에서 postgres 사용자로 postgresql db 접속 root@ psql -U postgres postgres=# DB 접속 정보 확인 postgres=# \conninfo > You are connected to database "postgres" as user "postgres" via socket in "/var/run/postgresql" at port "5432". db,user, socket, port 정보 확인 postgresql 나가기 postgres=# \q User User 생성 postgres=# CREATE USER [USER_NAME] [OPTION]; [OPTIO.. 2023. 1. 24.
[ElasticSearch] Document API: GET, POST, DELETE GET GET /kafka-*/_search?pretty kafka-*로 인덱싱 되어있는 문서들을 예쁘게(?) 조회 DELETE DELETE /kafka-2023.01.03/_doc/WQHId4UBdwdTu7NNNmSO id가 WQHId4UBdwdTu7NNNmSO인 문서 지우기 DELETE /kafka-* kafka-*로 인덱싱 되어있는 모든 문서 제거 POST POST /kafka/_doc "_index" : kafka로 doc 하나 생성해보기 References https://esbook.kimjmin.net/04-data/4.4-_search https://esbook.kimjmin.net/04-data/4.2-crud 2023. 1. 11.
[Logstash] Forwarding messages from Kafka to Elasticsearch Logstash의 Pipeline Config를 Kafka input, ElasticSearch output으로 구성해 kafka메세지를 logstash를 통해 elasticsearch로 전달하고자 한다. logstash plugin install logstash-input-kafka kafka로부터 인풋을 받을거니까 input kafka 플러그인을 설치해준다. - $ ./bin/logstash-plugin install logstash-input-kafka 난 이미 플러그인이 있긴 했다 logstash-output-elasticsearch logstash output을 es에 넣을거니까 output elasticsearch 플러그인을 설치해준다. - $ ./bin/logstash-plugin insta.. 2022. 12. 18.
[Kafka] Consumer not receiving messages producer로 kafka server에 message를 publish했지만 consumer가 메세지를 받아오지 못하고 있다 해결 comsume해올 partition을 지정해주라고 한다 ~/kafka$ ./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --partition 0 --from-beginning 성공 consume 실행 전 publish된 메세지도 가져오기 위해서는 --from-beginning 옵션을 붙여줘야한다 ✅ 왜 partition을 지정해줘야할까? __consumer_offsets라는 topic이 kafka에서 생성되었는지 확인해야 하며, 이 항목이 없을 때 파티션을 수동으로 지정해야 합니다... 2022. 12. 2.
[Kafka] Executing consumer group command failed due to org.apache.kafka.common.KafkaException: Failed to find brokers to send ListGroups producer에서 kafka server로 메세지를 보냈을 때 consumer가 메세지를 받아오지 못하는 현상을 해결하는 과정에서 발생한 에러 ./bin/kafka-consumer-groups.sh 실행 시 에러 발생 - ~/kafka$ ./bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic test 카프카에서 토픽 생성하고 ~/kafka$ ./bin/kafka-topics.sh --list --bootstrap-server localhost:9092 >> test 토픽이 정상적으로 생성됨을 확인 # producer ~/kafka$ ./bin/kafka-cons.. 2022. 12. 2.
728x90