본문 바로가기

분류 전체보기14

MapReduce: Simplified Data Processing on Large Clusters by Jeffrey Dean, Sanjay Ghemawat; 들어가기에 앞서개인적인 공부 용도로 기록한 것입니다. 상업적인 용도가 아닙니다.오역이 있을 수 있습니다.모호하거나 이해가 되지 않는 부분은 초록색으로 표시하였습니다.chat-GPT4o을 사용한 부분이 있으며 사용처에 보라색으로 표시하였습니다.상세한 예시를 chat-GPT4o를 통해 생성한 뒤, 이를 기반으로 작성했습니다.기초 지식이 없어 해석이 어려운 부분은 chat-GPT4o를 참고하여 작성했습니다.Abstract (요약)MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a .. 2024. 5. 30.
Kafka: a Distributed Messaging System for Log Processing by Jay Kreps, Neha Narkhede, Jun Rao; NetDB workshop '11, 2011 들어가기에 앞서개인적인 공부 용도로 기록한 것입니다. 상업적인 용도가 아닙니다.오역이 있을 수 있습니다.모호하거나 이해가 되지 않는 부분은 초록색으로 표시하였습니다.Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. To copy otherwise, or rep.. 2024. 5. 14.
20240419 교토 여행 무계획계획여행 계획을 짜지 않는 편이다. 낯선 곳에서 길을 잃지는 않을지, 명소를 놓치지 않을지, 꼭 가야 하는 맛집을 못 가지는 않을지에 대해 처음부터 걱정하지 않았던 것은 아니었다. 나름 이동 동선이나 시간도 짜보고 예상 경비도 계산하고 했었다.일정을 꼼꼼히 세우고 반드시 지켜야 한다는 피로감이 나를 무의식적으로 사로잡았다. 가보지도 않은 곳의 일을 생각한다는 건 쉬운 일이 아니었다. 개발자로서 앞을 내다보는 일은 이미 하고 있다. 진이 빠졌다. 즐거워야 하는 여행이 시작부터 꼬여버린 느낌이었다. 보이지 않는 무거움이 나의 몇 안 되는 취미 중 하나인 여행을 멈추게 했다. 계획 짜는 것을 그만하기로 계획했다. 일단 가보기로 했다.여행 준비보통 당일 아침에 짐을 싸는 편인데 여행 기간이 N박 M일 인 .. 2024. 5. 2.
Ingest Data from Databases into Kafka with Change Data Capture (CDC); Confluent 개요Change Data Capture (CDC) 는 데이터베이스에 이미 존재하는 것과 더불어 일어난 모든 변경점에 대해서 지속적으로 포착할 수 있게 해준다. CDC 에는 query-based , log-based 두 가지 방식이 존재한다. 각각의 장/단점, 한계, 차이에 대해 인지하고 선택해야 한다.query-basedquery-based 는 쿼리를 데이터베이스에 날려서 증분을 추출하는 방식을 의미한다. 일반적인 쿼리를 기반으로 하기 때문에 데이터베이스 내부에 접근하지 않아도 사용할 수 있는 방법이다. 당연하지만 데이터 증분을 위해 쿼리에 타임스탬프, 증가하는 아이디 값과 같은 증분을 정의해주는 필드를 포함해야 한다. 실제 증분이 이루어지는 과정은 아래와 같다. query-based CDC 동작 과정1.. 2024. 4. 29.