ElasticSearch 집계(Aggregations) 정리

시작하며

ElasticSearch는 검색뿐 아니라 강력한 집계(Aggregations) 기능을 제공한다. 집계는 크게 메트릭 집계, 버킷 집계, 파이프라인 집계로 나뉜다. 각 집계 유형의 개념과 대표적인 사용 예시를 Q&A 형식으로 정리한다.

집계 유형별 개념과 예시

메트릭 집계 (Metric Aggregation)

메트릭 집계는 도큐먼트에 대해 산술적인 연산을 수행한다.

Q. SQL의 DISTINCT와 비슷한 효과를 내려면 어떤 집계를 사용해야 하는가? 해당 집계에서 precision_threshold 값은 무엇을 의미하는가?

A. 카디널리티 집계(Cardinality Aggregation)를 사용한다. precision_threshold는 정확도 수치를 의미하며 기본값은 3000이다. 높을수록 정확하지만 리소스도 많이 소모한다.

평균값 집계 예시

GET kibana_sample_data_ecommerce/_search
{
  "size":0,
  "aggs":{
    "stats_aggs":{
      "avg":{
        "field" : "products.base_price"
      }
    }
  }
}

카디널리티 집계 예시 (유니크한 값의 개수)

GET kibana_sample_data_ecommerce/_search
{
  "size":0,
  "aggs":{
    "cardi_aggs":{
      "cardinality":{
        "field" : "day_of_week",
        "precision_threshold": 100
      }
    }
  }
}

버킷 집계 (Bucket Aggregation)

버킷 집계는 특정 기준에 맞춰 도큐먼트를 그룹화하는 집계이다. SQL의 GROUP BY와 유사하다.

Q. 금요일에 판매된 제품들의 아이디(키워드)를 중복 제거하여 구하라 (데이터: kibana_sample_data_ecommerce, 필드: products._id.keyword)

A. 검색 쿼리로 금요일 데이터를 필터링한 뒤 버킷 집계를 사용한다.

GET kibana_sample_data_ecommerce/_search
{
  "size":0,
  "query": {
    "term": {
      "day_of_week": {
        "value": "Friday"
      }
    }
  },
  "aggs": {
    "cardi_aggs":{
      "terms":{
        "field" : "products._id.keyword"
      }
    }
  }
}

파이프라인 집계 (Pipeline Aggregation)

파이프라인 집계는 이전 집계 결과를 입력으로 사용하는 집계이다.

Q. 부모 집계와 형제 집계란 무엇인가?

A. 파이프라인 집계의 두 가지 유형이다.

부모 집계(parent aggregation): 단독으로 사용할 수 없으며 기존 집계 내부에서 작성된다.
형제 집계(sibling aggregation): 기존 집계 내부가 아니라 외부에서 수행되는 집계이다.

정리하며

ElasticSearch의 집계는 검색과 결합하여 강력한 데이터 분석 기능을 제공한다. 메트릭 집계로 수치를 계산하고, 버킷 집계로 데이터를 그룹화하며, 파이프라인 집계로 집계 결과를 다시 집계하는 구조를 이해하면 복잡한 분석 쿼리도 체계적으로 작성할 수 있다. 실제 운영에서는 집계 시 size: 0을 설정해 불필요한 도큐먼트 반환을 막아 성능을 최적화하는 것이 중요하다.

Daily Record

탐색기

ElasticSearch 집계(Aggregations) 정리

시작하며

집계 유형별 개념과 예시

메트릭 집계 (Metric Aggregation)

버킷 집계 (Bucket Aggregation)

파이프라인 집계 (Pipeline Aggregation)

정리하며

최근 게시글

토스증권으로 이직, 그리고 회고

Home K8S Cluster etcd Panic Error

JVM SnapShot Cache 구현하기

DB Max Connection Error

Strimzi 로 kubernetes 에 kafka 배포하기

GCP - Professional Cloud Architect 후기

Obsidian 으로 블로그 포스팅 파이프라인 만들기

Kafka, ZooKeeper에서 KRaft로

Spark on Kubernetes 사용해보기

Spark on Kubernetes 알아보기

Feature Selection 기법 알아보기

Apache Hive 성능 개선 톺아보기 2탄

조금 이른 회고, 그리고 방향성

Apache Hive 성능 개선 톺아보기 1탄

WireGuard로 간편하게 VPN 환경 구성하기

빅데이터분석기사 취득기

Flutter 모바일 청첩장 제작기

Flutter 수익형 앱 개발 기초 수강 후기

JVM GC 알고리즘 개선기 - Parallel GC vs G1GC

Java 멀티스레딩, 병행성, 성능 최적화 강의 후기

그래프 뷰

목차