Kaggle 데이터를 Elastic Stack으로 적재하기

시작하며

Kaggle에서 내려받은 CSV 데이터를 ElasticSearch에 적재하는 방법에는 두 가지 흐름이 있다. 소용량 파일이라면 Kibana의 Data Visualizer를 사용할 수 있고, 전처리가 필요하거나 100MB를 초과하는 경우에는 Logstash를 거쳐 적재해야 한다.

데이터 적재 흐름

Data Visualizer를 이용한 방법

Kibana Data Visualizer: CSV 파일을 ElasticSearch에 저장하는 GUI 도구로, 100MB 이하의 파일에 대해서만 사용 가능하다. CSV 파일을 Visualizer로 올리면 무난하게 적재되지만, JSON 중첩 구조와 같이 분석에 장애가 되는 데이터 형식이 포함된 경우에는 Logstash를 활용해 교정해야 한다.

Logstash를 이용한 방법

복잡한 전처리가 필요한 경우의 전체 데이터 흐름은 다음과 같다.

kaggle(csv) → logstash(ruby, csv filter) → elasticSearch(indexMapping, indexTemplate) → kibana

아래는 TMDB 5000 영화 데이터셋을 ElasticSearch에 적재하는 Logstash 파이프라인 예시이다.

input {
    file {
        path => "C:/Users/leeseungyeup/Desktop/archive/tmdb_5000_movies.csv"
        start_position => "beginning"
        sincedb_path => "nul"
    }
}

filter {
    csv {
        separator => ","
        columns => ["budget","genres","homepage","id","keywords","original_language","original_title","overview","popularity","production_companies","production_countries","_release_date","revenue",
        "runtime","spoken_languages","status","tagline","title","vote_average","vote_count"]
        remove_field => ["message","production_companies","production_countries","keywords","spoken_languages","@timestamp","path","@version","host"]
        skip_header => true
    }

    date {
        match => ["_release_date", "YYYY-MM-DD"]
        target => "release_date"
        timezone => "UTC"
        remove_field => "_release_date"
    }

    ruby {
        code => "
            genres = JSON.parse( event.get('genres')).map{ |genre| genre['name'] }
            event.set('genres', genres)
        "
    }
}

output {
    elasticsearch {
        index => "tmdb_5000_movie2"
    }
}

파이프라인 필터 설명

csv 필터: CSV 파일의 각 행을 파싱하고, 불필요한 필드를 remove_field로 제거한다. skip_header로 헤더 행을 건너뛴다.
date 필터: 문자열 형식의 날짜 필드를 ElasticSearch의 date 타입으로 변환한다. remove_field로 원본 필드를 제거한다.
ruby 필터: Logstash 내부에서 각 이벤트를 처리할 때 get/set 함수를 통해 필드 값을 읽고 변경할 수 있다. 위 예시에서는 genres 필드의 JSON 문자열을 파싱해 이름 목록 배열로 변환한다.

인덱스 템플릿 활용

index_template을 사용해 매핑하면 설정이 동일한 복수의 인덱스를 만들 때 유리하다. 예를 들어 날짜별로 인덱스를 파티셔닝하는 경우, 모든 인덱스에 동일한 매핑이 자동 적용된다.

정리하며

Kaggle 데이터를 Elastic Stack에 적재하는 핵심은 Logstash 파이프라인 설계에 있다. csv 필터로 구조를 잡고, date 필터로 시계열 데이터를 올바르게 변환하며, ruby 필터로 JSON 중첩 구조를 평탄화하는 조합이 효과적이다. 적재 전에 인덱스 템플릿으로 매핑을 미리 정의해두면 이후 Kibana 시각화도 더 원활하게 진행된다.

Daily Record

탐색기

Kaggle 데이터를 Elastic Stack으로 적재하기

시작하며

데이터 적재 흐름

Data Visualizer를 이용한 방법

Logstash를 이용한 방법

파이프라인 필터 설명

인덱스 템플릿 활용

정리하며

최근 게시글

토스증권으로 이직, 그리고 회고

Home K8S Cluster etcd Panic Error

JVM SnapShot Cache 구현하기

DB Max Connection Error

Strimzi 로 kubernetes 에 kafka 배포하기

GCP - Professional Cloud Architect 후기

Obsidian 으로 블로그 포스팅 파이프라인 만들기

Kafka, ZooKeeper에서 KRaft로

Spark on Kubernetes 사용해보기

Spark on Kubernetes 알아보기

Feature Selection 기법 알아보기

Apache Hive 성능 개선 톺아보기 2탄

조금 이른 회고, 그리고 방향성

Apache Hive 성능 개선 톺아보기 1탄

WireGuard로 간편하게 VPN 환경 구성하기

빅데이터분석기사 취득기

Flutter 모바일 청첩장 제작기

Flutter 수익형 앱 개발 기초 수강 후기

JVM GC 알고리즘 개선기 - Parallel GC vs G1GC

Java 멀티스레딩, 병행성, 성능 최적화 강의 후기

그래프 뷰

목차