9-검색 엔진으로 활용하기

inverted index란 문서에 포함된 문자열을 어떤 기준으로 단어로 나누는데 이렇게 나뉜 단어들을 토큰이라고 부른다. 이렇게 토큰을 만들어내는 과정을 토크나이징이라고 부른다. 토큰을 기준으로 저장된 문서를 아래와 같이 저장하는데 이것을 inverted index라고 부른다. analyzer 종류 마다 토크나이징 결과가 달라진다. analyzer 살펴보기 analyzer를 구성할 때는 tokenizer를 필수로 명시해야 하며 하나의 tokenizer만 설정할 수 있다. character filter와 token filter는 필요하지 않은 경우 기술하지 않거나 여러 개를 기술할 수 있다. character filter: analyzer로 들어온 문자열을 변형한다....

2025-08-24 · 4 min · 690 words

4-ElasticSearch 기본 개념

클러스터와 노드의 개념 클러스터: 여러 대의 컴퓨터 혹은 구성 요소들을 논리적으로 결합하여 전체를 하나의 컴퓨터, 혹은 하나의 구성 요소처럼 사용할 수 있게 해주는 기술 ElastSearch 클러스터 역시 여러 개의 ElasticSearch 프로세스들을 논리적으로 결합하여 하나의 ElasticSearch 프로세스철머 사용할 수 있게 해준다. 다수의 노드로 클러스터를 구성하면 하나의 노드에 장애가 발생해도 다른 노드에 요청할 수 있기 때문에 안정적으로 클러스터를 유지할 수 있고 이를 통해서 높은 수준의 안정성을 보장할 수 있다. 다수의 노드로 구성된 ElasticSearch 클러스터는 고유의 클러스터 이름과 UUID를 가진다....

2025-03-05 · 4 min · 728 words

3-ElasticSearch 모니터링

Head를 이용해서 모니터링하기 Head는 클러스터의 상태를 한눈에 살펴볼 수 있는 모니터링 도구 중 하나이다. Head는 클러스터의 여러 정보를 웹 UI를 통해 확인할 수 있도록 해준다. 특히 Head의 가장 큰 장점 중 하나는 샤드 배치 정보를 시각적으로 확인할 수 있다는 것이다. 프로메테우스를 활용한 클러스터 모니터링 프로메테우스는 데이터를 시간의 흐름대로 저장할 수 있는 시계열 데이터베이스의 일종이며, 수집된 데이터를 바탕으로 임게치를 설정하고 경고 메시지를 받을 수 있는 오픈소스 모니터링 시스템이다. 각종 메트릭을 저장하는 TSDB(Time Series Data Base)의 역할을 하는 Prometheus Server가 중앙에 있다....

2025-02-11 · 2 min · 277 words

2-ElasticSearch 기본 동작

문서 색인과 조회 색인 API 4가지 API PUT /<target>/_doc/<_id> POST /<target>/_doc/ PUT /<target>/_create/<_id> POST /<target>/_create/<_id> 문서 ID를 지정해서 새 문서를 추가하려면 PUT /<target>/_create/<_id> 형식을 사용해야 된다. <target>: 인덱스 이름 대상이 존재하지 않고 데이터 <_id>: 문서 식별자 예시 색인 API 호출시 flow 기존에 숫자 형태로 정의된 필드에 문자 형태의 값이 들어오면 스키마 충돌이라고 판단하고 에러를 출력한다. 에러가 출력되면 해당 문서는 기본적으로는 색인되지 않는다. 기존 문서를 업데이트하면 문서의 _version 값이 올라간다. 문서 색인 없이 인덱스만 색인할 수도 있다....

2025-02-10 · 2 min · 269 words