Releases: twosom/logstash-filter-korean-jamo
Releases · twosom/logstash-filter-korean-jamo
0.0.2
Logstash Korean Jamo Filter
이 플러그인은 Logstash 를 위한 필터 플러그인입니다.
Documentation
이 플러그인은 한국어 인덱싱을 위한 Java기반의 logstash 의 한글 자모분리 필터입니다.
정호욱 님의 elasticsearch-analysis-jamo 프로젝트의 자모분리 토크나이저를 기반으로
제작되어
자모분리 및 초성추출, 한영전환을 위한 구성을 손쉽게 할 수 있습니다.
�1.설치방법
하단의 gem 파일을 다운로드 한 후 Logstash가 설치 된 폴더로 이동합니다.
./bin/logstash-plugin install <첨부파일의 FullPath>
2. 필터 설정
Add the following inside the filter section of your logstash configuration:
filter {
korean_jamo {
chosung => { # 초성 추출 설정입니다.
field => [ # field 안에 초성 추출 하고자 하는 필드들을 "배열"로 작성합니다.
"field1", # [field1][chosung] 안에 추출 된 초성이 저장됩니다.
"field2" # [field2][chosung] 안에 추출 된 초성이 저장됩니다.
]
}
jamo => { # 자모 분리 설정입니다.
field => [ # field 안에 자모 분리 하고자 하는 필드들을 "배열"로 작성합니다.
"field3", # [field3][jamo] 안에 분리 된 자모가 저장됩니다.
"field4" # [field4][jamo] 안에 분리 된 자모가 저장됩니다.
]
}
kortoeng => { # 한영 전환 설정입니다. 예를 들어 "깃허브"라는 단어가 있으면 rltgjqm로 전환해줍니다.
field => [ # field 안에 한영 전환 하고자 하는 필드들을 "배열"로 작성합니다.
"field5", # [field5][kortoeng] 안에 한영 전환 된 값이 저장됩니다.
"field6" # [field6][kortoeng] 안에 한영 전환 된 값이 저장됩니다.
]
}
# 모든 설정들은 [필드명][original] 원본 값을 저장합니다.
}
}
3. 예제
input
bin/logstash -e "input { generator {'message' => '안녕하세요.'} } filter { korean_jamo { jamo => { field => [ 'message' ] } } } output { stdout{} }"
output
{
"@timestamp" => 2022-03-27T02:21:13.845163Z,
"@version" => "1",
"event" => {
"sequence" => 37000,
"original" => "안녕하세요."
},
"host" => {
"name" => "hopeui-MacBookPro.local"
},
"message" => {
"jamo" => "ㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛ",
"original" => "안녕하세요."
}
}