Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

코모란을 사용해 보고싶습니다. #6

Closed
mjxaone opened this issue Oct 27, 2016 · 2 comments
Closed

코모란을 사용해 보고싶습니다. #6

mjxaone opened this issue Oct 27, 2016 · 2 comments
Assignees

Comments

@mjxaone
Copy link

mjxaone commented Oct 27, 2016

웹 페이지내 한글 색인을 정리하기 위해 사용해 보려고 하는데요,
형태소 분석기에 대해 지식이 거의 없습니다.

혹시 코모란에서 트레이닝 샘플이 있던데,
트레이닝을 통해
코모란에 어떤 영향을 끼치는지,
문서나 참고할만한 자료 있을까요?

@shin285
Copy link
Member

shin285 commented Oct 28, 2016

트레이닝 데이터를 직접 수정하시면 수정된 데이터에 가장 적합한 형태소 분석기가 나오게 됩니다.
예를 들어 아재들이 많이 쓰는 단어들의 빈도수(가중치)를 높여주면 아재들의 단어들은 잘 분석하지만 어린 친구들의 단어는 잘 분석하지 못하게 됩니다.

죄송스럽게도 이와 관련된 문서는 따로 만들지 않았습니다만, 조만간 가이드를 만들도록 하겠습니다.

제가 제대로 이해를 했다면 웹 페이지에 있는 한글 색인어를 추출하시고 싶다는 말씀이신 것 같은데,

웹페이지가 특정한 도메인에 대한 컨텐츠로 구성되어 있지 않다면 (게임, 종교, 정치 등) 그대로 사용하셔도 크게 무리는 없을 것 같습니다~

다만, 새로 발생되는 단어(신조어)나 특정 인물, 집단, 용어 (미등록어) 들은 꾸준히 관리를 해주셔야 합니다~

답변이 되었는지 모르겠네요 :)

더 궁금한게 있으시면 코멘트 부탁드립니다~

@shin285 shin285 self-assigned this Oct 28, 2016
@mjxaone
Copy link
Author

mjxaone commented Oct 28, 2016

회신 감사드립니다. 코모란을 이용하여 한번 진행해 봐야겠습니다. :D
앞으로도 여러가지 부탁드릴께요. :ㅁ

@mjxaone mjxaone closed this as completed Oct 28, 2016
shin285 added a commit that referenced this issue Apr 6, 2020
* initial commit

* migrated from 9bow/DictAdmin

* GitHub 이슈 템플릿 추가

* README 개선

* URL 수정

* README 개선

* KOMORAN 버전 수정

* 누락된 css/js 파일 추가

* 에러 메시지 출력 방법 개선 및 입력값 검증 추가 related #5 & #4

* Exception 메시지 변경

* 파일 업로드 시 문제 해결 방법 변경 related #2

* 에러 메시지 노출

* 테이블 이름 대소문자 구분

* 사용자 사전 관리 기능 추가 closes #6

* 저장소 경로를 변경합니다.

* ID 생성 방법 통일

* 띄어쓰기 수정

* DicWord 테스트 정리

* DicUser 테스트 추가

* 예외 케이스 추가

* 오타 및 품사 표시 방법 수정

* .gitignore 업데이트

* grammar.in 관리기능 추가

* GrammarIn 테스트 코드 추가

* 메뉴 정리

* 메뉴 정리, favicon 변경

* 품사 빈도 관리(GrammarIn) 오류 수정

* 페이지 상단 사용법 설명 변경

* Analyze 기능 추가 closes #12

* KOMORAN 관리도구 설명 초안 추가 related #11

* 사용하지 않는 lib 정리

* 기분석 사전(fwd.user) 관리 기능 추가 related #7

* FULL 모델 제거 closes #16

* 보정 메뉴 내의 순서 변경 closes #17

* 모든 컬럼이 수정 가능하도록 변경 closes #20

* KOMORAN의 master 브랜치를 가져오도록 수정

* 사용자 모델 추가 related #14

* grammar.in 변경사항이 적용된 별도 KOMORAN.jar 관리 related #14 & #56

* 품사 빈도 파싱 규칙 수정 related #9

* 품사 변경 내용 적용 및 중복 품사 삭제한 기본 품사 빈도 파일 업데이트 related #9, #14

* 사용자 모델 생성 및 생성된 모델 목록 조회 기능 추가 related #14

* 사용자 모델 생성에 필요한 기본 사전 데이터 추가 로직 변경 related #14

* 형태소 분석 비교 메뉴 추가 closes #13

* 사용하지 않는 CSS 정리

* 오타 수정

* 사용하지 않는 코드 / 파일 제거

* 모델 관리 메뉴 추가 (모델 삭제 및 배포 기능) closes #15 #24

* 코드 정리 등

* 코드 정리 및 설명 수정 등

* 사용하지 않는 코드 정리

* 좌측 메뉴 숨김 시 테이블 다시 그리기 closes #23

* 오타 수정

* README 갱신 relate #27

* Apache 2.0 라이선스 적용 related #29

* 사용자 모델 목록 제공 시 유효성 검사 추가 related #28

* Log Level 변경

* Log Level 변경

* 사용자 모델 관련 테스트 추가 related #14 #15 #24

* FAQ 및 라이선스 추가 related #31

* 로그 레벨 변경 및 로컬 환경에서만 접근 가능하도록 수정 related #32

* 접근 포트를 8888에서 3579로 변경 related #33

* 명시적으로 인코딩 지정 related #18 #35

* FAQ 내용 추가 및 별도 문서로 분리 related #31

* Log Level 조정 related #37
(TODO: Profile 분리)

* KOMORAN 실행 완료 안내 문구 추가 related #36

* 1.0 릴리즈를 위한 버전 변경

* 최신 버전의 KOMORAN을 사용하도록 변경 related #38 #18 #14

* 페이지 로딩 시 동작 일부 변경

* FAQ 내용 일부 수정 related #31 #34

* 분석 메뉴에 모델을 선택하여 분석할 수 있도록 기능 추가 related #42

* 사용자 모델에 대한 유효성 검사를 담당하는 컴포넌트를 새로 만들고, 해당 컴포넌트를 사용하여 유효성을 검사 related #39

* 잘못 삭제한 parseModelName() 함수 복원

* 오타 수정 및 모델 생성 시 기본 디렉토리 생성 코드 복구

* 사용자 모델의 유효성 검사시 corpus_build/ 디렉토리 및 하위 파일들에 대한 유효성 검사 추가 #39
- corpus_build/ 디렉토리 유효성 검사 추가
- corpus_build/ 디렉토리 하위의 dic.word, dic.irregular, grammar.in 파일 유효성 검사 추가

* 아래 메뉴들에 Enter 키를 이용한 Form Submit 기능 적용 #41
- 기본 형태소 분석 메뉴 (analyze.html)
- 형태소 분석 비교 메뉴 (compare.html)

* 띄어쓰기, 공백 정리 등

* 보정 메뉴들에 Enter 키를 이용한 Form Submit 기능 추가 related #41

* 사용자 모델 선택 변경 시에도 형태소 분석 진행 related #41

* KOMORAN 버전을 3.3.5로 지정

* 분석 메뉴를 문장 단위와 파일 단위로 분리 related #44, #45

* KOMORAN 3.3.5 이상 지원을 명시

* 여러 문장의 형태소 분석 지원 related #45

* init commit

* implementation compare file page based on form

* 파일 비교 페이지 개발

* Komoran project를 module로 변경

Co-authored-by: Junghwan Park <[email protected]>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants