학술 논문 처리
학술 논문 한국어 처리 파이프라인
학술 논문은 전문용어 가 밀집한 텍스트입니다.
일반 형태소 분석기는 학습 데이터에 없던 전문용어를 미등록단어(OOV)로 처리하거나 잘못 쪼갭니다.
바른은 전문용어 사전(온용어)과 사용자 사전을 결합해, 논문의 전문용어를 정확한 한 단어로 인식합니다.
문제 상황
합성곱신경망,유전자발현같은 전문용어가 여러 명사로 쪼개져 검색·집계가 어긋납니다.- 분야 특유의 약어·신조어가 미등록단어로 빠집니다.
- 용어가 정확히 잡히지 않으면 논문 색인·유사 논문 추천 품질이 떨어집니다.
바른을 어떻게 적용하나
바른은 내부에 온용어 사전(onterm-dict.fb) 을 두어 우리말샘이 다루지 못한
전문용어를 보충합니다. 여기에 더해, 분야 전용 용어는 사용자 사전의 고유명사(np_set)·복합명사(cp_set)
사전에 등록해 한 단어로 유지합니다. 분야별 용어를 사전으로 굳히는 절차는
도메인 사전 구축 워크플로를 참고하세요.
graph TD
PAPER[논문 본문] --> TAG[바른 형태소 분석];
TAG --> ON[온용어 전문용어 사전];
TAG --> CUST[분야 사용자 사전];
ON --> TERM[전문용어 정확 인식];
CUST --> TERM;
TERM --> INDEX[색인·키워드·추천];
from bareunpy import Tagger
tagger = Tagger("koba-XXXX-...", "localhost")
# 분야 전문용어를 사용자 사전에 등록(복합명사로 유지)
cust = tagger.custom_dict("paper_terms")
cust.copy_cp_set({"합성곱신경망", "유전자발현", "강화학습"})
cust.update()
tagger.set_domain("paper_terms")
res = tagger.tags(["합성곱신경망으로 유전자발현을 예측한다."])
print(res.nouns())
전문용어가 쪼개지지 않고 한 단어로 유지됩니다.
결과와 이점
| 항목 | 사전 미적용 | 온용어 + 사용자 사전 |
|---|---|---|
| 전문용어 | 여러 명사로 분해 | 한 단어 유지 |
| 미등록 약어 | OOV 처리 | 사전 등록으로 인식 |
| 색인 정합성 | 흔들림 | 안정적 |
온용어 사전이란
온용어 사전은 우리말샘이 포괄하지 못한 전문용어를 보충하기 위해 바른이 내장한 용어 사전입니다.
형태소의 출처는 분석 결과의 out_of_vocab 값(IN_ON_DICT)으로 확인할 수 있습니다.
자주 묻는 질문
Q. 용어가 온용어 사전에 없으면 어떻게 하나요?
분야 전용 용어는 사용자 사전에 직접 등록하세요. 단일 명사로 다룰 용어는 고유명사 사전(np_set),
여러 명사가 결합된 용어는 복합명사 사전(cp_set)에 넣으면 됩니다.
미등록단어가 왜 생기고 어떻게 줄이는지는 미등록단어(OOV) 처리 원리에서 자세히 다룹니다.
Q. 용어를 의도적으로 분해하고 싶어요.
복합명사 분리 사전(cp_caret_set)에 ^로 분리 지점을 표시하면, 등록한 위치에서 나뉩니다.
색인은 분해형, 표시는 결합형으로 운영할 때 유용합니다. 자세한 방법은
복합명사 분리 등록을 참고하세요.
Q. 어떤 사전에서 인식됐는지 알 수 있나요?
분석 결과 형태소의 out_of_vocab 값으로 확인합니다. 사용자 사전이면 IN_CUSTOM_DICT,
온용어 사전이면 IN_ON_DICT, 우리말샘이면 IN_URIMALSAEM으로 표시됩니다.
(IN_URIMALSAEM·IN_ON_DICT 등 일부 출처는 맞춤법 검사 빌드에서만 표시됩니다.)
Q. 전문용어가 미등록단어로 빠지는 문제를 어떻게 해결하나요?
논문에는 학습 데이터에 없던 전문용어가 많아 일반 분석기는 이를 미등록단어로 처리합니다.
바른은 온용어 전문용어 사전을 내장해 우리말샘이 다루지 못한 용어를 보충하고, 분야 전용 용어는
사용자 사전에 등록해 한 단어로 유지합니다. 그래서 합성곱신경망 같은 용어가 토막 나지 않습니다.
관련 문서
- 도메인 사전 구축 워크플로 — 분야 용어를 모아 사전으로 굳히기
- 온용어 사전 — 내장 전문용어 사전의 원리
- 미등록단어(OOV) 처리 — 미등록 전문용어가 생기는 이유와 대응
도움이 되었나요?