신조어·고유명사 등록
신조어·고유명사 잘 등록하는 법
신조어와 고유명사는 사용자 사전이 가장 빛을 발하는 영역입니다. 세상에 새로 생긴 상품명·인물·
밈은 어떤 형태소 분석기의 학습 데이터에도 들어 있지 않기 때문입니다.
바른의 고유명사 사전(np_set)을 미등록단어 모니터링과 함께 운영하면, 새 단어를 빠르고
정확하게 인식시킬 수 있습니다.
이 문서는 신조어·고유명사를 고유명사 사전에 잘 등록하는 법을 정리합니다.
무엇을 고유명사 사전에 넣나
고유명사 사전은 기존에 알려지지 않은 사람·지역·이벤트·상품 등 고유한 이름을 담습니다.
등록하면 형태소 분석에서 NNP로 인식됩니다.
| 종류 | 예시 |
|---|---|
| 인물·캐릭터 | 크리스토퍼놀란, 펭수 |
| 상품·브랜드 | 갤럭시Z플립, 네네치킨 |
| 콘텐츠·프로그램 | 걸어서세계속으로, 오징어게임 |
| 이벤트·캠페인 | 벚꽃엔딩, 무한도전특집 |
왜 고유명사(NP)인가요?
바른은 네네치킨을 별도 등록이 없으면 "네네/NNG + 치킨/NNG"처럼 일반명사 둘로 적당히
쪼개 인식합니다. 한 기업이 이를 하나의 상품명으로 보고 싶다면 고유명사 사전에 등록해
네네치킨/NNP 한 덩어리로 인식시키면 됩니다.
미등록단어 모니터링에서 시작하기
신조어는 "미리 다 알 수 없다"는 점이 핵심입니다. 그래서 좋은 출발점은 미등록단어 모니터링입니다.
graph LR
A[실제 문장 분석] --> B[out_of_vocab<br>OUT_OF_VOCAB 추출];
B --> C[신조어·고유명사 후보];
C --> D[np_set 등록];
D --> A;
- 운영 중 들어오는 실제 문장을 분석해, 형태소의
out_of_vocab이OUT_OF_VOCAB인 어절을 모읍니다. 이것이 바른이 아직 모르는 단어 후보입니다.바른은 워드 임베딩을 통해 미등록단어를 추출하고 저빈도 토큰은 UNKNOWN으로 처리하므로, 신조어가 등장하면 그 존재를 인지할 수 있습니다. 인지한 신조어를 고유명사 사전으로 인정시키는 것이 이 사이클입니다. - 후보 중 상품·인물·고유한 이름을 골라 고유명사 사전에 등록합니다.
- 등록 후 다시 분석해
IN_CUSTOM_DICT로 잡히는지 확인하고, 새 미등록단어를 계속 수집합니다.
등록 예시
이렇게 등록하면 좋아요
신조어·고유명사 등록 체크리스트
- 모니터링부터: 추측으로 채우지 말고 실제 미등록단어(
OUT_OF_VOCAB)에서 후보를 뽑으세요. - 이름은 NP, 활용어는 VV/VA: "카톡하다" 같은 신조어 동사는 고유명사가 아니라 동사 사전에 넣어야 활용형까지 인식됩니다.
- 표기를 통일:
갤럭시Z플립/갤럭시z플립처럼 표기가 흔들리면 자주 쓰는 한 가지로 통일하거나 변형도 함께 등록하세요. - 충돌 점검: 등록 전
CheckConflict로 다른 사전과 부딪히지 않는지 확인하세요.
공백·기호는 넣을 수 없습니다
고유명사 항목에는 공백과 일부 기호를 넣을 수 없습니다. 걸어서 세계 속으로처럼 띄어 쓴
이름은 걸어서세계속으로처럼 붙여서 등록하세요.
자주 묻는 질문
Q. 어떤 단어를 고유명사 사전에 등록해야 하나요?
상품·인물·콘텐츠·이벤트처럼 세상에 하나뿐인 이름을 등록합니다. 활용하는 신조어 동사·형용사는 고유명사가 아니라 동사·형용사 사전에 넣어야 활용형까지 인식됩니다.
Q. 새 신조어를 어떻게 찾아내나요?
운영 중인 실제 문장을 분석해 out_of_vocab이 OUT_OF_VOCAB인 어절을 모으면 됩니다.
이 미등록단어 목록이 곧 신조어·고유명사 등록 후보입니다.
Q. 등록했는데 여전히 일반명사로 쪼개집니다.
분석 호출에 해당 도메인이 지정됐는지(custom_dict_names/set_domain) 확인하세요.
또 표기가 등록한 형태와 정확히 같은지, 변경이 무중단 반영됐는지도 점검하세요.
도움이 되었나요?