콘텐츠로 이동

신조어·고유명사 등록

신조어·고유명사 잘 등록하는 법

신조어와 고유명사는 사용자 사전이 가장 빛을 발하는 영역입니다. 세상에 새로 생긴 상품명·인물· 밈은 어떤 형태소 분석기의 학습 데이터에도 들어 있지 않기 때문입니다. 바른고유명사 사전(np_set)을 미등록단어 모니터링과 함께 운영하면, 새 단어를 빠르고 정확하게 인식시킬 수 있습니다.

이 문서는 신조어·고유명사를 고유명사 사전에 잘 등록하는 법을 정리합니다.

무엇을 고유명사 사전에 넣나

고유명사 사전은 기존에 알려지지 않은 사람·지역·이벤트·상품 등 고유한 이름을 담습니다. 등록하면 형태소 분석에서 NNP로 인식됩니다.

종류 예시
인물·캐릭터 크리스토퍼놀란, 펭수
상품·브랜드 갤럭시Z플립, 네네치킨
콘텐츠·프로그램 걸어서세계속으로, 오징어게임
이벤트·캠페인 벚꽃엔딩, 무한도전특집

왜 고유명사(NP)인가요?

바른네네치킨을 별도 등록이 없으면 "네네/NNG + 치킨/NNG"처럼 일반명사 둘로 적당히 쪼개 인식합니다. 한 기업이 이를 하나의 상품명으로 보고 싶다면 고유명사 사전에 등록해 네네치킨/NNP 한 덩어리로 인식시키면 됩니다.

미등록단어 모니터링에서 시작하기

신조어는 "미리 다 알 수 없다"는 점이 핵심입니다. 그래서 좋은 출발점은 미등록단어 모니터링입니다.

graph LR
  A[실제 문장 분석] --> B[out_of_vocab<br>OUT_OF_VOCAB 추출];
  B --> C[신조어·고유명사 후보];
  C --> D[np_set 등록];
  D --> A;
  • 운영 중 들어오는 실제 문장을 분석해, 형태소의 out_of_vocabOUT_OF_VOCAB인 어절을 모읍니다. 이것이 바른이 아직 모르는 단어 후보입니다. 바른은 워드 임베딩을 통해 미등록단어를 추출하고 저빈도 토큰은 UNKNOWN으로 처리하므로, 신조어가 등장하면 그 존재를 인지할 수 있습니다. 인지한 신조어를 고유명사 사전으로 인정시키는 것이 이 사이클입니다.
  • 후보 중 상품·인물·고유한 이름을 골라 고유명사 사전에 등록합니다.
  • 등록 후 다시 분석해 IN_CUSTOM_DICT로 잡히는지 확인하고, 새 미등록단어를 계속 수집합니다.

등록 예시

from bareunpy import Tagger

my_tagger = Tagger('YOUR-API-KEY', 'localhost', port=5656)

cust_dic = my_tagger.custom_dict("brand")
cust_dic.copy_np_set({'네네치킨', '갤럭시Z플립', '걸어서세계속으로'})
cust_dic.update()

my_tagger.set_domain('brand')
res = my_tagger.pos('네네치킨을 시켜 먹으며 갤럭시Z플립으로 찍었다.')
print(res)
[('네네치킨', 'NNP'), ('을', 'JKO'), ('시키', 'VV'), ('어', 'EC'),
 ('먹', 'VV'), ('으며', 'EC'), ('갤럭시Z플립', 'NNP'), ('으로', 'JKB'),
 ('찍', 'VV'), ('었', 'EP'), ('다', 'EF'), ('.', 'SF')]

이렇게 등록하면 좋아요

신조어·고유명사 등록 체크리스트

  • 모니터링부터: 추측으로 채우지 말고 실제 미등록단어(OUT_OF_VOCAB)에서 후보를 뽑으세요.
  • 이름은 NP, 활용어는 VV/VA: "카톡하다" 같은 신조어 동사는 고유명사가 아니라 동사 사전에 넣어야 활용형까지 인식됩니다.
  • 표기를 통일: 갤럭시Z플립/갤럭시z플립처럼 표기가 흔들리면 자주 쓰는 한 가지로 통일하거나 변형도 함께 등록하세요.
  • 충돌 점검: 등록 전 CheckConflict로 다른 사전과 부딪히지 않는지 확인하세요.

공백·기호는 넣을 수 없습니다

고유명사 항목에는 공백과 일부 기호를 넣을 수 없습니다. 걸어서 세계 속으로처럼 띄어 쓴 이름은 걸어서세계속으로처럼 붙여서 등록하세요.

자주 묻는 질문

Q. 어떤 단어를 고유명사 사전에 등록해야 하나요?

상품·인물·콘텐츠·이벤트처럼 세상에 하나뿐인 이름을 등록합니다. 활용하는 신조어 동사·형용사는 고유명사가 아니라 동사·형용사 사전에 넣어야 활용형까지 인식됩니다.

Q. 새 신조어를 어떻게 찾아내나요?

운영 중인 실제 문장을 분석해 out_of_vocabOUT_OF_VOCAB인 어절을 모으면 됩니다. 이 미등록단어 목록이 곧 신조어·고유명사 등록 후보입니다.

Q. 등록했는데 여전히 일반명사로 쪼개집니다.

분석 호출에 해당 도메인이 지정됐는지(custom_dict_names/set_domain) 확인하세요. 또 표기가 등록한 형태와 정확히 같은지, 변경이 무중단 반영됐는지도 점검하세요.

도움이 되었나요?