콘텐츠로 이동

고유명사·복합명사 내장 사전

고유명사·복합명사 내장 사전 — 뉴스 기반 인명·지명·조직명 처리

바른은 사람 이름, 지명, 조직명 같은 고유명사를 잘 인식하기 위해 대규모 뉴스 말뭉치로 학습한 어휘와 위키백과 어휘를 함께 활용합니다. 사전에 통째로 올라 있지 않은 새 고유명사도 추측해 인식하도록 설계되어 있습니다.

고유명사 인식의 바탕이 되는 확장 어휘는 ext-dict.pb에 담겨 모든 빌드에 포함됩니다.

뉴스 말뭉치로 익힌 고유명사

바른은 빅카인즈 뉴스 말뭉치 약 1억 어절을 학습에 사용합니다. 뉴스는 인명·지명·조직명 같은 고유명사가 끊임없이 등장하는 글이라, 모델이 다양한 고유명사의 쓰임을 폭넓게 익히는 데 적합합니다.

학습 자료 규모 고유명사 측면의 강점
빅카인즈 뉴스 약 1억 어절 최신 인명·지명·조직명 풍부
한국어 위키백과(KoWiki) 확장 사전 수록 사전에 잘 없는 외부 고유명사 보강

왜 뉴스를 쓰나요

뉴스에는 인물·기관·지역 이름이 맥락과 함께 대량으로 나타납니다. 이런 글로 학습하면 모델이 "이런 자리에 오는 말은 고유명사다"라는 감각을 익혀, 처음 보는 이름도 고유명사로 잘 추측합니다.

처음 보는 고유명사도 추측한다 — OUT_OF_VOCAB

세상의 모든 이름을 사전에 담을 수는 없습니다. 바른은 사전에 없는 단어를 만나면 학습으로 익힌 감각으로 품사를 추측하고, 그 형태소에 out_of_vocabOUT_OF_VOCAB을 붙여 "미등록 추측"임을 알려줍니다.

graph TD
  W[입력 단어] --> D{사전·학습 어휘에 있나?};
  D -- 있음 --> KNOWN[해당 출처 표시];
  D -- 없음 --> GUESS[문맥으로 품사 추측];
  GUESS --> OOV[OUT_OF_VOCAB 표시];
OutOfVocab 고유명사 처리에서의 의미
IN_WIKI_DICT 위키 어휘로 인식한 고유명사
OUT_OF_VOCAB 사전에 없어 문맥으로 추측한 단어

사전 + 추측의 조합

바른은 사전에 있는 고유명사는 정확히 인식하고, 사전에 없는 새 이름은 문맥으로 추측합니다. 자주 쓰는 고유명사가 추측으로만 잡힌다면, 사용자 사전에 고유명사로 등록해 안정적으로 인식시키시면 됩니다.

자주 묻는 질문

Q. 고유명사 인식에는 어떤 데이터가 쓰이나요?

빅카인즈 뉴스 약 1억 어절로 학습한 모델과, 한국어 위키백과(KoWiki) 어휘를 담은 확장 사전(ext-dict.pb)이 함께 쓰입니다.

Q. 사전에 없는 새 이름은 어떻게 처리되나요?

학습으로 익힌 문맥 감각으로 품사를 추측하고, 그 형태소에 OUT_OF_VOCAB을 붙여 미등록 추측임을 표시합니다.

Q. 자주 쓰는 고유명사를 더 정확히 인식시키려면?

사용자 사전에 고유명사로 등록하시면 됩니다. 등록한 단어는 IN_CUSTOM_DICT로 인식되어 추측보다 안정적으로 처리됩니다. 사용자 사전은 CustomDictionaryService API로 관리합니다.

Q. 미등록단어와 사전에 등록된 고유명사는 어떻게 구별하나요?

사전이나 학습 어휘에서 인식한 고유명사는 해당 출처 값(IN_WIKI_DICT 등)으로 표시되고, 사전에 없어 문맥으로 추측한 단어에는 미등록단어를 뜻하는 OUT_OF_VOCAB이 붙습니다. 이 값으로 "확인된 어휘"인지 "추측한 미등록단어"인지를 결과에서 구별할 수 있습니다.

도움이 되었나요?