고유명사·복합명사 내장 사전
고유명사·복합명사 내장 사전 — 뉴스 기반 인명·지명·조직명 처리
바른은 사람 이름, 지명, 조직명 같은 고유명사를 잘 인식하기 위해
대규모 뉴스 말뭉치로 학습한 어휘와 위키백과 어휘를 함께 활용합니다.
사전에 통째로 올라 있지 않은 새 고유명사도 추측해 인식하도록 설계되어 있습니다.
고유명사 인식의 바탕이 되는 확장 어휘는 ext-dict.pb에 담겨 모든 빌드에 포함됩니다.
뉴스 말뭉치로 익힌 고유명사
바른은 빅카인즈 뉴스 말뭉치 약 1억 어절을 학습에 사용합니다. 뉴스는 인명·지명·조직명 같은 고유명사가 끊임없이 등장하는 글이라, 모델이 다양한 고유명사의 쓰임을 폭넓게 익히는 데 적합합니다.
| 학습 자료 | 규모 | 고유명사 측면의 강점 |
|---|---|---|
| 빅카인즈 뉴스 | 약 1억 어절 | 최신 인명·지명·조직명 풍부 |
| 한국어 위키백과(KoWiki) | 확장 사전 수록 | 사전에 잘 없는 외부 고유명사 보강 |
왜 뉴스를 쓰나요
뉴스에는 인물·기관·지역 이름이 맥락과 함께 대량으로 나타납니다. 이런 글로 학습하면 모델이 "이런 자리에 오는 말은 고유명사다"라는 감각을 익혀, 처음 보는 이름도 고유명사로 잘 추측합니다.
처음 보는 고유명사도 추측한다 — OUT_OF_VOCAB
세상의 모든 이름을 사전에 담을 수는 없습니다.
바른은 사전에 없는 단어를 만나면 학습으로 익힌 감각으로 품사를 추측하고,
그 형태소에 out_of_vocab 값 OUT_OF_VOCAB을 붙여 "미등록 추측"임을 알려줍니다.
graph TD
W[입력 단어] --> D{사전·학습 어휘에 있나?};
D -- 있음 --> KNOWN[해당 출처 표시];
D -- 없음 --> GUESS[문맥으로 품사 추측];
GUESS --> OOV[OUT_OF_VOCAB 표시];
| OutOfVocab | 고유명사 처리에서의 의미 |
|---|---|
IN_WIKI_DICT |
위키 어휘로 인식한 고유명사 |
OUT_OF_VOCAB |
사전에 없어 문맥으로 추측한 단어 |
사전 + 추측의 조합
바른은 사전에 있는 고유명사는 정확히 인식하고, 사전에 없는 새 이름은 문맥으로 추측합니다. 자주 쓰는 고유명사가 추측으로만 잡힌다면, 사용자 사전에 고유명사로 등록해 안정적으로 인식시키시면 됩니다.
자주 묻는 질문
Q. 고유명사 인식에는 어떤 데이터가 쓰이나요?
빅카인즈 뉴스 약 1억 어절로 학습한 모델과, 한국어 위키백과(KoWiki) 어휘를 담은
확장 사전(ext-dict.pb)이 함께 쓰입니다.
Q. 사전에 없는 새 이름은 어떻게 처리되나요?
학습으로 익힌 문맥 감각으로 품사를 추측하고, 그 형태소에 OUT_OF_VOCAB을 붙여
미등록 추측임을 표시합니다.
Q. 자주 쓰는 고유명사를 더 정확히 인식시키려면?
사용자 사전에 고유명사로 등록하시면 됩니다. 등록한 단어는 IN_CUSTOM_DICT로 인식되어
추측보다 안정적으로 처리됩니다. 사용자 사전은 CustomDictionaryService API로 관리합니다.
Q. 미등록단어와 사전에 등록된 고유명사는 어떻게 구별하나요?
사전이나 학습 어휘에서 인식한 고유명사는 해당 출처 값(IN_WIKI_DICT 등)으로 표시되고,
사전에 없어 문맥으로 추측한 단어에는 미등록단어를 뜻하는 OUT_OF_VOCAB이 붙습니다.
이 값으로 "확인된 어휘"인지 "추측한 미등록단어"인지를 결과에서 구별할 수 있습니다.
도움이 되었나요?