콘텐츠로 이동

확장 사전(ext-dict)

ext-dict(확장 사전) — 사람 이름·수량 표현·외부 어휘 보강

ext-dict.pb바른이 학습된 모델만으로는 다루기 어려운 어휘를 보강하는 확장 사전입니다. 성씨, 열거형 표현, 단위성 의존명사, 행위성 명사, 한국어 위키백과 어휘를 담아, 사람 이름과 수량 표현을 더 정확히 인식하고 복합명사를 알맞게 분리합니다.

dict.res와 함께 모든 빌드에 포함됩니다.

확장 사전이 담는 어휘

구성 담는 내용 도움 받는 분석
성씨 목록 성씨 사람 이름 인식
열거 표현 목록 열거형 표현 나열 구조 인식
수량 표현 목록 단위성 의존명사 수량 표현 인식
동작(활동) 표현 목록 행위성 명사 동작 명사 인식
위키 기반 어휘 한국어 위키백과 어휘 외부 고유명사 보강
위키 기반 복합명사 분리 정보 복합명사 분리 정보 복합명사 분해

사람 이름과 수량 표현

성씨 목록은 사람 이름을 잡아내는 데 쓰입니다. 성씨 정보가 있으면 김영희, 이순신 같은 인명을 더 안정적으로 인식합니다.

단위성 의존명사 목록은 수량 표현을 자연스럽게 분석하게 합니다.

입력 인식
세 명 수사 + 단위성 의존명사
다섯 권 수사 + 단위성 의존명사
두 마리 수사 + 단위성 의존명사

위키 어휘와 복합명사 분리

위키 기반 어휘는 일반 사전에 없는 외부 고유명사를 보강합니다. 이 사전에서 인식한 형태소에는 out_of_vocab 값으로 IN_WIKI_DICT가 붙습니다.

위키 기반 복합명사 분리 정보는 길게 붙은 복합명사를 의미 단위로 나눌 때 쓰입니다.

graph LR
  CN["인공지능연구소"] --> MAP[위키 기반 분리 정보];
  MAP --> R["인공지능 + 연구소"];

왜 외부 어휘를 끌어오나요

세상의 고유명사와 합성어는 끝없이 늘어나서, 학습 말뭉치만으로는 다 담을 수 없습니다. 바른은 위키백과 같은 폭넓은 외부 어휘를 확장 사전으로 끌어와, 새롭게 등장하는 이름과 복합어까지 인식 범위를 넓힙니다.

자주 묻는 질문

Q. 확장 사전은 어떤 어휘를 보강하나요?

성씨, 열거형 표현, 단위성 의존명사, 행위성 명사, 한국어 위키백과 어휘를 담아 사람 이름·수량 표현·외부 고유명사를 보강하고, 복합명사 분리를 돕습니다.

Q. 확장 사전은 어떤 빌드에 포함되나요?

ext-dict.pbdict.res와 함께 기본 빌드와 맞춤법 검사 기능이 포함된 빌드 모두에 포함됩니다.

Q. 위키 어휘에서 인식된 단어는 어떻게 표시되나요?

한국어 위키백과 어휘에서 인식한 형태소에는 out_of_vocabIN_WIKI_DICT가 붙어 출처를 구별할 수 있습니다. 단, 이 출처 값은 맞춤법 검사기를 포함하는 빌드에서만 표시되며, 형태소 분석만 사용할 때는 나타나지 않습니다.

Q. 복합명사는 어떻게 분리되나요?

길게 붙은 복합명사는 위키 기반 복합명사 분리 정보를 이용해 의미 단위로 나눕니다. 예를 들어 인공지능연구소인공지능 + 연구소로 분리됩니다. 이렇게 분리하면 복합명사 안의 구성 어휘까지 정확히 인식할 수 있습니다.

도움이 되었나요?