우리말샘 사전
우리말샘 사전 — 국립국어원 어휘를 바른이 어떻게 활용하나
바른은 국립국어원이 운영하는 개방형 국어사전 우리말샘의 어휘를
urimal-dict.fb 사전으로 내장합니다. 이 사전은 어떤 말이 표준어인지 비표준어인지를
판별하고, 접두사·접미사가 붙은 파생어를 인식하며, 맞춤법 검사의 근거가 되는
한국어 어휘의 든든한 토대입니다.
이 사전은 맞춤법 검사 기능이 포함된 빌드에 함께 담깁니다.
FlatBuffer + mmap — 큰 사전을 빠르게 읽기
우리말샘은 표제어가 매우 많아서, 통째로 메모리에 올리면 시작이 느려지고 메모리도 많이 듭니다.
바른은 이 사전을 FlatBuffer 형식(.fb)으로 저장하고 mmap으로 매핑해서 읽습니다.
- FlatBuffer는 역직렬화 없이 파일 구조를 그대로 읽을 수 있어, 큰 사전도 즉시 조회할 수 있습니다.
- mmap으로 매핑하면 운영체제가 필요한 부분만 메모리로 가져오므로, 메모리 사용이 효율적입니다.
- 조회는 표제어를 키로 하는 사전 조회 구조를 통해 이루어집니다.
- 재시작을 빠르게 하기 위해 보조 색인은 gob 캐싱을 사용합니다.
왜 FlatBuffer를 쓰나요
사전은 한 번 빌드하면 내용이 바뀌지 않는 읽기 전용 자료입니다. 이런 자료에는 매번 객체로 풀어내는 직렬화 방식보다, 파일을 그대로 메모리에 비추어 바로 읽는 FlatBuffer + mmap 조합이 시작 속도와 메모리 양쪽에서 유리합니다.
표준어·비표준어 판별
우리말샘은 표준어뿐 아니라 방언·옛말·비표준 표기까지 폭넓게 수록합니다. 바른은 이 정보를 이용해 입력된 단어가 표준어인지 아닌지를 가려냅니다.
- 표준어로 등재된 말은 그대로 인정합니다.
- 비표준어로 분류된 말은 교정 후보로 넘겨, 표준어로 바로잡을 근거를 마련합니다.
이렇게 인식된 형태소에는 out_of_vocab 값으로 IN_URIMALSAEM이 붙어,
"이 단어는 우리말샘에서 확인했다"는 사실을 결과에 남깁니다.
접두사·접미사 검사
한국어는 접사가 붙어 끝없이 새 단어를 만들어내는 언어입니다. 사전에 모든 파생어를 다 넣을 수는 없으므로, 바른은 우리말샘을 바탕으로 접두사·접미사 검사를 수행해 파생어를 인식합니다.
| 구분 | 예시 | 인식 방식 |
|---|---|---|
| 접두사 | 풋사과, 맨손, 한겨울 |
접두사 + 등재 어휘 |
| 접미사 | 사람들, 선생님, 행복하다 |
등재 어휘 + 접미사 |
이 검사 덕분에 사전에 통째로 올라 있지 않은 단어도 구성 요소로 나누어 인식할 수 있습니다.
자주 묻는 질문
Q. 우리말샘 사전은 어떤 빌드에 들어 있나요?
urimal-dict.fb는 맞춤법 검사 기능이 포함된 빌드에 포함됩니다.
형태소 분석만 사용하는 기본 빌드에는 들어가지 않습니다.
Q. 우리말샘에 없는 전문용어나 신조어는 어떻게 처리되나요?
우리말샘이 다루지 못하는 전문용어·신조어는 온용어 사전(onterm-dict.fb)이 보충합니다.
그래도 없는 단어는 미등록단어(OUT_OF_VOCAB)로 추측 분석됩니다.
Q. 표준어 판별 결과는 교정에 어떻게 쓰이나요?
비표준어로 판별된 말은 교정 후보로 넘겨져, 비표준어 사전 등과 함께
표준어로 바로잡는 근거가 됩니다. 교정 결과의 범주는 STANDARD(표준어)로 표시됩니다.
Q. 우리말샘 사전에서 인식한 단어는 결과에서 어떻게 확인하나요?
우리말샘 사전에서 확인한 형태소에는 out_of_vocab 값으로 IN_URIMALSAEM이 붙습니다.
다만 이 출처 값은 맞춤법 검사기를 포함하는 빌드에서만 표시되며,
형태소 분석만 사용할 때는 나타나지 않습니다.
Q. 접두사·접미사가 붙은 단어는 사전에 없어도 인식되나요?
네. 사전에 모든 파생어를 다 넣을 수는 없으므로, 바른은 우리말샘 사전을 바탕으로
접두사·접미사 검사를 수행합니다. 풋사과·사람들처럼 접사가 붙은 단어도
구성 요소로 나누어 인식하므로, 사전에 통째로 없는 단어까지 다룰 수 있습니다.
도움이 되었나요?