한자·한자음 사전
한자·한자음 사전 — 한자어 검색·한자/한글 변환
바른은 한자와 한자어를 다루기 위해 한자 음독 사전 hanja-dict.pb를 내장합니다.
한자 한 글자의 독음과 두 글자 이상 한자어의 한글 표기를 담아,
한자가 섞인 문장을 분석하고 한자어를 한글로 옮기는 근거로 씁니다.
이 사전은 맞춤법 검사 기능이 포함된 빌드에 함께 담깁니다.
두 가지 단위 — Char와 Word
한자 사전은 조회 단위가 둘로 나뉩니다. 한 글자 단위의 독음과, 단어 단위의 한글 표기입니다.
| 조회 단위 | 입력 | 출력 | 예시 |
|---|---|---|---|
Char |
한자 1글자 | 그 글자의 독음 | 韓 → 한 |
Word |
2글자 이상 한자어 | 한자어의 한글 표기 | 韓國 → 한국 |
왜 글자와 단어를 나누나요
같은 한자도 단어에 따라 읽는 소리가 달라질 수 있습니다.
한 글자 단위의 독음만으로는 한자어 전체의 표기를 정확히 맞추기 어렵습니다.
그래서 바른은 글자 단위(Char)와 단어 단위(Word)를 함께 두어,
한자어는 단어 단위로 더 정확하게 한글 표기를 찾습니다.
한자/한글 변환의 흐름
문장에 한자가 섞여 있을 때, 바른은 먼저 한자어 단위로 한글 표기를 찾고, 단어 단위로 찾지 못하면 글자 단위 독음으로 보완합니다.
graph TD
IN[한자 포함 어절] --> W{Word에 한자어 있나?};
W -- 있음 --> WR[단어 단위 한글 표기];
W -- 없음 --> C[Char로 글자별 독음];
C --> CR[글자 독음 조합];
한자 형태소는 품사 태깅에서 한자(SH)로 분류되며, 이 사전은 그 한자를 한글로
옮기거나 한자어를 검색할 때 근거가 됩니다.
어디에 쓰이나
- 한자어 검색: 한자로 적힌 단어를 한글 표기와 연결해 인식합니다.
- 한자/한글 변환: 한자가 섞인 표기를 한글 표기로 옮길 때 독음 정보를 제공합니다.
자주 묻는 질문
Q. 한자 사전은 한 글자와 단어를 어떻게 구분하나요?
Char는 한자 한 글자의 독음을, Word는 두 글자 이상 한자어의 한글 표기를 담습니다.
한자어는 단어 단위로 찾는 것이 더 정확하므로 둘을 함께 둡니다.
Q. 한자가 섞인 문장도 분석되나요?
네. 한자는 품사 태깅에서 한자(SH)로 분류되고, 한자 사전이 독음·표기 정보를 보충합니다.
Q. 한자 사전은 어떤 빌드에 포함되나요?
한자 사전은 맞춤법 검사 기능이 포함된 빌드에 포함됩니다. 형태소 분석만 쓰는 기본 빌드에는 들어가지 않습니다.
Q. 한자어를 한글로 옮길 때 단어와 글자 중 무엇을 먼저 찾나요?
먼저 한자어를 단어 단위(Word)로 찾아 한글 표기를 얻고, 단어 단위로 찾지 못하면
글자 단위(Char) 독음으로 보완합니다. 같은 한자도 단어에 따라 소리가 달라지므로,
단어 단위를 우선해야 한자어 전체의 표기가 더 정확해집니다.
도움이 되었나요?