dict.res 어휘 색인

Q: 바른의 dict.res는 무엇인가요?

dict.res는 바른이 학습 과정에서 만드는 기본 빌트인 사전으로, 모델이 글자나 형태소를 숫자 인덱스로 다룰 때 쓰는 토큰 색인(token_index)을 담습니다. 분절·품사 태깅 모델의 입력과 출력을 어휘로 잇는 형태소 분석의 밑바탕이라, 형태소 분석만 쓰는 기본 빌드와 맞춤법 검사기를 포함하는 빌드 모두에 항상 포함됩니다.

Q: dict.res는 왜 모델과 함께 배포되나요?

토큰 색인은 모델 학습 때 정해진 어휘-인덱스 대응이라, 모델과 색인이 어긋나면 같은 인덱스가 다른 어휘를 가리켜 형태소 분석이 망가집니다. 그래서 dict.res는 따로 떼어 갱신하는 사전이 아니라 학습된 모델과 짝을 이루는 자원으로, seg-model.onnx·tag-model.onnx와 한 묶음으로 함께 학습·배포됩니다.

Q: dict.res는 어떤 빌드에 포함되나요?

dict.res는 형태소 분석의 밑바탕이 되는 토큰 색인이라, 형태소 분석만 쓰는 기본 빌드와 맞춤법 검사기를 포함하는 빌드 모두에 항상 포함됩니다. 확장 사전 ext-dict.pb도 함께 모든 빌드에 들어가며, 우리말샘 사전·비표준어·외래어 같은 교정용 사전들만 맞춤법 검사 기능이 포함된 빌드에 추가로 담깁니다.

Q: dict.res와 사용자 사전은 무엇이 다른가요?

dict.res는 학습 과정에서 모델과 함께 만들어지는 기본 빌트인 어휘 색인으로 모델과 한 묶음으로 배포됩니다. 반면 사용자 사전은 도메인·조직 고유 어휘를 담는 별도 자원으로, CustomDictionaryService API로 관리하며 형태소 분석 결과에는 IN_CUSTOM_DICT로 표시됩니다.

dict.res — 학습된 어휘집/색인 자원

dict.res는 바른이 학습 과정에서 만들어내는 기본 빌트인 사전입니다. 모델이 어휘를 가리키는 데 쓰는 토큰 색인을 담고 있어, 형태소 분석의 가장 밑바탕이 되는 자원입니다. 교정 기능 없이 형태소 분석만 쓰는 기본 빌드에도 항상 포함됩니다.

토큰 색인 — token_index

dict.res의 핵심은 토큰 색인(token_index)입니다. 모델은 글자나 형태소를 숫자 인덱스로 다루는데, 이 인덱스와 실제 어휘를 잇는 표가 바로 토큰 색인입니다.

graph LR
  T["토큰(형태소)"] --> IDX[token_index];
  IDX --> NUM[정수 인덱스];
  NUM --> MODEL[모델 입력 텐서];

분절·품사 태깅 모델은 입력을 정수 인덱스 배열로 받습니다.
토큰 색인은 어휘를 그 정수로 옮기고, 모델이 내놓은 인덱스를 다시 어휘로 되돌립니다.
이 색인이 있어야 학습된 어휘를 모델과 일관되게 주고받을 수 있습니다.

왜 학습 자원과 함께 배포하나요

토큰 색인은 모델을 학습할 때 정해진 어휘-인덱스 대응입니다. 모델과 색인이 어긋나면 같은 인덱스가 다른 어휘를 가리켜 분석이 망가집니다. 그래서 dict.res는 모델(seg-model.onnx·tag-model.onnx)과 한 묶음으로 배포됩니다.

모든 빌드에 포함되는 기본 자원

사전	기본 빌드	검사 빌드
`dict.res`	포함	포함
`ext-dict.pb`	포함	포함
교정용 사전(우리말샘·비표준어 등)	미포함	포함

dict.res는 교정 사전들과 달리 모든 빌드에 들어가는 기본 자원입니다. 형태소 분석 자체가 이 색인 없이는 동작할 수 없기 때문입니다.

모델과 한 몸인 사전

dict.res는 따로 떼어 갱신하는 사전이라기보다, 학습된 모델과 짝을 이루는 어휘 색인입니다. 새 모델을 학습하면 그에 맞는 dict.res가 함께 만들어져 배포됩니다.

자주 묻는 질문

Q. dict.res에는 무엇이 들어 있나요?

학습된 토큰 색인(token_index)이 들어 있습니다. 모델이 다루는 정수 인덱스와 실제 어휘를 잇는 표로, 형태소 분석의 기본 어휘집 역할을 합니다.

Q. dict.res는 어떤 빌드에 포함되나요?

dict.res는 기본 빌드와 맞춤법 검사 기능이 포함된 빌드 모두에 항상 포함됩니다. 형태소 분석이 이 색인 없이는 동작하지 않기 때문입니다.

Q. dict.res는 따로 갱신할 수 있나요?

dict.res는 학습된 모델과 짝을 이루는 자원이라, 모델과 함께 학습·배포됩니다. 모델과 색인이 어긋나면 분석이 망가지므로 한 묶음으로 관리합니다.

Q. dict.res와 사용자 사전은 무엇이 다른가요?

dict.res는 학습 과정에서 모델과 함께 만들어지는 기본 빌트인 어휘 색인이고, 사용자 사전은 도메인·조직 고유 어휘를 담는 별도 자원입니다. 사용자 사전은 CustomDictionaryService API로 관리하며, dict.res는 모델과 한 묶음으로 배포됩니다.

Q. 토큰 색인은 형태소 분석에서 어떤 역할을 하나요?

분절·품사 태깅 모델은 입력을 정수 인덱스 배열로 받습니다. 토큰 색인은 어휘를 그 정수로 옮기고, 모델이 내놓은 인덱스를 다시 어휘로 되돌립니다. 이 색인이 있어야 학습된 어휘를 모델과 일관되게 주고받아 형태소 분석을 할 수 있습니다.

도움이 되었나요?