띄어쓰기·붙여쓰기 판별
띄어쓰기·붙여쓰기 판별의 작동 원리
한국어 띄어쓰기는 규칙이 분명한 경우와, 같은 문자열인데 맥락에 따라 띄울 수도 붙일 수도 있는 모호한 경우가 섞여 있습니다. 바른은 이를 두 단계로 나눠 처리합니다. 규칙으로 확실한 것을 먼저 고치고, 모호한 것만 LLM으로 판별 합니다.
1단계 — 규칙 기반 띄어쓰기 교정
확실하게 붙이거나 띄어야 하는 경우는 규칙으로 처리합니다.
아름다운강산→아름다운 강산: 관형어 뒤 명사는 띄어 씁니다.떨여졌는데→떨어졌는데: 분절·형태 복원으로 어절 경계를 바로잡습니다.
이 단계는 RevisionCategory의 SPACING(띄어쓰기) 범주로 교정되며,
"한글맞춤법 제2항 — 문장의 각 단어는 띄어 씀을 원칙으로 한다" 같은 규정 근거를 붙일 수 있습니다.
2단계 — 모호성 LLM 판별
문제는 같은 글자가 맥락에 따라 띄어쓰기가 달라지는 경우입니다.
| 입력 | 가능한 해석 | 판별 기준 |
|---|---|---|
그다음 / 그 다음 |
한 단어(부사) vs 그(관형사) + 다음(명사) |
문맥상 어느 쪽이 자연스러운가 |
이런 모호성은 규칙만으로 정답을 정하기 어렵습니다. 바른은 1단계에서 이런 어절을 모호하다고 표시해 두고, 파이프라인 끝의 띄어쓰기 모호성을 LLM으로 판별하는 단계에서 LLM에게 문맥을 주고 띄울지 붙일지를 판별합니다.
graph TD
A[어절 경계 검토] --> B{규칙으로<br>확정 가능?};
B -- 예 --> C[규칙 교정<br>예: 아름다운강산 → 아름다운 강산];
B -- 아니오: 모호 --> D[모호 표시];
D --> E[띄어쓰기 모호성<br>LLM 문맥 판별];
E --> F{복합명사<br>붙임 여부?};
F --> G[복합명사 붙임 판단];
G --> H[최종 띄어쓰기 결정];
복합명사를 붙일까 띄울까
복합명사는 붙여 쓸 수도, 띄어 쓸 수도 있어 한국어에서 늘 논쟁거리입니다. 바른은 복합명사를 하나로 붙일지 판단합니다. 규칙으로 확신하기 어려운 경계는 LLM 판별로 넘겨 문맥에 맞는 쪽을 고릅니다.
LLM 판별 결과는 띄어쓰기 판별 캐시(키 = MD5(띄어쓴 형태 | 붙인 형태 | 문맥))에 저장되어, 같은 입력을 다시 LLM에 보내지 않습니다.
띄어쓰기 관련 옵션
RevisionConfig로 띄어쓰기 동작을 조절할 수 있습니다(모두 기본값 false).
| 옵션 | 의미 |
|---|---|
disable_caret_spacing |
복합명사 분리 사전 적용 비활성화 |
disable_vx_spacing |
보조용언 띄어쓰기 비활성화 |
enable_cleanup_whitespace |
불필요한 공백 제거 활성화 |
treat_as_title |
문장을 제목으로 취급(제목식 띄어쓰기) |
형태소 분석 API의 자동 띄어쓰기와의 관계
형태소 분석(AnalyzeSyntax)에는 auto_spacing(띄어쓰기 보정)·auto_jointing(붙여쓰기 보정) 옵션이 있습니다.
맞춤법 검사의 띄어쓰기 판별은 이 후처리 결과 위에서 동작하며, 모호한 경계를 LLM으로 한 번 더 다듬는다는 점이 다릅니다.
자주 묻는 질문
Q. 그다음과 그 다음은 어떻게 구별하나요?
규칙만으로는 정하기 어려운 모호한 띄어쓰기입니다. 바른은 이런 어절을 모호하다고 표시한 뒤, 파이프라인 끝의 띄어쓰기 모호성을 LLM으로 판별하는 단계에서 LLM에게 문맥을 주고 어느 쪽이 자연스러운지 판별합니다.
Q. 복합명사는 붙여 쓰나요, 띄어 쓰나요?
복합명사는 붙임 여부를 판단하는 처리로 결정합니다. 규칙으로 확신하기 어려운 경계는 LLM 판별로 넘겨 문맥에 맞는 쪽을 선택합니다.
Q. 띄어쓰기 교정을 끄거나 조절할 수 있나요?
네. RevisionConfig의 disable_caret_spacing, disable_vx_spacing, enable_cleanup_whitespace,
treat_as_title로 동작을 조절할 수 있습니다.
Q. 어절 경계가 잘못된 표기도 띄어쓰기 단계에서 고쳐지나요?
네. 떨여졌는데 → 떨어졌는데처럼 분절·형태 복원으로 어절 경계를 바로잡는 교정이 1단계 규칙 띄어쓰기에서
함께 처리됩니다. 형태적으로 잘못 붙거나 끊긴 어절을 올바른 형태로 복원합니다.
도움이 되었나요?