띄어쓰기 보정 원리
띄어쓰기 보정이 바른에서 작동하는 방식
한국어 띄어쓰기는 규범이 복잡하고 예외가 많아, 사람도 자주 틀립니다.
바른은 형태소 분석 단계에서 어절 경계를 다시 살펴 띄어쓰기와 붙여쓰기를 보정합니다.
아름다운강산을 아름다운 강산으로, 떨여 졌는데를 떨어졌는데로 바로잡는 식입니다.
두 방향의 보정 — auto_spacing과 auto_jointing
형태소 분석 요청에는 띄어쓰기 보정과 관련한 두 옵션이 있습니다.
| 옵션 | 방향 | 예시 |
|---|---|---|
auto_spacing |
붙은 것을 띄움 | 아름다운강산 → 아름다운 강산 |
auto_jointing |
띄운 것을 붙임 | 떨여 졌는데 → 떨어졌는데 |
두 옵션은 모두 어절 경계 조정에 관여하며, 형태소 분석 결과의 정확도를 높이기 위한 보정입니다.
graph TD
IN[입력 어절] --> ANA[형태소 분석];
ANA --> SP{auto_spacing?};
SP -->|붙은 것 띄움| OUT1[아름다운 강산];
ANA --> JO{auto_jointing?};
JO -->|띄운 것 붙임| OUT2[떨어졌는데];
보정이 따르는 규칙들
띄어쓰기 보정은 한국어 띄어쓰기 규범 가운데 자주 문제가 되는 다음 영역을 다룹니다.
주요 보정 대상
- 보조용언: 본용언과 보조용언 사이의 띄어쓰기를 판단합니다.
- 의존명사: 앞말과 띄어 써야 하는 의존명사를 인식해 경계를 잡습니다.
- 복합명사: 붙여 써야 자연스러운 복합명사 구성을 인식합니다.
이 규칙들은 형태소 분석 결과(어떤 형태소가 보조용언인지, 의존명사인지 등)를 근거로 동작하므로, 단순한 사전 매칭보다 문맥에 맞는 보정을 합니다.
결과에 표시되는 refined와 modified
보정이 일어나면 분석 결과의 어디가 어떻게 바뀌었는지 두 필드로 알려줍니다.
| 필드 | 위치 | 의미 |
|---|---|---|
refined |
문장(Sentence) | 띄어쓰기 등 오류를 수정한 결과 문장 |
modified |
어절(Token) | 붙여쓰기로 원문 일부를 고쳐 인식했음을 표기 |
원문은 보존하고, 보정은 따로 표시
바른은 원문을 임의로 덮어쓰지 않습니다. 보정 결과는 refined에 담고,
어떤 어절이 수정되었는지는 modified로 표시합니다. 덕분에 원문과 보정 결과를
나란히 비교하며 어떤 처리가 일어났는지 추적할 수 있습니다.
자주 묻는 질문
Q. auto_spacing과 auto_jointing은 어떻게 다른가요?
auto_spacing은 붙어 있는 것을 띄우는 방향(아름다운강산 → 아름다운 강산),
auto_jointing은 띄어진 것을 붙이는 방향(떨여 졌는데 → 떨어졌는데)의 보정입니다.
Q. 보정 결과는 어디서 확인하나요?
문장 단위 보정 결과는 refined 필드에 담깁니다. 붙여쓰기로 원문 일부를 고쳐 인식한
어절에는 modified 표시가 붙습니다.
Q. 띄어쓰기 보정은 어떤 규칙을 따르나요?
보조용언, 의존명사, 복합명사 등 한국어 띄어쓰기 규범에서 자주 문제가 되는 영역을 형태소 분석 결과를 근거로 보정합니다.
도움이 되었나요?