콘텐츠로 이동

어법·구두점 교정 규칙

두음법칙·자모 오류·구두점 교정 규칙

바른은 한국어 어법 규칙에 따라 활용 오류, 단어 표기 오류, 구두점 오류를 바로잡습니다. 이 교정들은 RevisionCategoryGRAMMER(맞춤법 어법)와 WORD(단어 규칙)로 분류되며, 각 교정에는 규정 출처(rule_article) 가 함께 붙어 "어떤 규정에 따라 고쳤는지"를 보여줍니다.

GRAMMER — 활용·조사 결합·구두점

GRAMMER는 단어가 문장 안에서 변형·결합할 때 생기는 어법 오류를 다룹니다.

유형 예시 설명
용언 활용 벼르고 벼러벼르고 별러 로 끝나는 어간 뒤 -아/-어 결합 시 탈락· 덧붙음
조사 결합 받침에 따른 을/를, 이/가 조정 앞말 받침에 맞춰 조사 형태 정정
구두점 마침표·쉼표·따옴표 정리 문장부호 오류 교정

활용 오류 교정 예시 — 르 불규칙

벼르고 벼러벼르고 별러
"'르'로 끝나는 어간 뒤에 어미 '-아/-어'가 결합하여 'ㅡ'가 탈락하고 'ㄹ'이 덧붙는 경우, 바뀐 대로 적는다."

WORD — 사이시옷·두음법칙·한자 결합

WORD는 단어 자체의 표기 규칙을 다룹니다. 대표적으로 두음법칙이 있습니다.

유형 예시 설명
두음법칙 로인노인 한자어 첫머리의 ·이 단어 첫소리에서 바뀌는 규칙
사이시옷 합성어 사이시옷 표기 정정 두 말이 어울릴 때 받침 표기
한자 결합 한자어 표기 정정 한자어 구성 규칙에 따른 표기

두음법칙이란

두음법칙은 한자어가 단어 첫머리에 올 때 · 소리가 ·으로 바뀌어 적히는 규칙입니다. 예를 들어 한자 '老'는 단어 가운데서는 (경로)지만 첫머리에서는 (노인)로 적습니다. 바른은 로인 같은 표기를 노인으로 바로잡습니다.

NFD 사전 구축 — 음소 단위로 규정을 검색한다

바른은 한글 맞춤법·표준어 규정을 사람의 직관이 아니라 실제 사전 데이터를 기준으로 검색해 교정 대상을 찾습니다. 이를 위해 사전을 NFD(초성·중성·종성으로 분해한) 음소 단위로 구축합니다.

한글은 화면에 보이는 음절(NFC)과 그것을 푼 음소(NFD)의 길이가 다릅니다.

표기 NFC(음절) 길이 NFD(음소) 길이
아름다운 4글자 10글자(ㅇㅏㄹㅡㅁㄷㅏㅇㅜㄴ)

음소 단위로 풀어두면 "중성이 ㅗ/ㅜ인 어간"처럼 자모 패턴으로 규정 대상 단어를 검색할 수 있습니다. 바른은 NFD로 분해한 사전 컬럼에 패턴 검색(regexp_like(nfd, ...))을 걸어, 특정 맞춤법 규정에 해당하는 단어 집합을 추출합니다.

맞춤법 규정 추출 대상 예
모음 ㅗ/ㅜ 어간 + -아/-어 → ㅘ/ㅝ 해당 어간 단어들
[붙임2] ㅚ 뒤 -어/-었-은 준 대로 적음 괴다·꾀다·되다·뵈다·쇠다·외다·죄다·쬐다 …

이렇게 추출한 단어 집합을 기준으로 오류 데이터를 생성하고, 그 오류 규칙으로 교정 모델을 학습시킵니다. 규정을 머릿속 예시가 아니라 사전 전수(全數)에 적용하므로, 같은 규정이 적용되는 단어를 빠짐없이 다룰 수 있습니다.

한글 맞춤법·표준어 규정의 면밀한 분석

바른의 교정 규칙은 국어 전문 지식과 문화체육관광부 표준 규정(한글 맞춤법·표준어 규정)을 면밀히 분석해 만든 것입니다. 위 NFD 검색은 그 규정을 사전 데이터 위에서 기계적으로 적용하기 위한 장치입니다.

분절 단계에서 잡는 14개 형태적 오류 유형

활용·축약 같은 형태적 오류는 교정 파이프라인에 들어가기 전, 형태소 분석의 분절 단계에서 미리 식별됩니다. 바른의 116개 분절 레이블 중 14개가 오류 탐지(맞춤법 검사)용 레이블이며, 분절 오류가 있는 어절은 올바른 형태로 복원 처리됩니다.

식별자 오류 유형
021 활용 ㅂ불규칙 특수 ㄴㄹ 우탈락 오류
022 활용 ㅂ불규칙 특수 아어 축약 오류
023 활용 ㅂ불규칙 특수 고은/고아라
026 활용 ㅅ불규칙 어간 ㅅ첨가 오류
031 활용 ㄹ불규칙 으첨가 오류
034 활용 러불규칙 어미 어 오류
038 활용 르불규칙 어미 아어았었 오류
039 활용 르불규칙 어간 오류
040 활용 르불규칙 어간 오류
041 활용 르불규칙 어간 ㄹ첨가 오류
074 축약 외 어었 왜왰 오류
109 활용 지정사 어미 었 오류
111 활용 어미 분절 아어 오류
113 활용 이 모음순행동화 요여 오류

분절 오류는 분절 단계에서 잡힙니다

위 14개 유형은 별도의 교정 단계가 아니라 형태소 분석의 분절 단계에서 식별됩니다. 분절 모델이 어절을 분절하면서 형태적 오류를 함께 탐지하고, 오류가 있는 어절은 올바른 형태로 복원해 줍니다.

자모 오류 교정

타이핑 중 초성·중성·종성이 잘못 입력되거나 빠지는 자모 단위 오류도 교정 대상입니다. 바른은 자모 단위 편집거리를 활용해 원문과 가까운 올바른 표기를 찾고, 원문에서 너무 멀어지는 변경은 거부해 과교정을 막습니다.

graph TD
  A[교정 대상 어절] --> B{어떤 규칙 위반?};
  B -- 활용·조사·구두점 --> C[GRAMMER];
  B -- 사이시옷·두음법칙·한자 --> D[WORD];
  C --> E[ReviseHelp 부착<br>comment + rule_article];
  D --> E;
  E --> F[교정 결과 + 규정 출처];

규정 출처는 ReviseHelp로 제공된다

어법·단어 규칙 교정의 핵심은 근거입니다. 응답의 helps에 담긴 ReviseHelp가 다음을 제공합니다.

필드 내용
category 교정 카테고리(GRAMMER / WORD 등)
comment 교정 이유 설명
examples 같은 규칙의 다른 예시
rule_article 규정 출처(예: 한글맞춤법 조항)

예를 들어 띄어쓰기 교정에는 "한글맞춤법 제2항 — 문장의 각 단어는 띄어 씀을 원칙으로 한다"가, 표준어 교정에는 "표준어 사정 원칙 제22항"이 rule_article로 붙습니다.

근거가 있는 교정

바른은 단순히 고치는 데 그치지 않고, 한글맞춤법·표준어 사정 원칙 등 공식 어문 규정의 출처를 함께 제시합니다. 덕분에 사용자는 교정이 자의적이지 않음을 확인하고 학습에도 활용할 수 있습니다.

자주 묻는 질문

Q. 두음법칙 오류도 고쳐주나요?

네. 두음법칙은 WORD(단어 규칙) 카테고리로 교정됩니다. 예를 들어 로인노인으로 바로잡으며, 규정 출처를 rule_article로 함께 제공합니다.

Q. 활용 오류와 단어 표기 오류는 어떻게 구분되나요?

활용·조사 결합·구두점 같은 어법 오류는 GRAMMER로, 사이시옷·두음법칙·한자 결합 같은 단어 표기 규칙은 WORD로 분류됩니다.

Q. 교정의 규정 근거는 어디서 확인하나요?

응답의 helps에 담긴 ReviseHelprule_article에서 규정 출처를 확인할 수 있습니다. 교정 이유(comment)와 추가 예시(examples)도 함께 제공됩니다.

Q. NFD 사전은 무엇이고 왜 음소 단위로 검색하나요?

NFD 사전은 한글을 초성·중성·종성으로 분해해 음소 단위로 색인한 사전입니다. 예를 들어 아름다운은 음절(NFC)로는 4글자지만 음소(NFD)로는 10글자입니다. 이렇게 풀어두면 "중성이 ㅗ/ㅜ인 어간" 같은 자모 패턴으로 맞춤법 규정에 해당하는 단어를 사전에서 직접 검색해 교정·학습 대상으로 추출할 수 있습니다.

Q. 분절 단계에서 잡는 오류 유형은 몇 가지인가요?

바른의 116개 분절 레이블 중 14개가 오류 탐지용 레이블입니다. ㅂ·ㅅ·ㄹ·러·르 불규칙 활용 오류, 외 축약 오류, 지정사 어미 오류, 모음순행동화 오류 등 형태적 오류를 분절 단계에서 식별하고, 오류가 있는 어절은 올바른 형태로 복원합니다.

도움이 되었나요?