콘텐츠로 이동

비표준어 교정

비표준어 교정 — 형태소 확률·조사 적응형 보정

바른은 방언·옛말·관용 오류처럼 표준어가 아닌 표현을 표준어로 바꿔줍니다. 바른의 비표준어 교정은 국립국어원 표준국어대사전과 우리말샘을 근거로 합니다. 단순히 단어를 치환하는 데 그치지 않고, 교정으로 바뀐 받침에 맞춰 뒤따르는 조사까지 자동으로 조정하는 것이 특징입니다.

비표준어란

표준어가 아닌 단어나 표현입니다. RevisionCategorySTANDARD(표준어) 범주로 분류되어 교정됩니다.

비표준어 표준어 근거
글장이 글쟁이 표준국어대사전
알타리무 총각무 표준어 사정 원칙 제22항
낌새 표준국어대사전

비표준어 사전은 표준국어대사전 규칙 체계로 구축합니다

바른의 비표준어 사전은 표준국어대사전의 비표준어 규칙 체계를 활용해 구축합니다. 표준국어대사전이 어떤 표기를 비표준어로 보고 어떤 표준어에 대응시키는지를 그대로 따르므로, 교정 결과가 국립국어원 규정과 일관됩니다.

어떻게 판별하나

비표준어 교정은 사전과 형태소 정보를 함께 봅니다.

  • 우리말샘·표준국어대사전 조회: urimal-dict.fb(우리말샘)와 비표준어→표준어 매핑(non-std-dict.pb)에서 표준어 여부와 대응 표준어를 찾습니다.
  • 고유명사(NNP) 필터: 사람·지명·상호 같은 고유명사는 사전에 없어도 정상입니다. 이를 비표준어로 잘못 고치지 않도록, 고유명사로 분석된 어절은 형태소 확률 임계를 적용해 교정 대상에서 걸러냅니다.

왜 고유명사를 걸러내나요?

머스크, 엔비디아 같은 고유명사는 표준 사전에 없을 수 있습니다. 필터가 없으면 비표준어로 오인해 엉뚱하게 바꿀 수 있습니다. 그래서 형태소 분석이 고유명사(NNP)로 본 어절은 확률이 충분히 높을 때 교정에서 제외해 과교정을 막습니다.

받침에 따른 후행 조사 자동 조정

비표준어를 표준어로 바꾸면 단어의 끝 음절, 특히 받침 유무가 달라지는 경우가 많습니다. 한국어 조사는 앞말의 받침에 따라 형태가 달라지므로(을/를, 이/가, 은/는, 과/와), 단어만 바꾸고 조사를 그대로 두면 어색한 문장이 됩니다.

바른은 이를 자동으로 맞춰줍니다.

graph LR
  A["낌을"] --> B[비표준어 탐지: 낌 → 낌새];
  B --> C{교정어 받침 변화?};
  C -- 받침 없어짐: 낌새 --> D[후행 조사 조정<br>을 → 를];
  D --> E["낌새를"];
  • 낌을낌새를 : (받침 ㅁ)에 붙던 이, 받침 없는 낌새 뒤에서는 로 바뀝니다.

이처럼 표제어 교정과 조사 조정을 함께 처리해, 교정 결과가 그대로 자연스러운 문장이 되도록 합니다.

근거와 함께 돌려준다

비표준어 교정에는 설명이 따라붙습니다. 응답의 helps에 담긴 ReviseHelp가 교정 이유(comment)와 규정 출처(rule_article)를 제공합니다. 예를 들어 알타리무총각무 교정에는 "표준어 사정 원칙 제22항"이 근거로 붙습니다.

비표준어 교정을 끄려면

비표준어 교정 자체를 직접 끄는 단일 옵션은 없지만, 표준어 대체가 불필요한 경우라면 RevisionConfig의 다른 교정 옵션을 조정해 파이프라인 동작을 제어할 수 있습니다. 교정 카테고리별 의미는 RevisionCategory 문서를 참고하세요.

자주 묻는 질문

Q. 비표준어를 고치면 조사도 같이 바뀌나요?

네. 교정으로 단어의 받침이 달라지면 뒤따르는 조사(을/를, 이/가 등)를 자동으로 맞춥니다. 예를 들어 낌을낌새를로, 단어와 조사가 함께 교정됩니다.

Q. 고유명사가 비표준어로 잘못 고쳐지지 않나요?

고유명사(NNP)로 분석된 어절은 형태소 확률 임계를 적용해 교정 대상에서 걸러냅니다. 사전에 없는 사람·지명·상호명을 비표준어로 오인해 바꾸지 않도록 막습니다.

Q. 교정 근거는 어디서 오나요?

국립국어원 표준국어대사전과 우리말샘(urimal-dict.fb)을 근거로 합니다. 교정 이유와 규정 출처는 응답의 helps에 담긴 ReviseHelp(comment, rule_article)로 제공됩니다.

Q. 비표준어 사전은 어떻게 만들어지나요?

표준국어대사전의 비표준어 규칙 체계를 활용해 구축합니다. 표준국어대사전이 어떤 표기를 비표준어로 보고 어떤 표준어에 대응시키는지를 그대로 따르므로, 바른의 교정 결과가 국립국어원 규정과 일관되게 유지됩니다.

도움이 되었나요?