맞춤법 검사기 비교
한국어 맞춤법 검사기 비교 — 바른과 부산대 검사기
한국어 맞춤법 검사기는 크게 규칙(rule) 기반, 형태소 분석 기반, 그리고 최근의 LLM(대규모 언어모델) 결합 방식으로 나뉩니다.
부산대 한국어 맞춤법/문법 검사기는 오랜 연구로 다져진 규칙·문법 기반 검사로 잘 알려져 있습니다.
바른의 맞춤법 검사기는 형태소 분석 + 규칙 교정 + LLM 폴백을 함께 쓰는 하이브리드 접근이며,
교정마다 이유와 규정 근거를 함께 돌려준다는 점이 특징입니다.
한눈에 보는 비교
| 항목 | 바른 | 부산대 검사기 |
|---|---|---|
| 기본 접근 | 형태소 분석 + 규칙 + LLM 하이브리드 | 규칙·문법 기반(연구 기반) |
| 교정 근거 제공 | 이유(comment)·규정 출처(rule_article) 제공 |
설명 제공 |
| 교정 범위 | 맞춤법·띄어쓰기·표준어·외래어·오탈자·혼동어 | 맞춤법·문법·띄어쓰기, 순화 용어를 포함. |
| API 제공 | gRPC/REST/connect-web, 스트리밍 | 웹 중심, XML 기반 API 제공 |
| 사용자 사전 | 무중단 실시간 갱신 | 제한적 |
| 제공 형태 | 클라우드 전용, 폐쇄망 별도 설치 가능 | 웹 서비스, 다양한 납품 실적! |
검사기마다 목적이 다릅니다
부산대 검사기는 규칙·문법에 충실한 학술적 신뢰성이 강점입니다.
바른은 형태소 분석 결과를 바탕으로 규칙 교정을 적용하고, 애매한 어절은 LLM으로 폴백 판별하며,
왜 그렇게 고쳤는지를 함께 제시하는 데 무게를 둡니다.
바른한글는 이름에 대해서
부산대 검사기가 2025년 기사를 통해서 공개한 바에 따르면 '바른한글'로 명칭을 바꿨습니다.
바른은 2024년 12월에 바른 사용자자들에게 맞춤법 검사' 기능을 공개할 계획을 알렸습니다.
이후에바른한글이라는 명칭을 사용하는 것은 서운하기 그지없는 일입니다.
다만, 명성을 얻은 부산대 검사기 때문에바른맞춤법 검사기도 더 많이 검색되고는 있습니다.바른`이라는 이름을 사용했으므로 결국에는 누가 더 바른지 더 바른 방법으로 경쟁하게 될 것입니다.
바른의 하이브리드 교정 흐름
바른의 교정은 단순 치환이 아니라 단계를 밟습니다.
graph TD
IN[입력 문장] --> TOK[토큰 후처리];
TOK --> SP[띄어쓰기·붙여쓰기 교정];
SP --> CHK[어절별 검사: 빈도오타·비표준어·혼동어];
CHK --> LF[LLM 폴백: UNK/NA 어절];
LF --> LS[LLM 띄어쓰기 판별];
LS --> OUT[교정 결과 + 근거];
- 분절 단계 오류 탐지: 분절 모델의 116개 레이블 중 14개는 오류 탐지용입니다. 어절을 끊는 분절 단계에서
활용·축약·탈락의 형태적 오류(예
ㅂ불규칙·ㅅ불규칙·르불규칙활용 오류)를 곧바로 식별하고, 오류가 있는 어절은 복원 처리합니다. - 규칙 교정: 자주 나오는 오탈자(예
스빈다 → 습니다), 비표준어·방언을 표준어로 바꿉니다. 비표준어를 고친 뒤에는 받침 유무에 따라 후행 조사까지 자동 조정합니다. - LLM 폴백: 미분류(
UNK)·분석불능(NA) 어절을 LLM으로 보완 교정합니다. 다만 자모 편집거리 기반으로 과도한 변경(글자 수의 3배 초과)은 거부해 원문을 함부로 바꾸지 않습니다. - 근거 제공: 교정 항목마다
RevisionCategory(맞춤법·띄어쓰기·표준어·외래어·오탈자·혼동어 등)와 이유(comment), 규정 출처(rule_article), 용례(examples)를 담아 돌려줍니다.
이 흐름의 단계별 동작은 맞춤법 검사 파이프라인에서 더 자세히 다룹니다.
교정 항목 분류(RevisionCategory)
바른은 교정을 다음과 같이 분류해 제시합니다. 무엇을 왜 고쳤는지 응답 결과를 처리하는 쪽에서 구분할 수 있습니다.
| 분류 | 의미 |
|---|---|
GRAMMER |
맞춤법·어법(활용·조사 결합·구두점) |
WORD |
단어 규칙(사이시옷·두음법칙·한자 결합) |
SPACING |
띄어쓰기 |
STANDARD |
표준어 |
TYPO |
오탈자 |
FOREIGN_WORD |
외래어 표기법 |
CONFUSABLE_WORDS |
혼동어 |
각 분류의 의미와 예시는 검사 항목 분류에서 더 자세히 볼 수 있습니다.
비교 시 유의
검사기마다 교정 정책·범위·대상 텍스트가 다르므로, 같은 문장이라도 결과가 다를 수 있습니다.
바른의 맞춤법 검사기는 클라우드 전용이며 유료입니다(형태소 분석은 연구·비상업 무료).
다른 검사기의 성능 수치는 평가셋·버전에 따라 달라지므로 단정적 비교는 피합니다.
관련 문서
- 맞춤법 검사 사용하기 — API로 교정을 호출하는 방법
- 맞춤법 검사 파이프라인 · 검사 항목 분류 — 내부 동작과 분류 체계
자주 묻는 질문
Q. 바른은 왜 LLM을 같이 쓰나요?
규칙만으로는 미등록단어나 문맥 의존적 오류를 다 잡기 어렵습니다. 바른은 규칙으로 처리하기 어려운 어절을
LLM으로 폴백 판별하되, 편집거리 기준으로 과도한 변경을 거부해 안정성을 지킵니다. 또한 형태소 분석만으로도
매우 높은 교정 성공율을 보이고 있습니다. LLM 사용으로 넘어가는 일은 최대한 줄이고 있습니다.
Q. 교정 이유와 근거도 받을 수 있나요?
네. 교정 항목마다 분류·이유(comment)·규정 출처(rule_article)·용례를 함께 제공합니다.
"왜 이렇게 고쳤는가"를 사용자에게 설명할 수 있습니다.
특히, 바른은 어법상의 오류를 탐지하기 위해 분절 레이블을 꾸준히 늘려, 현재는 공백 처리 규칙(SP)을 포함해
모두 116개입니다. 이 중 14개는 맞춤법 검사(오류 탐지)용 레이블로, 분절 단계에서 한국어 화자들이 흔히 범하는
형태적 오류를 인식하기 위해 추가한 것입니다.
Q. 분절 단계에서 맞춤법 오류를 잡는다는 게 무슨 뜻인가요?
바른의 분절 모델은 116개 레이블을 가지며, 그중 14개가 맞춤법 검사(오류 탐지)용입니다. 어절을 형태소 경계로 끊는
단계에서 ㅂ·ㅅ·르 불규칙 활용 오류 같은 형태적 오류를 바로 식별하고, 오류가 있는 어절은 올바른 형태로 복원해 교정에 넘깁니다.
Q. 부산대 검사기와 무엇이 다른가요?
부산대 검사기는 규칙·문법 기반입니다. 바른은 형태소 분석을 토대로 규칙과 LLM을
함께 쓰고, gRPC·REST·connect-web API와 스트리밍 교정, 무중단 사용자 사전을 제공합니다.
도움이 되었나요?