정확도 99.6%의 비결
정확도 99.6%는 어떻게 가능한가 — 비결 3가지
바른(bareun)은 99.6%의 형태소 품사 태깅 정확도와 99.7%의 어절 분리/복원 정확도를
보여줍니다. 이 수치는 우연이 아니라 말뭉치 정제, 분절 단계 분리, 자체 태깅 지침이라는
세 가지 비결에서 나옵니다. 이 글은 바른이 어떻게 이 정확도에 도달했는지 정리합니다.
정확도의 측정 방법과 근거는 정확도와
정확도 측정 방법에서 더 자세히 다룹니다.
비결 1 — 말뭉치를 한땀한땀 정제했습니다
딥러닝에서 모델의 정확도는 학습 데이터의 양과 질에서 갈립니다. 바른은 공개 말뭉치를 그대로 쓰지 않고, 오류를 일일이 찾아 고쳐 정제했습니다.
- 21세기 세종계획 형태 의미 분석 말뭉치 1200만 어절(문어·구어)
- 국립국어원 모두의 말뭉치 형태 분석 말뭉치 300만 어절(문어 200만, 구어 100만)
- 1992~2022년 뉴스기사 1억 어절(빅카인즈)
- 빈도가 낮은 데이터를 중심으로 자체 보강한 말뭉치
- 띄어쓰기 오류를 일부러 발생시켜 만든 증강 말뭉치
오류를 찾아 고치는 작업
국어국문학과 출신 개발자와 국내 주요 대학의 박사·석사급 연구자들이 세종·모두의 말뭉치에서 발견되지 않은 오류를 직접 수정하고, 분석 오류를 일일이 검토해 학습 데이터를 보강했습니다.
비결 2 — 분절과 품사 태깅을 분리했습니다
바른은 한 번에 답을 내놓지 않고 분절(Segmenter) → 품사 태깅(PosTagger) → 후처리의 세 단계로 나누어 분석합니다.
한국어는 교착어라 하나의 어절 안에 여러 형태소가 활용·축약된 채 붙어 있습니다. "어디서 끊을지(분절)"를 먼저 정확히 정한 뒤 "각 조각이 무슨 품사인지(태깅)"를 붙이면, 각 단계가 더 단순한 문제를 풀게 되어 전체 정확도가 올라갑니다.
- 분절 단계에서 체언(N)·조사(J)·용언(V)·어미(E)·부사어(A)·관형어(M)·감탄사(I)·기호(S)의 8대 형태 단위로 먼저 나눕니다.
- 이 과정에서 한국어 활용의 특성을 분석해 찾아낸 116개 분절 규칙이 모델 가중치에 반영됩니다. 이 중 14개는 맞춤법 검사기가 분절 단계에서 형태적 오류를 잡아내는 오류 탐지용 규칙입니다.
- 태깅 단계에서 국립국어원 기준 47개 품사 중 하나를 각 형태소에 배정합니다.
정확도는 이렇게 측정했습니다
정확도 수치는 대규모 평가셋으로 검증한 결과입니다.
- 문장 전체 태깅 정확도: 모두의 말뭉치 15만 문장을 대상으로, 한 형태소라도 틀리면 오답으로 처리해 엄격하게 측정합니다.
- 중의성(모호성) 해소 평가셋: 35,396 문장 / 8,285 표면형을 구축해 같은 표면형의 서로 다른 분석을 가려냅니다.
- 학습 데이터 보강: 구어·방언·신조어 적응력을 높이려고 NIA 음성·대화 데이터 등 1억 어절 / 1,000만 문장을 추가로 보강했습니다.
분절을 따로 두는 이유
트랜스포머 모델에서 한국어 토크나이저는 늘 골치 아픈 문제입니다. 바른은 품사를 붙이기 전에 "어디서 끊어야 하는가"를 전담하는 분절 단계를 둬서 이 문제를 정면으로 해결합니다. 그래서 활용·축약·생략된 형태소도 원 위치를 정확히 복원합니다.
비결 3 — 자체 태깅 지침으로 일관성을 잡았습니다
같은 표현을 어떻게 분석할지 기준이 흔들리면 정확도가 떨어집니다. 바른은 국립국어원 지침을 수용하되, 자체 기준에 맞지 않는 태깅 규칙은 일관되게 수정했습니다.
예를 들어 누가를 누구+가로, 뉘를 누구+이로 보지 않고,
누를 대명사로 봐서 누+가·누+이로 학습시켰습니다.
이런 일관된 지침 덕분에 같은 표면형이 여러 뜻을 갖는 중의성 상황에서도 안정적으로 분석합니다.
바른은 표면형은 같지만 분석이 다른 단어 12,175개를 찾아내 형태정보 임베딩으로 구별하고,
이 중의성 데이터를
공개하고 있습니다.
이 데이터의 구성은 중의성 데이터셋 문서를 참고하세요.
자주 묻는 질문
Q. 99.6%와 99.7%는 각각 무엇을 가리키나요?
99.6%는 형태소 품사 태깅 정확도, 99.7%는 어절 분리/복원 정확도입니다.
Q. 구어나 신조어도 잘 분석하나요?
네. 교착어인 한국어의 활용 규칙을 이해하는 딥러닝 엔진을 사용해
감사합니당(ㅂ니당/EF), 알겠어용(어용/EF) 같은 구어 어미도 올바르게 분석합니다.
Q. 정확도를 더 높이려면 어떻게 하나요?
사용자 사전으로 고유명사·복합명사·동사·형용사 등을 등록하면 도메인 용어의 분석 정확도를 높일 수 있습니다. 사전은 무중단으로 갱신됩니다.
Q. 정확도는 어떤 데이터로 측정했나요?
모두의 말뭉치 15만 문장으로 문장 전체 태깅을 평가하되, 한 형태소라도 틀리면 오답으로 처리해 엄격하게 측정했습니다. 중의성 해소는 35,396 문장·8,285 표면형 평가셋으로 검증했습니다.
Q. 분절 규칙은 몇 개인가요?
한국어 활용 특성을 분석해 찾아낸 116개 분절 규칙을 사용하며, 이 중 14개는 맞춤법 검사기가 분절 단계에서 형태적 오류를 잡아내는 오류 탐지용 규칙입니다.
관련 문서
도움이 되었나요?