정확도 99.6%의 이유

Q: 바른이 높은 형태소 분석 정확도를 내는 이유는 무엇인가요?

말뭉치 정제, 분절 단계와 품사 태깅 단계의 분리, 일관된 자체 태깅 지침이라는 세 가지가 바탕입니다. 띄어쓰기 증강과 미등록단어 문맥 추측이 비정형 입력에 대한 견고함을 더합니다.

Q: 바른의 99.6% 정확도는 어떻게 측정한 수치인가요?

모두의 말뭉치 15만 문장으로 문장 전체 태깅을 평가하되, 형태소가 하나라도 틀리면 문장 전체를 오답으로 처리하는 엄격한 기준입니다. 여기에 35,396 문장 규모의 모호성 해소 평가셋과 12,129 문장의 VCP(서술격조사 이) 복원 평가를 더해 측정합니다.

바른 형태소 분석 정확도가 99.6%에 이르는 이유

바른의 한국어 형태소 분석 정확도는 품사 태깅 99.6%, 어절 분리/복원 99.7% 입니다. 이 수치는 우연히 나온 것이 아니라, 데이터 정제부터 모델 구조 설계까지 여러 결정이 쌓인 결과입니다. 이 글은 그 높은 정확도가 어디서 나오는지 정리합니다.

두 가지 정확도 지표

지표	정확도	의미
품사 태깅	99.6%	형태소에 올바른 47품사를 배정한 비율
어절 분리/복원	99.7%	어절을 형태소로 정확히 나누고 원형을 복원한 비율

품사 태깅 정확도는 "이름표를 제대로 붙였는가", 어절 분리/복원 정확도는 "제대로 끊고 원래 형태로 되돌렸는가"를 나타냅니다.

99.6%는 어떻게 측정했나

이 수치는 작은 표본이 아니라 엄격한 대규모 평가에서 나온 값입니다.

문장 전체 태깅 기준: 모두의 말뭉치 15만 문장을 대상으로, 한 문장 안에서 형태소가 하나라도 틀리면 그 문장 전체를 오답으로 처리합니다. 47품사를 모두 맞혀야 정답이 되는 까다로운 기준입니다.
모호성 해소 평가셋: 같은 어절이 문맥에 따라 다르게 분석되는 사례를 35,396 문장 / 8,285 표면형 규모로 모아, 바른이 문맥에 맞는 분석을 고르는지 측정합니다.
VCP(서술격조사 '이') 복원 평가: 자주 생략되는 '이'를 제대로 살려 분석하는지를 모두의 말뭉치에서 추출한 12,129 문장으로 따로 평가합니다.

이렇게 여러 각도에서 측정한 결과가 품사 태깅 99.6%로 모입니다.

정확도를 만드는 세 가지 기둥

graph TD
  A[말뭉치 정제] --> ACC[높은 분석 정확도];
  B[분절·태깅 단계 분리] --> ACC;
  C[자체 태깅 지침] --> ACC;

1. 말뭉치 정제

세종·모두의 말뭉치·뉴스 말뭉치의 태깅 오류를 수정하고 일관성을 맞춰 학습합니다. 깨끗한 데이터로 학습하면 모델이 혼란스러운 신호를 배우지 않습니다.

2. 분절 단계와 태깅 단계의 분리

바른은 "어디서 끊을지"(분절)와 "무슨 품사인지"(태깅)를 별도 모델로 나눕니다. 각 모델이 더 단순하고 명확한 문제만 풀게 되어, 한 모델이 모든 걸 처리할 때보다 정확도가 높습니다.

3. 자체 태깅 지침

누가 → 누 + 가처럼 분절·품사 처리 기준을 단어마다 일관되게 정합니다. 같은 단어가 항상 같게 분석되므로 결과가 안정적입니다.

띄어쓰기 증강과 미등록단어 대응이 더한 견고함

비정형 입력에도 흔들리지 않는다

띄어쓰기 증강으로 학습해 사용자가 띄어쓰기를 틀려도 형태소 경계를 잡고, 사전에 없는 신조어도 문맥으로 추측합니다. 이 견고함이 실제 사용 환경에서의 정확도를 받쳐줍니다.

이 모든 요소가 어우러져 사전 기반 분석기가 도달하기 어려운 99%대 후반 정확도를 만들어냅니다.

자주 묻는 질문

Q. 바른의 형태소 분석 정확도는 얼마인가요?

품사 태깅 정확도 99.6%, 어절 분리/복원 정확도 99.7%입니다.

Q. 어떻게 이런 정확도가 가능한가요?

말뭉치 정제, 분절 단계와 태깅 단계의 분리, 일관된 자체 태깅 지침이라는 세 기둥이 바탕입니다. 여기에 띄어쓰기 증강과 미등록단어 문맥 추측이 견고함을 더합니다.

Q. 품사 태깅 정확도와 어절 분리/복원 정확도는 어떻게 다른가요?

품사 태깅 정확도는 형태소에 올바른 품사를 붙인 비율이고, 어절 분리/복원 정확도는 어절을 형태소로 정확히 나누고 원형을 복원한 비율입니다.

Q. 99.6%는 어떻게 측정한 수치인가요?

모두의 말뭉치 15만 문장으로 문장 전체 태깅을 평가하되, 형태소가 하나라도 틀리면 문장 전체를 오답으로 처리하는 엄격한 기준입니다. 여기에 35,396 문장 규모의 모호성 해소 평가셋과 12,129 문장의 VCP('이') 복원 평가를 더해 측정한 결과입니다.

도움이 되었나요?