콘텐츠로 이동

트랜스포머 vs 사전 기반

트랜스포머 vs 사전 기반 분석기 — 무엇이 다른가

한국어 형태소 분석기는 크게 두 갈래로 나뉩니다. 사전에 등재된 단어를 매칭하는 사전 기반 분석기와, 대규모 데이터로 학습해 문맥으로 추론하는 트랜스포머 기반 분석기입니다. 바른은 후자에 속합니다. 이 글은 두 방식의 차이를 정리합니다.

두 방식의 동작 원리

graph TD
  subgraph 사전 기반
    A1[입력] --> A2[사전에서 단어 매칭];
    A2 --> A3{사전에 있나?};
    A3 -->|있음| A4[분석 성공];
    A3 -->|없음| A5[분석 실패·미등록];
  end
  subgraph 트랜스포머 기반
    B1[입력] --> B2[문맥 학습 모델 추론];
    B2 --> B3[분절·품사 추측];
    B3 --> B4[미등록단어도 추측 결과];
  end

핵심 차이 비교

항목 사전 기반 트랜스포머 기반(바른)
분석 근거 사전 등재 여부 학습된 문맥 패턴
미등록단어 분석 실패하기 쉬움 문맥으로 추측 가능
신조어·구어 사전 갱신 전까지 약함 학습 패턴으로 대응
중의성 규칙·우선순위에 의존 문맥으로 판단
적응력 사전 관리에 좌우 데이터 학습으로 향상

트랜스포머 기반의 강점

미등록단어와 신조어에 강하다

사전 기반 분석기는 사전에 없는 단어를 만나면 분석이 막히기 쉽습니다. 바른은 어떤 사전에도 없는 단어라도 주변 문맥을 보고 분절·품사를 추측하고 OUT_OF_VOCAB으로 표시합니다. 신조어와 구어체가 끊임없이 생겨나는 한국어 환경에서 이 적응력은 큰 차이를 만듭니다.

구어·비정형 입력

SNS 글, 채팅, 음성 전사처럼 정제되지 않은 문장은 사전 매칭으로는 다루기 어렵습니다. 바른은 띄어쓰기 증강과 대규모 실제 문장(약 1억 어절·1,000만 문장 규모)으로 학습해, 띄어쓰기가 틀리거나 구어체가 섞인 입력에도 흔들리지 않습니다.

중의성을 문맥으로 가른다

바른은 표면형이 같아도 형태가 다른 단어를 각각 다른 토큰으로 임베딩합니다. 이렇게 형태정보를 담은 임베딩으로 구별되는 동일 표면형이 12,175개에 이르며, 사전 기반 분석기가 규칙·우선순위에 기대는 자리를 바른은 문맥으로 판단합니다.

사전을 버리지는 않는다

둘을 함께 쓴다

바른이 트랜스포머 기반이라고 해서 사전을 쓰지 않는 것은 아닙니다. 내장 사전·우리말샘·사용자 사전을 함께 활용해 추론 결과를 보정하고 출처를 표시합니다. 학습 모델의 적응력과 사전의 정확성을 함께 쓰는 것이 바른의 방식입니다.

자주 묻는 질문

Q. 트랜스포머 기반과 사전 기반 분석기는 어떻게 다른가요?

사전 기반은 등재된 단어를 매칭해 분석하므로 사전에 없는 단어에 약합니다. 트랜스포머 기반인 바른은 학습된 문맥 패턴으로 추론하므로 미등록단어도 추측할 수 있습니다.

Q. 바른은 사전을 전혀 쓰지 않나요?

아닙니다. 학습 모델로 추론하되 내장 사전·우리말샘·사용자 사전을 함께 활용해 결과를 보정하고 형태소의 출처를 표시합니다. 학습의 적응력과 사전의 정확성을 함께 씁니다.

Q. 신조어나 구어체에 왜 강한가요?

약 1억 어절·1,000만 문장 규모의 실제 문장과 띄어쓰기 증강으로 학습했고, 사전에 없는 단어도 문맥으로 추측하기 때문입니다. SNS·채팅 같은 비정형 입력에도 안정적으로 동작합니다.

Q. 사전 기반 분석기보다 중의성에 왜 강한가요?

바른은 표면형이 같아도 형태가 다른 단어를 각각 다른 토큰으로 임베딩합니다. 이렇게 형태정보를 담은 임베딩으로 구별되는 동일 표면형이 12,175개에 이르러, 사전 기반 분석기가 규칙·우선순위에 기대는 자리를 문맥으로 판단합니다.

도움이 되었나요?