콘텐츠로 이동

뉴스 핵심어 추출

뉴스 본문 핵심어 추출 — 빅카인즈 활용 사례

뉴스 분석에서 가장 중요한 정보는 누가(인명)·어디서(지명)·어느 조직(조직명) 입니다. 이런 고유명사를 정확히 뽑아내려면 뉴스 말뭉치로 잘 학습된 형태소 분석기가 필요합니다. 바른은 빅카인즈 뉴스 1억 어절을 포함한 대규모 말뭉치로 학습되어, 뉴스 고유명사 인식에 강합니다.

문제 상황

  • 새로 등장한 인명·기관명이 일반명사로 잘못 분석되거나 쪼개집니다.
  • 한국전자통신연구원 같은 긴 조직명이 토막 나 검색·집계가 어긋납니다.
  • 일반명사와 고유명사가 섞여 인물·조직 중심 분석이 안 됩니다.

바른을 어떻게 적용하나

뉴스 본문을 형태소 분석해 고유명사(NNP) 만 골라내면 인명·지명·조직명 후보를 얻습니다. 바른은 빅카인즈 뉴스 말뭉치로 학습되어 시사 고유명사 인식률이 높고, 새 인물·기관은 사용자 사전(np_set)에 등록해 보강할 수 있습니다.

graph TD
  NEWS[뉴스 본문] --> TAG[바른 형태소 분석];
  TAG --> NNP[고유명사 NNP 추출];
  NNP --> CLS[인명·지명·조직명 분류];
  CLS --> TREND[핵심 인물·조직 트렌드];
from collections import Counter
from bareunpy import Tagger

tagger = Tagger("koba-XXXX-...", "localhost")

def proper_nouns(article: str):
    """뉴스 본문에서 고유명사(NNP)만 추출합니다."""
    res = tagger.tags([article])
    return [m for m, t in res.pos() if t == "NNP"]

article = "통일부는 판문점에서 회담을 열었다고 발표했습니다."
print(proper_nouns(article))
['통일부', '판문점']

조직명 통일부와 지명 판문점이 고유명사로 정확히 분리됩니다.

결과와 이점

항목 일반 분석기 바른(뉴스 말뭉치 학습)
시사 고유명사 오분석 잦음 인식률 높음
긴 조직명 토막 남 등재 시 유지
신규 인물·기관 미인식 사용자 사전 보강

학습 말뭉치

바른은 세종 말뭉치·모두의 말뭉치에 더해 빅카인즈 뉴스 1억 어절 을 학습에 사용합니다. 그래서 뉴스 문체와 시사 고유명사에 특히 강합니다.

자주 묻는 질문

Q. 인명·지명·조직명을 더 세분할 수 있나요?

바른은 고유명사를 NNP로 분류합니다. 인명/지명/조직명 세부 구분이 필요하면 추출한 NNP 목록을 별도 개체명 인식(NER) 단계나 사전 매칭으로 분류하세요.

Q. 최신 인물·신생 기업이 인식되지 않아요.

학습 시점 이후 등장한 고유명사는 사용자 사전의 고유명사 사전(np_set)에 등록하면 즉시 인식됩니다. 사전은 실시간으로 반영됩니다.

Q. 빅카인즈 외 다른 도메인 뉴스에도 잘 되나요?

뉴스 전반에 두루 강하지만, 특정 분야(스포츠·연예 등) 전용 고유명사는 도메인 사용자 사전으로 보강하면 더 정확합니다.

관련 문서

Q. 뉴스 분석에 바른이 다른 형태소 분석기보다 나은 점은 무엇인가요?

바른은 세종 말뭉치·모두의 말뭉치에 더해 빅카인즈 뉴스 1억 어절을 학습에 사용해 뉴스 문체와 시사 고유명사에 특히 강합니다. 품사 태깅 정확도는 99.6%이며, 학습 이후 등장한 인물·기관도 사용자 사전으로 실시간 보강할 수 있어, 변화가 빠른 뉴스 핵심어 추출에 잘 맞습니다.

도움이 되었나요?