뉴스 핵심어 추출

Q: 뉴스 핵심어 추출에 바른이 강한 이유는 무엇인가요?

바른은 빅카인즈 뉴스 1억 어절을 포함한 대규모 말뭉치로 학습되어 뉴스 문체와 시사 고유명사 인식률이 높습니다. 고유명사(NNP)만 추출하면 인명·지명·조직명 핵심어를 정확히 얻습니다.

Q: 최신 인물이나 신생 기업명이 인식되지 않으면 어떻게 하나요?

학습 이후 등장한 고유명사는 사용자 사전의 고유명사 사전(np_set)에 등록하면 즉시 인식됩니다. 사전은 실시간으로 반영되어 서버 재시작이 필요 없으며, CustomDictionaryService API로 관리합니다.

Q: 추출한 고유명사를 인명·지명·조직명으로 더 세분할 수 있나요?

바른 형태소 분석은 고유명사를 NNP 하나로 분류합니다. 인명·지명·조직명 세부 구분이 필요하면 추출한 NNP 목록을 별도 개체명 인식(NER) 단계나 사전 매칭으로 분류하면 됩니다.

뉴스 본문 핵심어 추출 — 빅카인즈 활용 사례

뉴스 분석에서 가장 중요한 정보는 누가(인명)·어디서(지명)·어느 조직(조직명) 입니다. 이런 고유명사를 정확히 뽑아내려면 뉴스 말뭉치로 잘 학습된 형태소 분석기가 필요합니다. 바른은 빅카인즈 뉴스 1억 어절을 포함한 대규모 말뭉치로 학습되어, 뉴스 고유명사 인식에 강합니다.

문제 상황

새로 등장한 인명·기관명이 일반명사로 잘못 분석되거나 쪼개집니다.
한국전자통신연구원 같은 긴 조직명이 토막 나 검색·집계가 어긋납니다.
일반명사와 고유명사가 섞여 인물·조직 중심 분석이 안 됩니다.

바른을 어떻게 적용하나

뉴스 본문을 형태소 분석해 고유명사(NNP) 만 골라내면 인명·지명·조직명 후보를 얻습니다. 바른은 빅카인즈 뉴스 말뭉치로 학습되어 시사 고유명사 인식률이 높고, 새 인물·기관은 사용자 사전(np_set)에 등록해 보강할 수 있습니다.

graph TD
  NEWS[뉴스 본문] --> TAG[바른 형태소 분석];
  TAG --> NNP[고유명사 NNP 추출];
  NNP --> CLS[인명·지명·조직명 분류];
  CLS --> TREND[핵심 인물·조직 트렌드];

코드출력

from collections import Counter
from bareunpy import Tagger

tagger = Tagger("koba-XXXX-...", "localhost")

def proper_nouns(article: str):
    """뉴스 본문에서 고유명사(NNP)만 추출합니다."""
    res = tagger.tags([article])
    return [m for m, t in res.pos() if t == "NNP"]

article = "통일부는 판문점에서 회담을 열었다고 발표했습니다."
print(proper_nouns(article))

['통일부', '판문점']

조직명 통일부와 지명 판문점이 고유명사로 정확히 분리됩니다.

결과와 이점

항목	일반 분석기	바른(뉴스 말뭉치 학습)
시사 고유명사	오분석 잦음	인식률 높음
긴 조직명	토막 남	등재 시 유지
신규 인물·기관	미인식	사용자 사전 보강

학습 말뭉치

바른은 세종 말뭉치·모두의 말뭉치에 더해 빅카인즈 뉴스 1억 어절 을 학습에 사용합니다. 그래서 뉴스 문체와 시사 고유명사에 특히 강합니다.

자주 묻는 질문

Q. 인명·지명·조직명을 더 세분할 수 있나요?

바른은 고유명사를 NNP로 분류합니다. 인명/지명/조직명 세부 구분이 필요하면 추출한 NNP 목록을 별도 개체명 인식(NER) 단계나 사전 매칭으로 분류하세요.

Q. 최신 인물·신생 기업이 인식되지 않아요.

학습 시점 이후 등장한 고유명사는 사용자 사전의 고유명사 사전(np_set)에 등록하면 즉시 인식됩니다. 사전은 실시간으로 반영됩니다.

Q. 빅카인즈 외 다른 도메인 뉴스에도 잘 되나요?

뉴스 전반에 두루 강하지만, 특정 분야(스포츠·연예 등) 전용 고유명사는 도메인 사용자 사전으로 보강하면 더 정확합니다.