사전학습 언어모델 구축 및 어휘 확장

사전학습 언어모델 구축 및 어휘 확장

#어휘 #언어모델 #사전 #딥러닝

기술 개요

  • 시간 및 비용의 상승을 최소화하면서 신규 데이터 기반의 어휘 확장을 통해 특정 분야를 위한 고성능 사전학습 언어 모델을 구축할 수 있는 기술을 실현하는 사전 학습 언어모델 구죽장치 및 사전학습 언어모델의 어휘 확장 방법

기존 기술 문제점

  • 사전학습 언어모델을 학습 할 때 사용된 데이터의 특성과 사전학습 언어모델을 적용할 분야 데이터의 특성은 서로 일치하지 않는 경우가 있음
  • 확장 임베딩 계층 및 확장 인코딩 계층을 모두 학습/확장해야 하기 때문에 분야 데이터를 구축하고 추가 사전학습하는데 많은 시간과 비용 소요됨
  • 임베딩 벡터의 분포 불균형 문제가 발생할 수 있고 모델의 성능 저하로 이어지는 한계점이 있음

기술의 특징 및 우수성

  • 기술의 특징

    • 시간 및 비용의 상승을 최소화하기위해 신규 데이터(EX:특정 분야의 데이터) 기반의 어휘 확장으로 언어모델을 구축함
    • 예측 어휘 집합에서 필터링된 예측 어휘에 대한 임베딩 벡터값을 획득하고, 집계연산을 통해 특정 어휘에 대한 임베딩 값을 생성하기 위해 매체에 저장된 컴퓨터프로그램임
  • 기술의 우수성

    • 소규모의 신규 데이터와 적은 계산량 및 적은 비용으로 구체적인 기술 구성들을 실현 가능함
    • 새로운 기술 출현이 빈번하고 이에 따른 새로운 용어 또한 빈번하게 발생하는 환경을 감안할 때, 어휘 사전 및 임베딩 계층을 용이하고 점증적으로 확장하여 사전학습 언어모델을 구축할 수 있는 요구사항을 충족시키는 효과가 있음

상세 설명

  • 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하고 그 어휘에 대한 임베딩 값을 생성하고, 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축함
  • 특정 어휘를 특정 토큰으로 마스킹한 후 범용 사전학습 언어모델의 MLM에 입력하여 특정 토큰에 대한 예측 어휘 집합을 획득하고 예측 오류 개선 후 임베딩 값을 획득하고 그 값을 이용해 집계연산을 통해 특정 어휘에 대한 임베딩 값을 생성하는 것을 특징으로하는 사전학습 언어모델의 어휘 확장 방법임
사전학습 언어모델의 개념 예시도 및 핵심구성 예시도 그림 1 사전학습 언어모델의 개념 예시도 및 핵심구성 예시도

기술완성도 (TRL)

TRL1
기술원리발표
TRL2
기술컨셉설정
TRL3
기술컨셉증명
TRL4
Lab Scale 시제품개발
TRL5
구현환경 적용실험
TRL6
Full Scale 시제품개발
TRL7
유사 상용품 개발
TRL8
상용품 완성
TRL9
상용품 실시

활용분야 및 적용제품

  • 활용분야

    • 자연어 처리에 딥러닝 기술 적용 필수요소
    • 자연어 처리(NLP)
    • 신규 데이터 기반의 어휘 확장
  • 적용제품

    • 사전학습 언어모델

산업동향(기술 동향 및 트랜드 등 )

  • 딥러닝 사전학습 언어모델은 수십~수백 GB 이상 대용량 텍스트 데이터로부터 언어의 문법 및 의미를 학습하여 다양한 테스크에 적용할 수 있어 기존 사전학습 언어모델 대비 성능이 우수하여 산업에서 활용성을 인정받고 있음
  • 현재 구글에서 개발한 자연어처리 사전 훈련 기술인 BERT(Pre-training of Deep Bidirectional Trnasformers for Language Understanding)이 모든 자연어 처리 분야에서 좋은 성능을 내고 있는 범용성 언어 모델임
  • 하지만 BERT의 경우 일반 NLP모델에서 잘 작동하지만, Bio, Science, Finace 등 특정 분야의 언어모델에 사용하려면 잘 적용되지 않는 문제 등이 있어 개선을 통한 산업 응용력 향상에 대한 검토가 요구되고 있음
  • 국내에서 개발된 언어모델인 KorBERT는 구글에서 배포한 다국어 모델 대비 우수한 성능이며, 현재까지도 학습을 개선하기 위한 많은 연구가 이루어지고 있음

    (출처:ETRI, 딥러닝 사전학습 언어모델 기술 동향, 2020)

시장전망(목표시장 규모 및 전망)

  • 딥 러닝은 사람의 입력에 의존하지 않고 작업을 수행할 수 있는 능력과 여러 산업 분야에서 클라우드 기반 기술이 빠르게 채택되면서 딥 러닝 산업의 성장이 가속화되고 있음
  • 글로벌 딥 러닝 시장 규모는 2022년 496억 달러이며, 연평균 33.5%의 시장성장률로 예상되며, 2030년 5,004억 달러로 성장할 것으로 전망

    (출처:Grand View Research, 2022)

  • 글로벌 NLP 시장 규모는 2021년 155억 달러이며, 연평균 40.9%의 시장성장률로

    (출처:GTT KOREA, 2021)

글로벌 딥 러닝 시장 규모 전망 그림 2 글로벌 딥 러닝 시장 규모 전망
글로벌 NLP 시장 규모 전망 그림 3 글로벌 NLP 시장 규모 전망

지재권현황

권리현황 등록(출원)번호 발명의 명칭
등록 10-2476104 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법

활용분야

  • 자연어 처리에 딥러닝 기술 적용 필수요소
  • 자연어 처리(NLP)
  • 신규 데이터 기반의 어휘 확장

활용제품

  • 사전학습 언어모델
상담번호 0504-1361-0000