메타데이터 추출장치 및 메타데이터 추출 방법
#추출 #메타데이터 #딥러닝
기술 개요
- PDF 논문 파일로부터 메타데이터를 자동 추출하기 위한 딥러닝 기반의 메타데이터 추출 방안에 관한 것임
기존 기술 문제점
- 일반적으로 논문 메타데이터의 DB 구축은 PDF 원문 파일을 대상으로 사람이 직접 메타데이터를 추출하고 있어 DB구축에 매년 많은 비용과 시간을 소비하고 있는 실정임
- 구축자마다 이해관계가 다르며 성실도가 다르기 때문에, 구축자마다의 수작업 추출 결과의 품질이 일관적이지 않다는 문제점 존재함
기술의 특징 및 우수성
-
기술의 특징
- PDF 논문 파일로부터 메타데이터를 자동 추출하기 위한 딥러닝 기반의 메타데이터 추출 방안임
- 메타데이터 예측모델에 대한 전처리/후처리 기능을 구현함
-
기술의 우수성
- PDF 논문 파일의 메타 테이터에 관한 대용량의 코퍼스를 구축하고, 이를 학습한 딥러닝 기반의 메타데이터 예측 모델을 통해 PDF 논문 파일의 메타데이터를 자동 추출함
- 다양한 학술지에 게재되는 PDF 논문 파일에 대한 양호하고도, 안정적인 메타데이터 추출 성능 보장
상세 설명
- PDF 논문 파일의 입력에 따라 PDF 논문 파일의 페이지 상에 존재하는 메타데이터 영역을 식별하는 데이터 전처리부와 메타데이터의 영역의 고유코드와 메타데이터 영역의 내용 텍스트를 입력으로 하는 메타데이터 예측모델을 통해 PDF 논문 파일의 메타데이터를 예측하는 메타데이터 예측부를 포함하는 메타데이터 추출장치임
- PDF 논문 파일의 페이지로부터 식별되는 메타데이터 영역 별로 메타데이터 항목의 라벨을 태깅한 학습데이터를 구축하는 코퍼스를 포함함
그림 1 메타데이터 추줄장치의 구성도 및 메타데이터 예측방법 순서도
기술완성도 (TRL)
TRL1
기술원리발표
TRL2
기술컨셉설정
TRL3
기술컨셉증명
TRL4
Lab Scale 시제품개발
TRL5
구현환경 적용실험
TRL6
Full Scale 시제품개발
TRL7
유사 상용품 개발
TRL8
상용품 완성
TRL9
상용품 실시
활용분야 및 적용제품
-
활용분야
- 디지털 음원 시장
- 차세대 스마트 방송
- 컴퓨터에서 정보의 인덱스(index)
-
적용제품
- 검색 엔진,애플리케이션
- 소셜 플랫폼
산업동향(기술 동향 및 트랜드 등 )
- 정보통신기술과 인터넷의 급속한 발전으로 정보량이 급증함에 따라 스파이더, 로봇, 스크린-스크랩핑 등을 활용한 다양한 노력에도 불구하고 웹에서 원하는 자료를 정확하게 찾기 어렵기에 이들 정보를 효율적으로 검색하기 위한 메타데이터에 대한 연구가 전 세계적으로 활발하게 진행중임
- 웹에서 전문을 대상으로 하는 검색 방식은 검색 정보량이 너무 방대하여 이용자에게 부담을 주고 상당수 부적합한 내용이 검색되는 한계가 지적되는데 이러한 한계를 해소하고 필요한 정보 자원에 정확하게 접근하기 위해 다양한 분야에서 각종 메타데이터가 제안되고 있음
- 국가적으로 보존 및 이용가치가 있는 교육학술, 과학기술, 역사, 문화 등에 대한 디지털화가 추진되고 있어서 이러한 디지털 지식정보자원의 효율적인 검색, 체계적인 관리 및 상호운용성 보장을 위한 메타데이터 표준화가 매우 중요한 과제로 대두되고 있음
-
메타데이터 표준화는 정보 자원의 상호운용성과 공유, 일관된 검색, 비용절감을 위해 반드시 필요한 작업이며, 학계와 관련업계에서도 정부차원에서 추진하는 메타데이터 표준화에 적극적으로 참여하여 관련 기술과
솔루션이 지속적으로 개발되기를 기대함
(출처 : 지식정보자원 메타데이터)
시장전망(목표시장 규모 및 전망)
- 글로벌 메타데이터 관리 도구 시장 규모는 2021년 66억 8천만 달러 규모에서 2030년 366억 달러 시장성장률 20.8%로 전망함
-
글로벌 딥러닝 시장 규모는 2022년 496억 달러에서 2030년 5004억 달러 시장성장률 33.5%로 전망함
(출처:GRAND VIEW RESEARCH (데이터 재가공))
그림 2 글로벌 메타데이터 관리 도구 시장 규모 및 전망
그림 3 글로벌 딥러닝 시장 규모 및 전망
지재권현황
권리현황 | 등록(출원)번호 | 발명의 명칭 |
---|---|---|
출원(미공개) | 10-2022-0075654 | 메타데이터 추출장치 및 메타데이터 추출 방법 |
활용분야
- 디지털 음원 시장
- 차세대 스마트 방송
- 컴퓨터에서 정보의 인덱스(index)
활용제품
- 검색 엔진,애플리케이션
- 소셜 플랫폼