학술논문 xml 풀텍스트 생성을 위한 기술제공 및 방법

학술논문 xml 풀텍스트 생성을 위한 기술제공 및 방법

#XML #학술논문 #자동입력 #자동변환 #전자저널

기술 개요

  • 전자저널 출판을 위한PMC(PubMed Central) DTD(Data Type Definition) 기반의 풀텍스트 XML(eXtensible Markup Language) 논문을 구축하기 위한 자동화 기반의 입력 시스템 및 방법에 관한 것임

기존 기술 문제점

  • 일반적으로 사용되고 있는 PDF 문서는 취급이 빠르고 효율적이지만, 텍스트 데이터를 조작하는데 있어서는 비효율이고 단어들이 특정한 의미를 갖는 곳에 정보의 특정한 부분을 위치시키기 어려움
  • PDF 문서를 XML 문서로 변환하기 위해서 기존에는 사람이 해당 문서의 내용을 일일이 Copy & Paste하여 작업을 함으로써 매우 많은 시간과 비용이 소요되었음

기술의 특징 및 우수성

  • 기술의 특징

    • XML 데이터의 신속한 작성이 가능함
    • 특수문자 자동변환, 참조정보 자동 링크 및 참고 문헌의 자동 구조화 등의 처리를 통해 PMC에서 정의하고 있는 DTD 3.0과 매핑되는 항목을 정의함
    • 풀 텍스트 XML 논문 생성을 위한 자동화 입력 시스템 및 방법 제공함
  • 기술의 우수성

    • PDF 파일로부터 일일이 Copy & Paste 방식으로 하는 수작업의 비효율 개선, 비용 절감함
    • XML 데이터의 신속한 작성, Copy & Paste 등 작업 시 발생하는 누락을 방지함
    • 구조적 분석을 통해 PDF 파일에 구성된 텍스트 문단의 순서대로 출력 등 작업 편의성 향상 도모함
    • 사용자가 XML에 대한 전문지식이 없이도 학술지 논문 구조에 대한 지식만 있다면 누구든지 풀 텍스트 XML 논문으로 구축 가능함

상세 설명

  • XML 데이터의 분석을 통해 서지 정보, 본문 정보, 참고문헌 정보로 분류하여 웹입력 페이지의 텍스트 입력칸에 출력하는 텍스트 정보 자동 입력부와 특수문자를 유니코드 엔티티 형태로 일괄 변경하는 특수문자 자동변환부, 자동으로 PMC에서 정의하고 있는 DTD 기반의 참조 형태로 자동 변환하는 참조 정보 링크변환부와 저널 전거 구축 시 동일한 저널의 이형정보로 활용하여, 저널 전거의 구축확장을 지원하는 DOI 처리부까지 포함하는 풀 텍스트 XML 논문 생성을 위한 자동화 입력 시스템임
자동화 입력 시스템의 구성도 및 자동화 입력 방법 동작 흐름도 자동화 입력 시스템의 구성도 및 자동화 입력 방법 동작 흐름도
그림 1 자동화 입력 시스템의 구성도 및 자동화 입력 방법 동작 흐름도

기술완성도 (TRL)

TRL1
기술원리발표
TRL2
기술컨셉설정
TRL3
기술컨셉증명
TRL4
Lab Scale 시제품개발
TRL5
구현환경 적용실험
TRL6
Full Scale 시제품개발
TRL7
유사 상용품 개발
TRL8
상용품 완성
TRL9
상용품 실시

활용분야 및 적용제품

  • 활용분야

    • XML 논문 구축
    • 자동화 기반 입력 시스템
    • 전자저널 출판
  • 적용제품

    • 학술출판물
    • 정보 서비스 제공 플랫폼
    • 기계학습 데이터 생성기

산업동향(기술 동향 및 트랜드 등 )

  • 학술출판 관련 산업은 혁신이 타 산업군 대비 더딘 것으로 나타났으며, 과학출판물에 대한 투고와 편집 절차에 대해 인공지능 기술 도입에 어려움이 존재했음
  • 하지만, 논문은 구조화되어 있고 언어와 용어는 정제되어 있어 인공지능을 적용할 경우, 정확한 정보를 생성할 수 있을 것으로 기대되고 있음
  • 현재 학술출판 산업에서 인공지능 기술 도입 비용 대비 효과가 증대하고, 학술출판물의 TDM 허용을 위한 법제화가 마련되면서 인공지능 기술 도입이 활발해지고 있는 추세임
  • 현재 학술출판 인공지능 적용 분야로 ‘편집 절차 지원’, ‘심사자 자동 추천’, ‘텍스트 주제 자동분류 및 주제 이해’, ‘텍스트 기반 검색 정확도/관련도 증대’, ‘개인정보 보호’, ‘연구개발주기 지원 및 부상 연구주제 예측’ 등이 있음
  • STM 회원사인 글로벌 출판사, 출판플랫폼 벤더들은 인공지능 테크 기업 및 Open AI 등 글로벌 이니셔티브와 긴밀한 협력을 통해 출판사에 축적된 콘텐츠의 재활용, 생산성 효율화, 맞춤형 서비스 고도화를 추진하고 있음

    (출처 : AI TREND WATCH, 학술출판 서비스 인공지능 적용 현황, 2021)

시장전망(목표시장 규모 및 전망)

  • 글로벌 AI 플랫폼 시장을 살펴보았을 때, 텍스트 인식 기반 시장은 2022년 491억 5,000만 달러 규모에서 2027년 1,917억 9,000만 달러 시장성장률 31.3%에 이를 것으로 전망함
  • 연구 및 학술 관련 인공지능 시장은 2022년 1,089억 달러 규모에서 2027년 4,233억 달러 시장성장률 31.2%로 전망함
글로벌 AI 플랫폼(텍스트 인식) 시장 규모 전망 그림 2 글로벌 AI 플랫폼(텍스트 인식) 시장 규모 전망
글로벌 AI 플랫폼(학술) 시장 규모 전망 그림 3 글로벌 AI 플랫폼(학술) 시장 규모 전망

지재권현황

권리현황 등록(출원)번호 발명의 명칭
등록 10-1243057 학술논문 XML 풀텍스트 생성을 위한 자동화 입력 시스템 및 방법

활용분야

  • XML 논문 구축
  • 자동화 기반 입력 시스템
  • 전자저널 출판

활용제품

  • 학술출판물
  • 정보 서비스 제공 플랫폼
  • 기계학습 데이터 생성기
상담번호 0504-1361-0000