언론 보도트위그팜, 80억원 규모 ‘ 인공지능(AI) 학습용 데이터 구축 사업’의 천만 문장 번역 말뭉치 구축 사업 수행기관 선정

트위그팜(대표 백선호)은 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관하는 ‘ 인공지능(AI) 학습용 데이터 구축 사업’의 ‘한영 구어체 및 기술과학 번역 말뭉치’ 구축 사업과 ‘방송 및 전문분야 다국어 번역 말뭉치’ 구축 사업의 수행기관으로 선정됐다.



트위그팜은 2016년도에 설립된 회사로서 번역 플랫폼인 ‘지콘 스튜디오’와 이메일 기반의 뉴스레터 플랫폼인 ‘헤이버니’를 자체적으로 개발∙운영하고 있다. ‘지콘 스튜디오’와 ‘헤이버니’의 기반 기술이면서 본 사업에서 활용되는 정제기, 검수기, 번역기를 포함하고 있는 신경망 기반 언어 처리 엔진인 ‘레터’를 연구하고 있는 연구기업이다.


이번 사업은 신경망 기반 번역기 연구 개발 및 번역 플랫폼인 지콘 스튜디오를 운영하고 있는 트위그팜과 사업 관리 전문 기관인 악티보를 중심으로 수행된다. 또한 전문 번역회사인 렉스코드, 푸르모디티, 에퀴코리아와 전문 통∙번역사 양성 기관인 한국외국어대학교, 중앙대학교의 교수진과 학생들이 전문 번역을 수행하고, 한국표준협회와 함께 구축한 데이터를 검수한다.


백선호 트위그팜 대표는 “데이터 전처리 작업은 상당 부분 자동화가 되었지만 아직까지도 수작업이 많이 필요한 것이 사실.”이라며, ”사회적 기업인 에프엔제이와 함께 사회적 약자인 경력 단절 여성, 장애인이 이러한 작업을 수행할 수 있도록 교육과 일자리를 제공할 예정이다”라고 밝혔다.


트위그팜은 번역 말뭉치 구축 사업에 적극적으로 임하고 있다. 기계 번역기를 만들고 있는 회사로서 고품질의 번역 말뭉치가 신경망 기반의 번역기를 만드는 데 필수적임을 알고 있기 때문이다. 이번 사업에서는 학습에 유용한 원문 데이터를 선별∙정제하고, 원문과 번역문으로 구성된 데이터 이외에 번역기 학습에 활용될 수 있는 라벨링 데이터도 추가로 구축하고자 한다.


백선호 대표는 이번 사업을 통해 “데이터 부족으로 신경망 기반 기계 번역기 연구 개발이 어려운 한국어 번역기의 연구 환경을 개선하고자 한다.”고 말했다.

(주)트위그팜

주소 : 서울특별시 강남구 도곡로 3길 27 (동일빌딩) 10층 (06253)
사업자등록번호 : 556-81-00254 | 대표 : 백선호

© 2020 Twigfarm Co., Ltd

(주)트위그팜

주소 : 서울 종로구 종로 6(서린동) 6층 (03187)
사업자등록번호 : 556-81-00254 | 대표 : 백선호


© 2020 Twigfarm Co., Ltd