언론기사

트위그팜, '인공지능 학습용 데이터 구축 지원사업' 수행기관 선정

2023-08-18

트위그팜이 지난 2020년도 이후 4년째 '인공지능 학습용 데이터 구축 지원사업' 수행기관으로 선정됐습니다. 관련 언론 기사들을 모아서 소개해드립니다.

엑스엘에이트(XL8), 과기부 ‘AI 학습용 데이터 구축 사업’ 수행기관 선정

엑스엘에이트(XL8, 대표 정영훈)가 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관하는 2023년 ‘인공지능(AI) 학습용 데이터 구축 사업’의 ‘국제학술회의용 전문분야 한영, 영한 통번역 데이터’ 수행기관으로 선정됐다. 엑스엘에이트는 이번 사업을 통해 인공지능 학습데이터를 활용하여 소통의 장벽을 없애기 위해 노력할 예정이다.

이번 사업은 엑스엘에이트 외에도 인공지능 자연어처리 기업 트위그팜과 액션파워, 번역 현지화 회사 캣벨컴퍼니, 에퀴코리아, 한샘글로벌, 이포넷, 인포랑 등 각 분야 전문 기관들이 함께 수행한다. 특히 주관기관인 트위그팜은 동영상, 웹소설 콘텐츠 현지화 솔루션 ‘레터웍스’를 운영하고 있으며, 지난 20년도 이후 계속해서 인공지능 학습용 데이터 구축 사업을 성공적으로 수행한 바 있다.

엑스엘에이트의 정영훈 대표는 “인공지능 기반 기계번역 솔루션은 미래의 번역시장을 획기적으로 혁신할 수 있을 것”이라며, “여러 분야의 정제된 데이터가 확보되고 공유되어야 국내 인공지능 산업이 발전할 수 있을 것”이라고 밝혔다. 한편, 엑스엘에이트는 구글과 애플의 핵심 AI 전문가들이 2019년 설립한 실리콘밸리의 테크 스타트업으로, 전 세계 다양한 영상 콘텐츠와 번역된 자막을 컴퓨터에 학습시켜 인공지능 기계 번역 엔진을 고도화하고 있다. 영화, 드라마 등 미디어 번역 종합플랫폼인 ‘미디어캣(MediaCAT)’ 을 개발운영하고 있다. 특히, 지난 2월에는 온라인 소통 플랫폼인 Zoom에 실시간 번역앱인 ‘이벤트캣 포 줌(EventCAT for Zoom)’을 런칭한 바 있다.

출처: 매일경제(https://mirakle.mk.co.kr/view.php?year=2023&no=591171)

플리토-트위그팜, AI 번역기 품질 평가 데이터 구축...초거대 AI 환경 조성 기대

인공지능 언어 데이터 전문기업 플리토(대표 이정수)가 자연어처리(NLP) 전문기업 트위그팜(대표 백선호)과 함께 AI 번역기 품질 평가를 위한 데이터를 공동 구축한다고 7일 밝혔다.

트위그팜이 주관사로 플리토를 비롯해 시스트란, 글나무, 에퀴코리아, 푸르모디티 등 총 5개 참여사로 구성된 컨소시엄이 한국지능정보사회진흥원(NIA)의 ‘다국어 번역 품질 평가 데이터’ 사업 협약을 체결했다.

플리토 참여 컨소시엄은 올 연말까지 △언어별 저작권 이슈 없는 신규 문서 확보 △언어별 번역 말뭉치 데이터 및 번역 품질 평가 데이터 구축 △데이터 및 구축 공정 품질관리 및 데이터 품질 검증 수행을 통한 고품질 데이터셋 구축 등을 수행할 계획이다.

글로벌 빅테크들의 생성형 AI 서비스 출시와 국내외 대기업들의 초거대 AI 투자가 본격화되는 가운데, 인공지능의 성능과 직결되는 고품질 데이터 구축과 기존 데이터의 품질 평가 시스템의 중요성이 대두되고 있다.

특히 언어권별 학습 데이터 수의 큰 격차를 극복하기 위해 기계번역(MT) 성능의 고도화는 필수인데, 지금까지는 ‘블루 스코어(BLEU Score)’와 같이 사람의 번역과 기계번역 결과 간 ‘단어 유사도’ 측정에 한정된 평가 기준으로 한계가 있었다.

이러한 한계를 극복하고 고품질의 대규모 병렬 말뭉치(코퍼스) 데이터를 구축하고자 트위그팜은 통합 크라우드소스 플랫폼을 운영하는 플리토와 손잡았다. 전 세계 약 1300만 유저의 플랫폼을 통해 양질의 최신 언어 데이터 확보가 가능하고, 특히 저작권 문제없는 적법성이 확보된 데이터 구축이 가능하다는 점에서 최적의 파트너라는 것이 트위그팜측 설명이다.

자체 AI 엔진과 플랫폼 번역가, 검증된 링귀스트팀을 모두 운영하면서, ‘국립국어원 한국어-외국어 병렬 말뭉치 구축 사업’을 3년 연속 수주한 플리토의 데이터 사업 경쟁력을 바탕으로 이번 사업의 성공적 완수를 위해 긴밀하게 협업하겠다는 입장이다.

이번 컨소시엄을 주관하는 트위그팜의 백선호 대표는 “지금까지 정부 주도의 대규모 말뭉치 데이터 구축이 지속되고 있었지만 정작 데이터의 품질을 평가하는 기술에는 다소 한계가 있었다”며 “초고품질 다국어 데이터 구축 및 품질 평가를 통해 초거대 AI 환경 조성에 기여하겠다”고 포부를 밝혔다.

참여사 플리토의 이정수 대표는 “이번 수행 과제에 자사의 글로벌 통합 플랫폼을 활용할 수 있게 돼 기쁘다. 플리토가 저작권 이슈 없는 고품질 다국어 데이터 구축에 차별적 경쟁력을 보유하고 있는 만큼, 사업의 성공적 완수를 위해 최선을 다하겠다”고 말했다.

출처 : 인공지능신문(https://www.aitimes.kr/news/articleView.html?idxno=28686)

시스트란, 과기부 ‘특허 및 기술과학분야 AI 학습용 데이터 구축 사업’ 수행기관 선정

㈜시스트란(SYSTRAN, 대표 김유석)이 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관하는 2023년 ‘인공지능(AI) 학습용 데이터 구축 사업’의 ‘특허 및 기술과학분야 한-중, 한-일 병렬 말뭉치 데이터’ 수행기관으로 선정됐다고 밝혔다.

시스트란은 이번 사업을 통해 특허 및 기술과학 분야 인공지능 기계번역 모델의 성능 향상을 목표로 하고 있다. 한국어와 중국어 ·일본어 간의 AI번역 모델 학습을 위한 양뱡향 데이터 구축으로 학습 데이터셋을 이용한 민간의 AI 번역 모델 개발 활용성 증대를 지원할 예정이다.

이번 사업은 시스트란 외에도 인공지능 자연어처리 기업 트위그팜과 플리토, 렉스코드, 솔트룩스 이노베이션 등 각 분야 전문 기관들이 함께 수행한다.

특히 주관기관인 시스트란은 세계시장에서 인정받고 있는 인공지능 번역 솔루션 글로벌 기업으로 2021년 특허청과 협력을 통해 ‘2021년 공공데이터(중한 특허 말뭉치 구축) 기업 매칭 지원사업’을 성공적으로 수행한 바 있다.

시스트란의 김유석 대표는 “이번 사업은 특허 및 기술과학 분야 용어 및 학습용 번역 데이터를 활용한 특화된 AI번역 모델 개발과 GPT와 같은 초거대 모델의 번역능력 강화 학습에 활용하고, 국내외 특허 검색 및 기술 조사 분석 서비스 기업들이 사용하는 특허 및 비특허 문서의 번역 품질을 향상시키는 등 원시데이터 활용성의 증대를 목적으로 한다”고 말했다.

이어 “인공지능 모델 개발 시 구축된 소스코드 및 구축된 말뭉치를 이용한 학습 매뉴얼 등을 상세하게 개발자 커뮤니티에 제공하여 다양한 분야에 쉽게 활용할 수 있도록 지원함은 물론 주관기관이 납품한 특허분야 솔루션을 사용하고 있는 특허청 및 민간기업, 클라우드 서비스의 상용 인공지능 번역 모델에 본 사업에서 구축된 학습데이터를 적용할 계획”이라고 덧붙였다.

한편, 시스트란은 1968년 창립 이후 현재까지 지속적으로 기계번역 기술을 개척해온 기계번역 시장의 글로벌 리더로서 세계최초 자체 개발한 AI 기반 신경망 기계번역(NMT) 기술을 상용화하여 시중의 기계번역 기업들에게 보급하고 있다. 수십 년간 축적된 다국어 처리 기술 노하우를 바탕으로 다양한 언어와 특허, 기술과학 등 산업별 도메인의 전문용어 최적화 AI 번역 솔루션을 공급하는 AI 기계번역 전문기업이다.

출처: BIGDATAnews(http://www.thebigdata.co.kr/view.php?ud=2023080816295987649aeda69934_23)

글나무, 2023 과기부 주관 ‘금융 분야 다국어 병렬 말뭉치 데이터 구축 사업’ 수행기관 선정

글나무㈜(대표 문선희)가 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 2023년 ‘인공지능(AI) 학습용 데이터 구축 사업’의 ‘금융 분야 다국어 병렬 말뭉치 데이터’ 과업의 수행기관으로 선정됐다고 28일 밝혔다.

이번 사업은 완성도 높은 과제 수행을 위해 글나무 외에도 각 분야의 전문기업이 컨소시엄을 이루었다. △금융 AI 번역 모델 개발 전문 글로벌 인공지능기업 시스트란, △금융 다국어 번역 전문기업 렉스코드, △딥러닝 기반의 자연어 처리 연구기업 트위그팜, △국내 유일 글로벌 LSP 100대 기업으로 선정된 콘텐츠 개발 및 번역 전문기업 한샘 등이 함께 과제를 수행한다.

글나무는 이번 사업을 통해 대량의 금융 분야 문서 수집 및 다국어 번역 말뭉치 구축으로 초거대 AI 도입 및 확산에 기여하고 금융 분야 기계번역 모델 성능 개선의 고도화를 목표로 한다.

글나무 컨소시엄은 사업 기간동안 금융 관련 문서를 공시정보, 뉴스기사, 학술논문, 규제정보, 보고서 등 5개의 카테고리에서 총 100만 건 이상의 원문을 수집하고, 영어, 일본어, 중국어, 베트남어, 인도네시아어 등 5개 국어를 언어별 각 50만 개씩, 총 250만 개 문장의 번역 데이터를 구축할 예정이다.

글나무 문선희 대표는 “글로벌 핀테크 투자가 확대되는 흐름 속에 한국핀테크지원센터 등 국내 핀테크 기업의 해외 진출을 지원하기 위해 인공지능(AI) 통번역 서비스 필요하며, 실시간 및 정확도 높은 통번역 결과물을 도출하기 위해 대량의 번역 데이터 구축이 필수다”라고 말했다.

이어 “번역기는 규칙 및 통계 기반을 지나 신경망 기술이 도입되었으나, 모델의 핵심 알고리즘은 크게 발전하지 못해 특화된 분야의 맞춤형 번역기 연구의 필요성이 확대되었다. 또한, 초거대AI는 모델의 학습 과정에서 파인 튜닝을 위해 라벨링 데이터를 이용하는 등 데이터를 얼마나 완성도 있게 공급하는 가에 따라 신뢰성 있는 결과를 도출할 수 있다. 이에 자사는 본 과제를 통해 금융이라는 특정 전문 영역에 대한 고품질의 대량 데이터를 구축하며 기계 번역 모델 개발과 학습, 그리고 다양한 평가지표 등의 연구 활성화에 앞장서고자 한다”며 향후 포부에 대해서도 밝혔다.

한편, 글나무는 2022년 한국지능정보사회진흥원의 ‘관광 음식 메뉴판 데이터’ 구축 과제를 주관하며 인공지능 기반 OCR 기술 향상과 한국 음식명의 외국어 번역 표기 표준화에 기여하였으며, 데이터 구축뿐만 아니라 과제 전반을 체계적으로 관리함으로써 과제수행결과에 대해 ‘우수’라는 높은 점수로 평가받으며 과제를 성공적으로 수행했다.

아울러 글나무는 AI 학습 데이터 구축 외에도 해외문화홍보원, 산업통상자원부, 서울특별시 등 공공기관의 외신 모니터링 및 다국어 번역을 수행하며, 국내 번역시장에서 번역의 표준화와 전문성으로 경쟁력을 갖춘 기업으로 입지를 확대하고 있다.

출처: G밸리뉴스(http://www.gvalley.co.kr/news/articleView.html?idxno=611744)
←  뉴스 리스트로 가기