Naver CLOVA에서 주관한 Naver AI에 대한 소개하는 자리로 생각보다는 짧은 세미나들로 구성되어 있습니다. 개인적으로 하정우 책임리더님의 AI Research, HyperCLOVA의 활용 4 데이터 증강에 대해 관심이 갔고 그에 대해 더 중점적으로 시청하려는 계획을 가졌습니다만 저는 시간상 앞에만 조금 더 집중해서 듣고 정리했습니다.
본 행사 홈페이지 링크 : https://naver-ai-now.kr/
영상 다시보기 : https://tv.naver.com/ainow
CLOVA : 네이버와 라인의 AI 기술을 연구하는 조직
자연어 처리, 음성 인식, 음성 합성 OCR 등 독자적 개발을 통해 클로바 램프, CareCall 등을 제공했다. 그러나 한정된 자원 속도 - 스케일을 확보하는 문제가 있다.
모델의 일반화와 확장을 통해 짧은 시간과 적은 리소스를 사용하고 이를 통한 기존의 AI 발전과는 다른 양상을 보임
Big AI 파라미터의 수가 반도체의 집적도와 비슷(해결 가능성이 높아진다.)
대형 AI 모델에 대한 글로벌 기업들의 투자가 늘어나고 있다.
무한 경쟁의 NAVER AI의 시작
HyperCLOVA : BIg AI에서 Naver가 선보이는 AI의 새로운 기술을 선보인다.
1. 슈퍼컴퓨터 인프라(AI Factory)
2. 데이터(고품질의 방대한 데이터, 특히 언어 모델 GPT, BERT etc)
3. AI 전문가
10개 이상에 적용하여 AI 서비스를 제공할 예정
연구, 윤리, 파트너십에 기반한 기술 발전을 진행할 예정
점진적인 모델 규모를 204 Billion 모델 사용, 우리말을 잘 이해하고 구사할 수 있는 초대형 한국어 인공지능 기술
지도학습의 한계를 극복한 준지도학습, 비지도 학습을 통해 큰 모델의 학습이 가능하게 함. 대규모의 다양한 데이터를 이용하여 대규모 AI 모델 개발이 가능했다.
인공지능의 성능은 데이터의 양, 연산의 규모, 모델의 파라미터 수 3가지가 병목이 되지 않을 때 무한히 향상된다.
1. 맥락을 이해하는 자연스러운 대화 - 사용자의 만족도 인지, 호응 가능, 이전 질문/응답을 고려하여 대답함(과거의 맥락 이해 가능)
2. 창작을 도와주는 글쓰기 - 축약어도 잘 만들어냄, 적합도 99%
3. 정보 요약 - 검색을 요약하여 보내줌
4. 데이터 생성
HyperCLOVA의 가장 큰 특징 : AI의 활용이 가장 쉬워지고 빨라졌다는 점
Multi-Modality가 가능하도록 확장할 예정
일반 GPU 서버로는 이제는 불가능한 대규모 AI 모델 - 슈퍼컴퓨팅 인프라 환경의 필요성
700PF급 국내 최고 성능의 AI 연구 슈퍼컴퓨터
글로벌 Top 500 list 상위권에 해당함
1120 GPU, 140 Computing node, 3800 Cables, 올 플래시 기반 스토리지
= 대략 일반 서버 3000대
1. 고성능 병렬 GPU 클러스터
2. 초저지연 고대역폭 네트워크 - 오버헤드 없이 사용할 수 있도록
3. 고성능 병렬 아키텍처 스토리지
네이버의 슈퍼컴퓨팅 인프라 운영
1. 클라우드 인프라 운영 역량 - 최적화
2. 데이터센터 구축 노하우
3. 모니터링 플랫폼과 운영 자동화 - 효과적 관리
향후 계획
슈퍼컴퓨팅 클러스터 확장, 다양한 AI 가속 솔루션 모색
혁신적인 AI 생테계 구축 - 서비스 핵심 플랫폼 역할 - CLOUD Platform
Naver Cloud : https://www.ncloud.com/
데이터의 구성
기반 지식 - 검색 허용된 문서(뉴스 카페 블로그 etc), 신뢰할 수 있는 오픈 리소스, 전문 지식
중복 제거(bias 지양), 개인정보 제거 혹은 비식별화 처리, 유의미하도록 재구조화, 메타정보 추가, 핵심 영역 선별, 저품질 문서 필터링
한국어 데이터 : 1.96TB 데이터 - 5600억 토큰
기술연구 관점에서 숙제가 많다.
새로운 R&D
공개된 기술 적용 vs 자체 기술 개발
공개된 기술은 뒤떨어질 수 밖에 없다.
매출의 25%를 R&D에 투자
연구 - 서비스의 선순환 구조(연구 - 엔진 - 프로덕트 - 서비스 - 데이터 - 연구)
최근의 AI 연구 동향 : Big
모델의 크기, 데이터 규모, 연구 전문가 규모, 공간 스토리지, 네트워크 인프라스트럭처 규모 모두 Big
기존 아카데미 - 회사 중심으로 가도록 바뀜
새로운 연구 협렵 생테계 구축을 위해
AI 탑 컨퍼런스 논문 발표 작년 43개 (국내 최대 규모) - 인턴 연구원과 함께했다. - 서비스에 적용
연세대 Best Award Paper
네이버 글로벌 AI R&D 벨트 형성, 서울대, 카이스트와 연구센터 협업
Agenda Research, 네이버 AI 윤리 준칙 프로젝트 소개
1. 사람을 위한 AI 개발
2. 다양성의 존중
3. 합리적인 설명과 편리성의 조화
4. 안전을 고려한 서비스 설계
5. 프라이버시 보호와 정보 보안
https://www.navercorp.com/value/aiCodeEthics
사례 1. CLOVA CareCall
달라진 일상에서 국민의 건강과 안전을 케어하는 도구 - CLOVA Carecall - 코로나 보건소의 업무 부담 감소 (성남시 상담 건수 10만건, 현 10개 지방자치단체 도입)
CLOVA AiCall을 바탕으로
사례 2. CLOVA Lamp
문자 인식, 이미지 인식, 음성 합성, 음성 인식, 자연어 처리
BigAI의 더 많은 가능성
학계와 AI 윤리 협업을 진행할 예정, 스타트업에도 노하우를 제공할 예정
-------------박우명-------------
인터넷 상 한국어 언어 분포가 작다(0.6%)
GPT-3 언어 분포에서 역시 한국어는 적은 양이다(0.1%)
기술 종속, 한국어 서비스의 한계로 작용될 수 있다.
네이버는 한국어 모델을 새롭게 만들 수 밖에 없었다.
학습할 데이터 수집, 정제
데이터 : 560B 토큰 전체, 300B 토큰 학습
코퍼스 믹서 : 전처리시 데이터 종류별 비율 자동 조절
시리얼라이저 : 하둡 스트리밍 적용 / 처리 속도 약 170배 개선
3중 병렬화 : 데이터, 모델, 파이프라인
모델 크기 발전 속도가 GPU 발전 속도보다 빠르다.
다운스트림 테스크 : NSMC, KorQuAD
모델이 커짐에 따라 성능 향상을 이뤄냄
-------------김보섭-------------
토큰화
기계가 문장을 이해하려면 어떠한 단위 Token으로 문장을 끊어 읽을 것인지를 정해야함
다양한 토큰화 방법, 장단점이 있음
서브워드Subword로 끊어 읽으면 규칙 기반의 장점들을 취하면서 단점을 줄이고 데이터 기반한 알고리즘 BPE을 통해 학습 가능함.
BPE 자주 나오는 문자열을 병합하며 진행하는 방법 but 메모리를 많이 차지
Morpheme-Aware Byte-Level BPE가 적합할 것이라 판단
HyperCLOBA의 언어모델은 학습용 말뭉치의 1%로부터 학습된 Morpheme-Aware Byte-Level BPE Tokenizer로 문장을 처리함
-------------김형섭-------------
지표
모델이 생성한 문장은 얼마나 유창한가
언어 생성 능력에 비해 효과적인 지표를 찾기는 어렵다.
문제점
1. 생성 문장과 레퍼런스 문장 간의 유사성이 문장 품질을 보장하지 않는다.
2. 서로 다른 설정(특히 어휘 집합)에서 학습한 모델들을 Perplexity(PPL)로 비교하는 것이 부적절함
모델이 클수록 더 잘 속인다.
기존 사이클 파이프라인
문제점의 사용자 리서치 -> 데이터 수집, 분석, annotation, 검증 -> 모델 구조 학습, 평가 -> ML 인프라 / 프로덕션 서빙 -> 에러 분석, 모니터링, 사용자 분석
스탭마다 필요한 전문가가 다 다름
HyperCLOVA Studio 사용해서 예제만을 가지고 쉽고 빠르게 개발이 가능하다.
편하게 AI 개발이 가능하다.
도메인 지식과 경험, 상상력, 이를 표현하는 예제가 중요하다.
쇼핑 리뷰 요약 - 한줄 요약 프로세스
질의 응답(Free-form Question Answering)
목적지향형대화, 질의응답, 일상대화 -> 자연스러운 대화, 보다 많은 지식
1. 대화 이해 - 대화 이해를 위한 컨텍스트 주입
2. 시스템 응답 선택 - 시멘틱 검색을 이용한 응답 선택
3. 시스템 응답 생성 - 적절한 시스템 응답 생성을 위한 조율 방법
Future Work
실서비스 적용을 위한 최적화
멀티턴 대화에 자연스러운 적절한 VUX 탐색
품질 향상과 효과적인 제어를 위한 최신 기술 적용
VUX(Voice UX)
PCU
정보를 대화 시스템에 녹여내기
효율적인 NLP 학습 방법을 위한 데이터 증강 소개
1. 자연어 처리 패러다임의 변화
기존 : 사전학습된 언어모델 PLM : Pretrained Language Model를 이용한 Fine Tuning 패러다임
초대형 사전학습된 언어모델 HyperCLOVA을 파인튜닝 패러다임에 적용하는 것이 문제
초대형 모델의 파라미터 저장의 확장성 문제
In-context Learning을 통한 NLP 문제 직접 해결이 가능한 방법이 가능하다.
파인튜닝 대신 프롬프트로 다루는 방안이 있으나 이 역시 한계점이 존재
이에 HyperMix 제시
Back translation 및 TMix와 비교하여 효용성 입증
HyperMix : HyperCLOVA의 파인튜닝 패러다임과 프롬프트 기반 방법의 대안으로 데이터 증강 구조 제안
향후 온라인 인퍼런스 하기 어려운 문제에 우선적 도입할 예정이며 텍스트 데이터 증폭 서비스 구상
이산 공간에서의 프롬프트 엔지니어링 : 적절한 설명문과 적절한 수의 예시의 중요성, 편향Bias 다루기
연속 공간에서의 프롬프트 엔지니어링 : P-튜닝 / 프롬프트 튜닝
학습 - 모델 서빙(운영) - HyperCLOVA App
우선 일반적인 학술 컨퍼런스보다 짧은 시간 다양한 사람들을 위해 조금 더 쉽게 풀어설명한 세션들이 많았으며 기업의 홍보와 제품 소개, 비전이라는 부분을 전체적으로 소개한 장이었다고 생각합니다. 물론 초반과는 다르게 후반부에서는 저의 집중력이 떨어지기도 했고... 시간상 집중할 수 없었던 것 때문에 온전한 소감은 아닙니다.
전반적으로 HyperCLOVA의 설계 이유, 설계에 대한 효용성, 성능에 대한 자부심을 가지는 부분들이 많았습니다. 실제로 내용을 봤을 때 한글에 대한 BigAI를 설계하기 위해 많은 노력을 기울인 것이 느껴질 정도입니다. 그럼에도 상용화적 측면에서 아직 이렇다. 이럴 것이다. 이렇게 할 계획이다.의 형태로 진행되다 보니 아쉬움이 있었던 것은 사실입니다. 예로 ClovaCareCall에 대한 내용을 언급했으나 이것은 BigAI 이전에도 제공했던 예시이기에 개인적으로 약간의 아쉬움이 남았습니다. 다양한 커뮤니티 다양한 리소스들을 협업한다는 것 자체는 기업의 입장에서 그만큼 인프라를 구축했다는 의미로 들릴 수 있으나 너무 많았고 중복 또한 아쉬웠습니다. 특히 part 1
그럼에도 전체적인 영상에 버퍼링이나 문제는 거의 없었으며 원활한 진행과 자막, 그리고 실제 HyperCLOVA에 대한 가능성을 크게 열어둔 프로그램 구성으로 예상됩니다. 실제로 이를 사용할 사람들, 사용한 사람들의 후기 등을 보고 실제로 AI를 쉽게 사용할 수 있어 사업적인 부분에 도움이 되었는지 어떻게 하면 더 도움이 될지에 대한 부분을 지켜봐야할 것으로 예상합니다.
막상 또 좋은 사례가 나옴으로써 이에 대한 가치평가가 더 향상할지도 모른다는 생각을 합니다.
앞에 주구장창 뭐라고 떠들었지만 다른 것들 다 떠나서 HyperCLOVA 개인적으로 재미있게 들었다는 생각을 합니다. Naver Deview의 한 세션 구성들을 모아 들었다정도의 느낌?
추가 느낀점이라면 NLP 논문을 경외시했으나 좀 더 집중해서 많이 읽어야할 것 같다.....는 정도
번외) LG, KT를 비롯한 다른 회사들도 BigAI를 만들겠다 뛰어들었다는 뉴스를 최근에 보았는데... 물론 개인적으로는 많은 회사들이 도태되지 않기위해 돈을 투자한다는 개념은 좋다고 생각하면서도 그만큼의 리소스를 들여 모두가 이쪽으로 뛰어드는 것이 돈이 효율적으로 쓰이고 있는 것인가에 대한 의문이 드는 것 또한 사실이다. 개인적인 의견일 뿐... 너무 엄격한 잣대로 판단하지 말아주시길 바랍니다.
또한 다른 의견이 있다면 댓글 달아주세요