아이공의 AI 공부 도전기

AIAI 2022 Online Workshop Summary & Review

 

 

     

 

 

Day 1

9:00~10:30 Working at Google - 이준석 교수님 (Google / 서울대)

 

www.joonseok.net

Recommendation systems /

Data Mining - 박사

 

Google에서 Computer Vision 제안

Video Understanding / Multimodal video modeling

대규모 비디오 관련 연구 - challenging

 

Google Mission

Organize the world's information and make it accessible and useful

세상의 모든 정보를 구성하고 모든 사람들이 접근할 수 있으며 유용하게 사용할 수 있게 한다.

 

Google Research

We tackle the most challenging problems in Computer Science and related fields.

 

구글 문화

구골 (10의 100 제곱) -> 구글

구골 플렉스 (10의 구골제곱) -> 구글플렉스 

아침, 점심, 저녁 제공 (4성급 호텔?)

Micro Kitchen (?)

직원들이 앉아만 있는 것이 아니라 갈 곳이 있어야 한다. - 수다 -> 새로운 아이디어 (선순환)

자전거 널려져 있음.

대표 및 임직원들의 회의에 정직원들이 자유롭게 Q&A - 투명하게 답 (목요일 오후 4시, 전 세계 office에서 볼 수 있게 하기 위해서)

볼링장, 테니스,

근무 시간에 테니스 대회가 잡힘. 일은 원하는 시간 원하는 장소에 하는 것. 취미생활 역시 알아서

이번 분기동안 너는 무엇을 했는가.

Google Office - 언어별로 지사 하나씩

 

항시 채용

https://careers.google.com/jobs/results/

 

Build for Everyone - Google Careers

Careers at Google - find a job at Google. Look inside engineering jobs at Google.

careers.google.com

 

채용절차

0) (채용 담당자와 전화)

6년 전 한 해 200만명 지원?

 

1) Phone screening interview

 

2) Onsite interview: Invited to Google HQ or regional office

구글 초청시 비행기, 숙박비 지원

5명 구글 직원을 봄 (아바타 : 무슨 질문 & 무슨 답변 & 기대 답변 & 의견)

 

3) Review by hiring committee and leadership

 

4) Offer extension

 

지원 관련

1) internship -> full-time

인턴은 현재 학생이어야 함.

 

2) 한국지사에서 시작

미국은 취업 비자받기 어려움. 무작위 추첨?

 

3) US 기관에서 석박사 얻기

미국 석사 1년 반?

 

Coding Interview

모호한 질문, 생각 능력

Coding / Design : Google Map / Open-ended research

 

Internship Programs

실제 프로젝트에 참여

회사 문화와의 경험

Open publication이 매우 중요하다고 여기는 회사

애플 - 폐쇄적

 

회사를 결정할 때 보수보다 회사 문화에 영향을 많이 받음.

 

실리콘 벨리에서 살아남기

Impact / Responsibility / Flexibility

 

시간은 상관없음. F를 받으면 회사 아웃.

 

탑 20위 박사를 하기 위해서는 탑 컨퍼런스 1 저자 1개 이상은 있어야 하는 현재 상황....

20명 뽑는데 2000명 지원 (WoW!)

 

11:00~12:30 실리콘 밸리의 AI 연구동향과 커리어 - 이준석(Google), 이준용(Databricks), 이효동(Google), 장명하(Meta/Facebook), 장혜진(Amazon)

 

실리콘 밸리의 IT 회사들과 한국 IT 회사들의 가장 큰 차이점

잘하는 사람과 못 하는 사람과의 차이가 큼 - 열심히 일을 함. (동기부여)

 

연봉

https://www.levels.fyi/

 

Levels.fyi | Salaries & Tools to Level Up Your Career

Search 50k+ salaries for different tech companies, job titles, career levels, and locations. Explore our tools to help you get paid more!

www.levels.fyi

stock

성과급

 

실리콘밸리 회사들끼리 사내 문화

 

빨리빨리 성과..... 그러나 한국보다는 편하다

계획적 3개월, 6개월, ... 3년 계획

1년 계획별로 목표를 다 채우면 목표를 높게 잡아서 실패를

시너지

스타트업 - 생존의 문제 워라밸 없음...

 

다른 전공이어도 잘 해내는 분들이 많음.

 

영어는 여전히 어렵지만 공부. 

미국 회사 - 영어에 약간 관대함. Diversity

 

5년 전망 - 당장 올해도 어려움.

구글 서치 모델을 키워서 뭐든지 잘 쓰일 수 있는 큰 모델

 

업무에 있어서는 외향적인 사람. 사생활 노터치. 친구 만드는 것이 조금 힘듦 

내향적인 사람도 외향적인 사람도 잘 지냄.

홈디포 ㅋ

 

국내석사학위 취득자 취업

LinkedIn

알고리즘 대회

Amazon, Facebook 채용 이벤트

해외 지사가 있는 회사에 들어가서 transfer

13:30~15:00 Large-scale Video Understanding - 이준석 교수님 (Google / 서울대)

 

Figure skating / Winter sports / Ice rink / Pair skating

사람은 직관을 통해 이야기할 수 있음

컴퓨터는 3 channel로 구성된 pixel 이미지 Frame들의 연속

사람들의 이해 방식을 컴퓨터에게 가르치고 싶음.

 

창작자/시청자의 의도

 

Applications: YouTube Video Discovery

몇 개인지 모름

 

적재/적소/적시 검색

Content/Metadata/Viewer signals -> Fuser -> Topic (추천 시스템에서 다룰 것)

 

Applications: Personal Media Collections

Lots of videos / No labels / No metadata / No viewer signals

 

Google Photo 최근에 사용되었음에도 10배 이상 많음 Scalability

label도 없고 title도 없고 나 혼자 보고

앞으로 더 필요

Privacy / Copyright 문제

 

Collaborative Deep Metric Learning (CDML)

Goal : We'd like to learn a content-aware video embedding preserving video-video similarity using collaborative filtering.

Overview

Video Embedding -> 여러 일

Feature Extraction

1) Frame 일부 추출 Image feature extractor -> Pooling -> L2 -> Video feature -> FC [Freeze]

2) Audio 일부 추출 Audio feature extractor -> Pooling -> L2 -> Audio feature -> FC [Freeze]

1)+2) Fuse -> L2 -> Final Embedding 빠름

Triplet Loss : Anchor / Negative / Positive

2015 CVPR

 

Collaborative Filtering

나뿐 아니라 다른 user의 좋아요/싫어요에 따라 추천 시스템이 적용

Related Video Graph

 

Personalized Video Recommendation

작업 : 본 기록에 따르면 Q개의 video를 봤고 가장 관련 있는 것을 추천줌.

Q : Watch History

V : Candidate set

ex) 5B

Q와 V 내적 : 너무 많음. 100ms 안에 못함.

prefiltering으로 V 개수를 줄여도 힘듦. 무식한 방법

내적의 평균 -> 평균의 내적 -> time complexity가 2차 -> 1차 단, max aggregation은 불가능

 

Video Annotation / Classification

2017~2018 CPU만 가지고 활용할 수 있었던 과거 작업

Deep Bag-of-Grames(DBoF)

Data/Model Parallelism

MoE (Mixture of Expert) classifier

Large MoE Training

 

Application

Google Photo video annotation

Content safety on YouTube

초기 목표 : 사람들이 많은 비디오를 보고 수익을 올리는 것

이에 따라 자극적/유해한 비디오 올림 <- 장기적으로 경계해야 함. (2017)

긴급 프로젝트 : 나쁜 비디오 선별 - 지금도 진행 중

 

Graph Clustering Metric Learning

2020 CVPR 후속 논문

CDML 한계점 : Batch size를 키워야 함 - 메모리 부족

negative mining 시 아무거나 고르는 것이 아니라 효과적인 negative sampling이 필요

 

작은 training set size에서도 잘 작동하며 큰 사이즈와도 비슷한 수준.

sampling is matter 샘플링이 중요하다!!!

 

15:30~17:00 Research in NAVER CLOVA in Era of Hyperscale AI - 하정우(NAVER CLOVA)

 

Platform 회사

Top AI conferene에 publish된 논문은 매년 늘어나며 다른 회사들 대비 높음

 

연구

Optimzier

AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [Heo et al. ICLR 2021]

 

Machine Learning: Interpretability
Keep CALM and Improve Visual Feature Attribution [Kim et al. ICCV 2019]

 

Machine Learning: Continual Learning
Rainbow Memory: Continual Learning with a Memory of Diverse Samples [Bang et al. CVPR 2021]

Online Continual Learning on Class Incremental Blurry Task Configuration with Anytime Inference [Koh et al. arXiv 2021]

 

Visual Representation: Vision Transformer
Rethinking Spatial Dimensions of Vision Transformers [Heo et al. ICCV 2021]

Rethinking Channel Dimensions for Efficient Model Design [Han et al. CVPR 2021]

 

Visual Representation: Image Recogntition
Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels [Yun et al. CVPR 2021]

 

Visual Representation: Detection
ViDT: An Efficient and Effective Fully Transformer-based Object Detector [Song et al. arXiv 2021]

 

Multimodal Representation: Multimodal PE
Probabilistic Embeddings for Cross-Modal Retrieval [Chun et al. CVPR 2021]

 

LM and NLP
What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [Kim et al. EMNLP 2021]

GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [Yoo et al. EMNLP 2021]

NeuralWOZ: Learning to Collect Task-Oriented Dialogue via Model-Based Simulation [Kim et al. ACL 2021]

KLUE: Korean Language Understanding Evaluation. [Park et al. NeurIPS 2021]

최초 한국어 이해 평가 데이터셋 KLUE 구축

 

Generative Models: I2I
Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing [Kim et al. CVPR 2021]

Rethinking the Truly Unsupervised Image-to-Image Translation [Baek et al. ICCV 2021]

 

Generative Models: Font Generation
Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts [Park et al. ICCV 2021, AAAI 2021]

 

Generative Models: Clustering
Contrastive Fine-grained Class Clustering via GANs [Kim an Ha, arXiv 2021]

 

Speech Recognition: SLU
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding [Kim et al. ICASSP 2021]

 

CLOVA 서비스

CLOVA CareCall

CLOVA Note, Dubbing

CLOVA Lamp

 

HyperCLOVA

 

국내/글로벌 AI 경쟁 환경

1) 치열한 국내외 AI 경쟁

2) 확보 필요 AI 기술 폭발적 증가

3) 사내 R&D 리소스 부족

4) 글로벌 presence & 채용 강화 필요

 

서울대 & 카이스트 & HUST & PTIT와 연구센터

 

17:00~18:00 Towards Solving Complex Physical Tasks Via Learning Methods - Joseph Lim (카이스트)

 

Complex Physical Task에서 효과적으로 푸는 것에 대한 설명

 

 

(.... 지쳐서 쓰는 것 포기 ...)

 

Day 2

 

9:00~10:30 DNN, CNN, RNN - 김수경 박사님 (PARC)

 

1. Basic of Deep Learing

2. DNN & Backpropagation

3. CNN

4. RNN

 

11:00~12:30 Machine Learning for Climate Science - 김수경 박사님 (PARC)

 

실습 코드

https://github.com/fastscience-ai/DL_tutorial_AIAI2022

 

GitHub - fastscience-ai/DL_tutorial_AIAI2022: Code for Climate AI Lecture series

Code for Climate AI Lecture series. Contribute to fastscience-ai/DL_tutorial_AIAI2022 development by creating an account on GitHub.

github.com

 

미세먼지 실습

AirKorea

https://www.airkorea.or.kr/index

 

에어코리아

 

www.airkorea.or.kr

 

13:30~15:00 Overview of Recommendation Systems - 이준석 교수님 (Google / 서울대)

 

추천 시스템은 사용자가 의사결정을 하는데 도움을 주는 소프트웨어 어플리케이션

명백하게 / 간접적으로 관련성, 새로움, 놀람의 기준으로 선호를 추천해줌.

 

예시

Amazon / Coupang 비슷한 상품들을 제공

Netflix 추천시스템에서 중요한 회사 컨텐츠 추천

Apple Music 음악추천

United 항공사에서도 추천시스템을!

Fackbook 친구추천

Linkedin 사람 추천

Google / Naver 위치정보 기반 검색 결과 추천

App/Web Search

Online Dating

 

광고 vs 추천

추천은 Personalized

 

추천 시스템의 목표

1. Recommending good items
2. Optimizing utility
3. Predicting ratings
4. Ranking items

 

정확도가 떨어져도 되지만 원치 않는 것을 보여주지는 않아야한다.

 

Recommender System - Content-based Models (CB), Collaborative Filtering (CF), Hybrid Models (CB+CF)

Collaborative Filtering (CF) - Memory based / Model-based

 

YouTube vs Netflix

YouTube는 누구나 동영상을 올리 수 있기 때문에 meta 데이터가 없음 - Netflix와 같은 방식은 위험할 수 있음

 

similarity 고려한 계산

 

Memory-based Approaches

User-based Collaborative Filtering row 기반

Item-based Collaborative Filtering column 기반

item similarity는 user similarity 대비 안정적

 

Model-based Matrix Factorization

수학적 가정으로 진행

Rank 1 form으로 문제를 잘 해결하려고 하는 방안 고안

Rank k model Generalization

 

Neural-Net 이후의 추천 시스템 방식

추천쪽은 급격한 성과 향상을 기대하기 어려웠음.

왜 그럴까

가설 1) 복잡하지 않아서 전통적인 모델로도 충분 - 거의 풀린 문제

가설 2) 너무 복잡해서 찾아내는 것은 지금으로도 어려운 문제

 

User Vector / Item Vector를 Input으로 활용해서 Embedding - Layers - Output

미미한 향상

Autoencoder 활용

Collaborative Denoising Autoencoders (CDAE) MF 대비 미미한 향상

GRU

GRU4Rec

BERT

BERT4Rec

 

15:30~16:15 Making AI Beneficial - 김성훈 (Upstage)

 

Upstage의 고민

 

Arxiv 구현

현실은 잘 되지 않는 코드들

데이터의 힘

 

AI Pack 누구나 쉽게 사용할 수 있게 함.

OCR/추천/뉴럴 검색/ ... Pack

 

모두 함께 성장하기 위한 고객/멤버/회사

 

 

16:16~17:00 Harmony of Business Engineering, Data Science, and AI - 김명환 (메쉬코리아 CTO)

 

https://meshkorea.net/kr/index.html

 

MESH KOREA

 

meshkorea.net

 

물류처리

 

비지니스에서 AI 활용기 경험 공유

 

결론

유통 물류의 과제들을 AI를 통해 해결하고자 합

비지니스에 AI 를 접목할 때에는 단순히 AI 모델을 잘 만드는 것이 전부가 아님

AI의 산업화를 위해서는 여러 기반 infrastructure 및 운영 practice들이 잘 셋업되어야 함

다양한 상황에 대해 빠르고 scalable하게 AI를 활용할 수 있음

 

Day 3

 

 

9:00~10:30 Reinforcement Learning and Applications 1 - 김수경 박사님 (PARC) - 중간 skip

 

RL : 연속적인 결정문제를 푸는 것

예가 아닌 경험에 의한 환경

 

simulation 환경과 Real World 환경이 같도록 맞춰 Transfer Learning의 효용성을 높힘.

 

Objective / state / action(policy) / reward

reward 최대화

ex) Robot Locomotion / Atari Games / Go

Reward 디자인에 따라 다른 결과를 초래함.

 

Trajectory : state/action/reward의 연속적인 기록

미래의 reward는 discounted future reward를 통해 받고 이를 최대화하도록 action을 시행함.

 

Policy

Deterministic Policy / Stochastic Policy

 

Value Function

Action-Value Function

 

 

Model : Model-based RL (env가 주어짐, 드문 경우) / Model-free RL (env가 주어지지 않음.)

Policy : On-policy / Off-policy

 

Q-learning

 

(적기 까다로움...)

 

11:00~12:30 Reinforcement Learning and Applications 2 - 김수경 박사님 (PARC) - skip

1:30~3:00 Reinforcement Learning for Scientific Research - 김수경 박사님 (PARC) - skip

3:30~4:15 AI를 통한 User Experience의 확장 - 장전선(NCSOFT NLP 센터 센터장) - skip

4:15~5:00 Machine Learning for Ad-Tech and Beyond - 박세혁(MOLOCO) - skip

 

 

0000

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading