www.joonseok.net
Recommendation systems /
Data Mining - 박사
Google에서 Computer Vision 제안
Video Understanding / Multimodal video modeling
대규모 비디오 관련 연구 - challenging
Google Mission
Organize the world's information and make it accessible and useful
세상의 모든 정보를 구성하고 모든 사람들이 접근할 수 있으며 유용하게 사용할 수 있게 한다.
Google Research
We tackle the most challenging problems in Computer Science and related fields.
구글 문화
구골 (10의 100 제곱) -> 구글
구골 플렉스 (10의 구골제곱) -> 구글플렉스
아침, 점심, 저녁 제공 (4성급 호텔?)
Micro Kitchen (?)
직원들이 앉아만 있는 것이 아니라 갈 곳이 있어야 한다. - 수다 -> 새로운 아이디어 (선순환)
자전거 널려져 있음.
대표 및 임직원들의 회의에 정직원들이 자유롭게 Q&A - 투명하게 답 (목요일 오후 4시, 전 세계 office에서 볼 수 있게 하기 위해서)
볼링장, 테니스,
근무 시간에 테니스 대회가 잡힘. 일은 원하는 시간 원하는 장소에 하는 것. 취미생활 역시 알아서
이번 분기동안 너는 무엇을 했는가.
Google Office - 언어별로 지사 하나씩
항시 채용
https://careers.google.com/jobs/results/
채용절차
0) (채용 담당자와 전화)
6년 전 한 해 200만명 지원?
1) Phone screening interview
2) Onsite interview: Invited to Google HQ or regional office
구글 초청시 비행기, 숙박비 지원
5명 구글 직원을 봄 (아바타 : 무슨 질문 & 무슨 답변 & 기대 답변 & 의견)
3) Review by hiring committee and leadership
4) Offer extension
지원 관련
1) internship -> full-time
인턴은 현재 학생이어야 함.
2) 한국지사에서 시작
미국은 취업 비자받기 어려움. 무작위 추첨?
3) US 기관에서 석박사 얻기
미국 석사 1년 반?
Coding Interview
모호한 질문, 생각 능력
Coding / Design : Google Map / Open-ended research
Internship Programs
실제 프로젝트에 참여
회사 문화와의 경험
Open publication이 매우 중요하다고 여기는 회사
애플 - 폐쇄적
회사를 결정할 때 보수보다 회사 문화에 영향을 많이 받음.
실리콘 벨리에서 살아남기
Impact / Responsibility / Flexibility
시간은 상관없음. F를 받으면 회사 아웃.
탑 20위 박사를 하기 위해서는 탑 컨퍼런스 1 저자 1개 이상은 있어야 하는 현재 상황....
20명 뽑는데 2000명 지원 (WoW!)
실리콘 밸리의 IT 회사들과 한국 IT 회사들의 가장 큰 차이점
잘하는 사람과 못 하는 사람과의 차이가 큼 - 열심히 일을 함. (동기부여)
연봉
stock
성과급
실리콘밸리 회사들끼리 사내 문화
빨리빨리 성과..... 그러나 한국보다는 편하다
계획적 3개월, 6개월, ... 3년 계획
1년 계획별로 목표를 다 채우면 목표를 높게 잡아서 실패를
시너지
스타트업 - 생존의 문제 워라밸 없음...
다른 전공이어도 잘 해내는 분들이 많음.
영어는 여전히 어렵지만 공부.
미국 회사 - 영어에 약간 관대함. Diversity
5년 전망 - 당장 올해도 어려움.
구글 서치 모델을 키워서 뭐든지 잘 쓰일 수 있는 큰 모델
업무에 있어서는 외향적인 사람. 사생활 노터치. 친구 만드는 것이 조금 힘듦
내향적인 사람도 외향적인 사람도 잘 지냄.
홈디포 ㅋ
국내석사학위 취득자 취업
알고리즘 대회
Amazon, Facebook 채용 이벤트
해외 지사가 있는 회사에 들어가서 transfer
Figure skating / Winter sports / Ice rink / Pair skating
사람은 직관을 통해 이야기할 수 있음
컴퓨터는 3 channel로 구성된 pixel 이미지 Frame들의 연속
사람들의 이해 방식을 컴퓨터에게 가르치고 싶음.
창작자/시청자의 의도
Applications: YouTube Video Discovery
몇 개인지 모름
적재/적소/적시 검색
Content/Metadata/Viewer signals -> Fuser -> Topic (추천 시스템에서 다룰 것)
Applications: Personal Media Collections
Lots of videos / No labels / No metadata / No viewer signals
Google Photo 최근에 사용되었음에도 10배 이상 많음 Scalability
label도 없고 title도 없고 나 혼자 보고
앞으로 더 필요
Privacy / Copyright 문제
Collaborative Deep Metric Learning (CDML)
Goal : We'd like to learn a content-aware video embedding preserving video-video similarity using collaborative filtering.
Overview
Video Embedding -> 여러 일
Feature Extraction
1) Frame 일부 추출 Image feature extractor -> Pooling -> L2 -> Video feature -> FC [Freeze]
2) Audio 일부 추출 Audio feature extractor -> Pooling -> L2 -> Audio feature -> FC [Freeze]
1)+2) Fuse -> L2 -> Final Embedding 빠름
Triplet Loss : Anchor / Negative / Positive
2015 CVPR
Collaborative Filtering
나뿐 아니라 다른 user의 좋아요/싫어요에 따라 추천 시스템이 적용
Related Video Graph
Personalized Video Recommendation
작업 : 본 기록에 따르면 Q개의 video를 봤고 가장 관련 있는 것을 추천줌.
Q : Watch History
V : Candidate set
ex) 5B
Q와 V 내적 : 너무 많음. 100ms 안에 못함.
prefiltering으로 V 개수를 줄여도 힘듦. 무식한 방법
내적의 평균 -> 평균의 내적 -> time complexity가 2차 -> 1차 단, max aggregation은 불가능
Video Annotation / Classification
2017~2018 CPU만 가지고 활용할 수 있었던 과거 작업
Deep Bag-of-Grames(DBoF)
Data/Model Parallelism
MoE (Mixture of Expert) classifier
Large MoE Training
Application
Google Photo video annotation
Content safety on YouTube
초기 목표 : 사람들이 많은 비디오를 보고 수익을 올리는 것
이에 따라 자극적/유해한 비디오 올림 <- 장기적으로 경계해야 함. (2017)
긴급 프로젝트 : 나쁜 비디오 선별 - 지금도 진행 중
Graph Clustering Metric Learning
2020 CVPR 후속 논문
CDML 한계점 : Batch size를 키워야 함 - 메모리 부족
negative mining 시 아무거나 고르는 것이 아니라 효과적인 negative sampling이 필요
작은 training set size에서도 잘 작동하며 큰 사이즈와도 비슷한 수준.
sampling is matter 샘플링이 중요하다!!!
Platform 회사
Top AI conferene에 publish된 논문은 매년 늘어나며 다른 회사들 대비 높음
연구
Optimzier
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [Heo et al. ICLR 2021]
Machine Learning: Interpretability
Keep CALM and Improve Visual Feature Attribution [Kim et al. ICCV 2019]
Machine Learning: Continual Learning
Rainbow Memory: Continual Learning with a Memory of Diverse Samples [Bang et al. CVPR 2021]
Online Continual Learning on Class Incremental Blurry Task Configuration with Anytime Inference [Koh et al. arXiv 2021]
Visual Representation: Vision Transformer
Rethinking Spatial Dimensions of Vision Transformers [Heo et al. ICCV 2021]
Rethinking Channel Dimensions for Efficient Model Design [Han et al. CVPR 2021]
Visual Representation: Image Recogntition
Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels [Yun et al. CVPR 2021]
Visual Representation: Detection
ViDT: An Efficient and Effective Fully Transformer-based Object Detector [Song et al. arXiv 2021]
Multimodal Representation: Multimodal PE
Probabilistic Embeddings for Cross-Modal Retrieval [Chun et al. CVPR 2021]
LM and NLP
What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [Kim et al. EMNLP 2021]
GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [Yoo et al. EMNLP 2021]
NeuralWOZ: Learning to Collect Task-Oriented Dialogue via Model-Based Simulation [Kim et al. ACL 2021]
KLUE: Korean Language Understanding Evaluation. [Park et al. NeurIPS 2021]
최초 한국어 이해 평가 데이터셋 KLUE 구축
Generative Models: I2I
Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing [Kim et al. CVPR 2021]
Rethinking the Truly Unsupervised Image-to-Image Translation [Baek et al. ICCV 2021]
Generative Models: Font Generation
Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts [Park et al. ICCV 2021, AAAI 2021]
Generative Models: Clustering
Contrastive Fine-grained Class Clustering via GANs [Kim an Ha, arXiv 2021]
Speech Recognition: SLU
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding [Kim et al. ICASSP 2021]
CLOVA 서비스
CLOVA CareCall
CLOVA Note, Dubbing
CLOVA Lamp
HyperCLOVA
국내/글로벌 AI 경쟁 환경
1) 치열한 국내외 AI 경쟁
2) 확보 필요 AI 기술 폭발적 증가
3) 사내 R&D 리소스 부족
4) 글로벌 presence & 채용 강화 필요
서울대 & 카이스트 & HUST & PTIT와 연구센터
Complex Physical Task에서 효과적으로 푸는 것에 대한 설명
(.... 지쳐서 쓰는 것 포기 ...)
1. Basic of Deep Learing
2. DNN & Backpropagation
3. CNN
4. RNN
실습 코드
https://github.com/fastscience-ai/DL_tutorial_AIAI2022
미세먼지 실습
AirKorea
https://www.airkorea.or.kr/index
추천 시스템은 사용자가 의사결정을 하는데 도움을 주는 소프트웨어 어플리케이션
명백하게 / 간접적으로 관련성, 새로움, 놀람의 기준으로 선호를 추천해줌.
예시
Amazon / Coupang 비슷한 상품들을 제공
Netflix 추천시스템에서 중요한 회사 컨텐츠 추천
Apple Music 음악추천
United 항공사에서도 추천시스템을!
Fackbook 친구추천
Linkedin 사람 추천
Google / Naver 위치정보 기반 검색 결과 추천
App/Web Search
Online Dating
광고 vs 추천
추천은 Personalized
추천 시스템의 목표
1. Recommending good items
2. Optimizing utility
3. Predicting ratings
4. Ranking items
정확도가 떨어져도 되지만 원치 않는 것을 보여주지는 않아야한다.
Recommender System - Content-based Models (CB), Collaborative Filtering (CF), Hybrid Models (CB+CF)
Collaborative Filtering (CF) - Memory based / Model-based
YouTube vs Netflix
YouTube는 누구나 동영상을 올리 수 있기 때문에 meta 데이터가 없음 - Netflix와 같은 방식은 위험할 수 있음
similarity 고려한 계산
Memory-based Approaches
User-based Collaborative Filtering row 기반
Item-based Collaborative Filtering column 기반
item similarity는 user similarity 대비 안정적
Model-based Matrix Factorization
수학적 가정으로 진행
Rank 1 form으로 문제를 잘 해결하려고 하는 방안 고안
Rank k model Generalization
Neural-Net 이후의 추천 시스템 방식
추천쪽은 급격한 성과 향상을 기대하기 어려웠음.
왜 그럴까
가설 1) 복잡하지 않아서 전통적인 모델로도 충분 - 거의 풀린 문제
가설 2) 너무 복잡해서 찾아내는 것은 지금으로도 어려운 문제
User Vector / Item Vector를 Input으로 활용해서 Embedding - Layers - Output
미미한 향상
Autoencoder 활용
Collaborative Denoising Autoencoders (CDAE) MF 대비 미미한 향상
GRU
GRU4Rec
BERT
BERT4Rec
Upstage의 고민
Arxiv 구현
현실은 잘 되지 않는 코드들
데이터의 힘
AI Pack 누구나 쉽게 사용할 수 있게 함.
OCR/추천/뉴럴 검색/ ... Pack
모두 함께 성장하기 위한 고객/멤버/회사
https://meshkorea.net/kr/index.html
물류처리
비지니스에서 AI 활용기 경험 공유
결론
유통 물류의 과제들을 AI를 통해 해결하고자 합
비지니스에 AI 를 접목할 때에는 단순히 AI 모델을 잘 만드는 것이 전부가 아님
AI의 산업화를 위해서는 여러 기반 infrastructure 및 운영 practice들이 잘 셋업되어야 함
다양한 상황에 대해 빠르고 scalable하게 AI를 활용할 수 있음
RL : 연속적인 결정문제를 푸는 것
예가 아닌 경험에 의한 환경
simulation 환경과 Real World 환경이 같도록 맞춰 Transfer Learning의 효용성을 높힘.
Objective / state / action(policy) / reward
reward 최대화
ex) Robot Locomotion / Atari Games / Go
Reward 디자인에 따라 다른 결과를 초래함.
Trajectory : state/action/reward의 연속적인 기록
미래의 reward는 discounted future reward를 통해 받고 이를 최대화하도록 action을 시행함.
Policy
Deterministic Policy / Stochastic Policy
Value Function
Action-Value Function
Model : Model-based RL (env가 주어짐, 드문 경우) / Model-free RL (env가 주어지지 않음.)
Policy : On-policy / Off-policy
Q-learning
(적기 까다로움...)
0000