KoBERT, KoGPT-2

KoBERT, KoGPT-2

About Me에 보면 아래와 같은 내 소개글이 있다. 오픈소스 NLP 관련 활동은 정말 나에게는 큰 기회와 감동, 경험을 줬던 활동이었다. 아직도 그 후광을 국가대표 AI 선발전에서 받고 있으니 말이다. 왜 오픈소스 덕이냐? KoBERT, KoGPT2는 지금은 개발이 멈춘 MXNet 이라는 프레임웍에서 학습이 되었다. 당시 MXNet은 분산 학습 퍼포먼스가 가장 좋은 프레임웍으로 알려져 있어서 멀티 노드 학습을 […]

계속 읽기
DGX Spark (MSI Edgexpert) 1TB 구매 이유 및 외장 SSD 확장

DGX Spark (MSI Edgexpert) 1TB 구매 이유 및 외장 SSD 확장

지난 11월 초에 DGX Spark 구매를 염두에 두었던 이유는 아래 두가지였다. 이를 위해 700만원짜리 머신을 자비로 구매하는것은 큰 고민이 필요했다. 물론 일전에 GTX 1080 GPU 두장이 들어간 머신러닝용 개인 머신을 구매했던 경험이 있고, 이 머신 덕분에 딥러닝을 업무를 시작하기 전에 스스로 학습할 수 있었다. 또한 이를 이용해 PyKoSpacing 이라는 라이브러리를 만들어 오픈할 수 있었다. 사실 […]

계속 읽기
AI, 인간 데이터 너머 ‘경험’으로: The Era of Experience

AI, 인간 데이터 너머 ‘경험’으로: The Era of Experience

AI 연구의 두 거장, ‘경험의 시대’ 선언 강화학습(RL) 분야의 세계적인 권위자 두 명이 AI의 미래에 대한 중요한 화두를 던졌습니다. 바로 리처드 서튼(Richard S. Sutton)과 데이비드 실버(David Silver)입니다. 이들은 수십 년간 기계가 ‘행동을 통해 배우도록’ 가르치는 강화학습 연구에 매진해왔습니다. 최근 컴퓨팅, 시뮬레이션, 딥러닝 기술의 발전과 RL 기반 제품의 성공에 힘입어, 이들은 AI 발전의 다음 단계를 “경험의 […]

계속 읽기

OpenAI의 Deliberative Alignment

OpenAI가 오늘 AI 안전성 확보를 위한 새로운 접근 방식인 Deliberative Alignment(DA)를 공개했습니다. 이는 AI 모델의 윤리적 판단과 안전성 확보에 있어 의미있는 진전을 보여주는 발표이고 리즈닝으로 성능을 극대화 하는 최근 추세와도 딱 맞는 접근 방법이라 생각합니다. 또한 DA는 안전성, 견고성, 일반화 능력 등 대부분의 중요 지표에서 기존 방식들을 크게 개선했으며, 특히 Jailbreak 방어를 위해 과도하게 응답을 […]

계속 읽기

21년 2월 2주

안녕하세요. 고감자 입니다. 블로그에서는 오랜만이네요. 한창 블로그를 많이 쓰던 때에 비교하면 거의 블로그는 방치 상태였는데, 그럼에도 불구하고 글쓰기의 묘미는 여전히 있다고 생각합니다. 그리고 공개되는 글이 없는 반면에 제가 개인적으로 정리하고 메모하는 글을 상당합니다. 그런데, 그러한 글들은 거의 공유되지 못하고 죽어버린 정보가 되는 경우가 많다는 생각이 들었습니다. 따라서 올해부터는 개인적으로 정리하고 소화하는 정보를 블로그에 정리해보고자 합니다. […]

계속 읽기
AI 연구/개발자로서 1년을 보내며

AI 연구/개발자로서 1년을 보내며

AI 연구/개발자로서 첫 1년.. 결과적으로 매우 의미있었습니다. DT조직에서 AI 조직으로 옮긴지 1년이 넘었다. 왜 옮겼는지 궁금한 분들은 이전 블로그 글에서 확인할 수 있다. 올해는 서비스 적용 가능한 대화 엔진을 만드는데 집중했는데, 생각지도 못하게 서비스에 적용하는 경험도 했으며,엔진의 컴포넌트를 평가하기 위해 참석한 국제 대회에서도 첫 참가에 2등의 성적으로 입상했다. Data Scientist로 오랫동안 일하고 고작 1년만에 이런 […]

계속 읽기

버트(BERT) 파인튜닝 간단하게 해보자.

작년 말에 GluonNLP 0.6버전 개발에 활발하게 참여하였는데, 그중에서 사용자들이 편리하게 사용할만한 부분에 대해 소개하기 위해 글을 써봤다. 다들 버트, 버트 하는데, 어떻게 사용할지 모를 분들에게 도움이 될 것이라 예상해 본다. 이 글은 MXNet-Gluon 기반으로 설명이 된다. 최근 훌륭한 한글 자료가 인터넷에 나왔으니 관심 있으신 분들은 먼저 참고하시길 바란다. 버트(BERT) 인간은 직접 혹은 간접 경험을 통해 […]

계속 읽기
DMLC 맴버로 초청받다.

DMLC 맴버로 초청받다.

지난 2월 온전히 1개월을 모두 뉴질랜드 가족여행에 쏱아 붓고 있던 중 뉴질랜드 푸카키 호수 마운트 쿡 빙하 아래 있던 (전화도 잘 터지지 않던)오지 캠핑장에서 작은 메일을 받았다. DMLC에 초대를 하고 싶다는 메일이었다. DMLC(Distributed (Deep) Machine Learning Community ) DMLC는 대표적으로 데이터 사이언스를 한다면 알고 있을 xgboost를 만든 개발자 집단이라 보면 된다. xgboost는 지금도 그렇지만 케글과 […]

계속 읽기

Attention API로 간단히 어텐션 사용하기

GluonNLP NLP쪽에서 재현성의 이슈는 정말 어려운 문제이다. 실제 모형의 아키텍처와 적절한 전처리 로직이 잘 적용 되었을때 성능이 도출되나 대부분 리서치에서는 전처리 로직에 대한 충분한 설명이 되어 있지 않다. 따라서 아키텍처의 이해보다는 전처리에 대한 문제 때문에 후속 연구가 진행되지 못하는 경우가 많다. 전처리의 이슈가 큰 또 다른 이유는 처리 로직의 복잡도 때문에 같은 로직이더라도 다양한 구현 […]

계속 읽기

딥러닝 프레임워크로 임베딩 제대로 학습해보기

“gensim이 아닌 직접 딥러닝 네크워크 구조를 구현해 임베딩을 성공적으로 학습해본 경험이 있는지요?” 이 글은 네트워크 구조의 임베딩 학습을 숫하게 실패해본 분들을 위한 글이다. 많은 온라인 문서에서든 책에서든 word2vec을 설명하는 부분에서 딥러닝 프레임워크 기반 그래프 구조로 설명을 한다. 게다가 코드와 학습까지 Keras와 같은 프레임워크로 동작하는 예제를 제공하나, 추출된 단어 벡터를 기반으로 Word Analogy나 정성적인 평가에 대한 […]

계속 읽기