나는 clawdbot(moltbot, openclaw) 에게 얼굴을 선물했다.

나는 clawdbot(moltbot, openclaw) 에게 얼굴을 선물했다.

우리가 일반적으로 시스템에 소프트웨어를 설치하고 사용해보면서 이슈가 생기면 소스코드 기반 그 동작원리를 이해하고 직접 해결하거나 구글링 하여 해결 실마리를 찾아서 해결하는 과정이 정석이긴 했다. 그리고 요즘엔 제미나이에 상황과 로그를 주고 해결해 달라고 하는게 정석이 되버렸다. 소프트웨어는 여러 주변 환경에 따라서 영향을 받아 이슈가 생기는 경우가 많다. 그래서 도커를 쓰는거긴 하지만 LLM이 혈액이 되서 동작하는 clawdbot […]

계속 읽기

MSI EdgeXpert (DGX Spark) 내 거대 테스트 파일

처음 구매했을때 기본 시스템 디스크 용량이 1TB 라서 아껴서 사용하고 있었다. 하지만 아무리 최적화를 해도 아래 용량에서 줄지 않아서 이상하던 찰라 … 루트에 보니 아래와 같은 파일이 있다. 찾아보니 이 파일은 “시스템 하드웨어 테스트(Burn-in Test) 또는 스토리지 I/O 성능 테스트 도구가 생성한 임시 파일” 이라는 것이다. 생성 날짜가 작년 10월 28일 … 출시일이었던 11월 초 […]

계속 읽기
DGX Spark 콘솔용 대쉬보드

DGX Spark 콘솔용 대쉬보드

DGX Spark 대쉬보드는 처음 볼때는 그럴싸해 보이나 거의 기능이 없어서 대쉬보드의 역할을 하지 못한다. 너무 성의 없다. ㅜㅜ cpu 사용량도 없고, disk io도 없어서 학습 하면서 모니터링 하기엔 쓸모가 없는 수준이다. 또한 nvidia-smi는 어떤가? 대쉬보드 정보에서 메모리 사용량이 빠지고 소비 전력과 온도 정도가 추가가 되어 있다. 역시 반쪽짜리다. LLM 학습을 하면서 가장 많이 활용하는게 btop […]

계속 읽기
GenAI 시대의 UX 설계: 피드백 루프 설계와 이를 위한 인간의 비판적 사고의 중요성

GenAI 시대의 UX 설계: 피드백 루프 설계와 이를 위한 인간의 비판적 사고의 중요성

어제 Carnegie Mellon의 AI 사용에 대한 비판적 사고 연구 논문을 읽으며, 작년 말 GenAI 기반 서비스의 UX 프로토타입을 만들었던 경험이 떠올랐습니다. 당시 고민했던 많은 부분들이 이 연구에서 실증적으로 확인되었고, 이를 기존에 봤던 GhostWriter 연구, Cursor vs Copilot 개인적 사용 사례, 그리고 Science Advances의 AI 기반 글쓰기 생산성 연구와 함께 종합해보니 뭔가 통합된 통찰을 얻을 수 […]

계속 읽기
DMLC 맴버로 초청받다.

DMLC 맴버로 초청받다.

지난 2월 온전히 1개월을 모두 뉴질랜드 가족여행에 쏱아 붓고 있던 중 뉴질랜드 푸카키 호수 마운트 쿡 빙하 아래 있던 (전화도 잘 터지지 않던)오지 캠핑장에서 작은 메일을 받았다. DMLC에 초대를 하고 싶다는 메일이었다. DMLC(Distributed (Deep) Machine Learning Community ) DMLC는 대표적으로 데이터 사이언스를 한다면 알고 있을 xgboost를 만든 개발자 집단이라 보면 된다. xgboost는 지금도 그렇지만 케글과 […]

계속 읽기

Text Analysis Developers’ Workshop 2018 참석 후기

작년부터 1년엔 한번씩 Text Analysis Developers’ Workshop에 참석을 하게 되었고 작년 런던 정경대에서의 워크샵 참석 이후 NYU의 워크샵에 다시 초대되었다. 워크샵 참석을 위한 숙박비 및 비행티켓 등은 NYU와 rOpenSci에서 펀딩을 받았다. 기간동안의 일비, 로밍 비용은 SK Telecom에서 지원해주었다. 세계적으로 많이 쓰이는 텍스트 분석 오픈소스 개발자들을 대상으로 초대가 이루어 졌고, 초청받은 사람만 참석 가능한 특징을 가지고 […]

계속 읽기

딥러닝 기반 한글 자동 띄어쓰기 API 공개

형태소 분석 이전에 문자열의 정상 유무는 이후 분석 품질에 지대한 영향을 미친다. 최근 음성인식 정확도가 높아짐에 따라 많은 음성데이터가 Text로 변환되고 분석되기 시작했는데, 이를 위해 잘 동작하는 띄어쓰기 엔진은 텍스트 분석에서 거의 필수적인게 되어 버렸다. 또한 트위터나 페이스북의 사용자 생성 데이터를 분석하기 위해서 일종의 정규화 작업이 필수이며 양질의 띄어쓰기 엔진 확보가 점차 중요해지고 있다. 개인적으로 […]

계속 읽기

KoNLP v.0.80.0 버전 업(on CRAN now)

KoNLP v.0.80.0 릴리즈 on CRAN 3년 5개월만의 업데이트다. 금번 업데이트에서 가장 큰 변화는 기존 36만에서 약 120만 형태소 사전을 탑재했다는 것이고, 이들 사전을 사용자들이 원하는 형태로 사용할 수 있게 하는데 방점을 두었다. 총 66개의 카테고리 사전을 보유하고 있으며 사용자들의 분석 대상에 맞게 카테고리 사전을 선택해 조합하여 사용할 수 있게 하였다. 추가 제공 사전 정보 : […]

계속 읽기

어떻게 하면 싱싱한 데이터를 모형에 바로 적용할 수 있을까? – Bayesian Online Leaning

예측 모형 운영의 문제점 Concept Drift 예측 모델링이나 머신러닝 영역에서 쓰이는 용어로서 시간이 지나면서 예측 성능이 달라지는 목적변수의 통계적 특징을 의미함 이런 특징은 시간이 지나면서 예측성능이 점차적으로 떨어지는 부작용을 일으킴 복잡한 사회 현상의 한 단면을 예측하자고 할 경우 사회현상에 대한 모든 변인을 고려해 모델링 하는 것은 불가능하기 때문에 이러한 실제 예측모형을 구축할때 점차적으로 성능이 달라지는 […]

계속 읽기

국토교통부 실거래가 데이터 크롤링 코드

국토교통부 실거래가 데이터 스크래핑 코드를 공유한다. 블로그에 썼던 데이터 분석에 사용한 데이터는 친분이 있는 분으로 부터 받은 데이터인데, 새로운 매매 데이터가 올라가면서 매번 요청하기 힘들것 같아서 코드를 작성해 봤고, 아래와 같이 간단하게 스크래핑 코드를 만들 수 있었다. 데이터 스크래핑 코드는 항상 그렇듯이 임시방편적이고, 코드가 깨끗하지 않다. 그래서 좀 색다르게 magrittr 방식으로 코딩해 봤으나 그다지 나아 […]

계속 읽기