Machine Learning과 MapReduce는 천생연분
일반적으로 많은 데이터를 학습 시킬때 메모리나 프로세서의 부족으로 학습에 많은 시간이 걸리는 고질적인 문제가 있다. 학습 데이터의 차원이 늘어날 때마다 필요한 메모리는 기하급수적으로 늘어나기 때문인데, 코드 레벨에서나 알고리즘 레벨에서 복잡도를 줄이는건 새로운 알고리즘을 창안하지 않는이상 거의 불가능 하다.(뭔 약간의 코드 핫스팟을 찾아서 최적화를 시켜주는건 가능하겠지만.) 그래서 분산처리를 사용해 시간(전체) 복잡도를 줄이고자 하는 논문이 스텐포드에서 나왔다. […]
계속 읽기