[CS336] Lecture2. PyTorch, Resource Accounting

·
LLM
딥러닝 모델을 학습할 때 보통 모델 구조나 성능에 집중하지만, 실제로는 메모리와 연산 자원(resource)이 훨씬 더 중요한 제약 조건이 됩니다. 특히 대규모 모델을 다루게 되면 이 모델이 주어진 자원으로 학습 가능한지 자체가 가장 먼저 해결해야 할 이슈입니다. 이번 글에서는 Stanford CS336 강의를 기반으로, PyTorch 관점에서 딥러닝 학습 시 어떤 요소들이 메모리와 연산량을 결정하는지를 정리해보았습니다. 단순한 개념 설명이 아니라, 실제로 모델을 학습할 때 반드시 알아야 하는 resource accounting 관점에 초점을 맞추려고 합니다. - 딥러닝 학습 = 텐서가 차지하는 메모리 + 그 텐서들에 대해 수행하는 FLOPs 계산- 학습 전에 메모리·연산량·시간을 계산하는 것 중요 - ..