본문 바로가기

CPU2

[SPARK] 병렬 처리, 분산 처리, Vectorize, CPU, GPU,Joblib 병렬처리병렬 처리는 주로 단일 머신 내의 여러 코어나 프로세서를 사용하여 작업을 동시에 수행하는 것여러개의 코어에서 동시다발적으로 일을 나누어서 수행하는 것 CPU는 여러 개의 코어(일꾼)로 이루어져 있고, 파이썬은 기본적으로는 1개를 사용보통 8코어, 회사 16~60코어여러개를 시키도록 나눠주는 것이 병렬처리 > 몇십대씩 이으면 수백코어로 사용 가능분산처리분산 처리는 네트워크를 통해 연결된 여러 대의 컴퓨터(노드)가 각각의 작업을 수행하는 것Spark를 포함해 Ray, Dask 등의 라이브러리를 사용할 수 있다Multiprocessing이나 joblib이 흔히 사용sklearn의 njobs가 이를 제어하는 기능CPU vs GPU스파크는 기본적으로 CPU를 사용하지만, GPU 기반의 병렬처리도 발달특히 .. 2024. 7. 18.
[SPARK] (중요)파이썬과 데이터 - RAM, Disk, CPU, Data type 파이썬이 터졌다일반적으로 컴퓨터 공학에서는 OOM(Out of Memory)이라 하며, 특히 대용량 데이터를 처리할 때는 자주 만나게 될 문제스파크든, 파이썬이든 데이터 관리는 중요한 부분이다. 메모리 : 기억 장치로, 굉장히 세분화가 되어있지만, 크게 RAM과 Disk(SSD)로 나눔RAM : 작업 공간데이터를 갖고 작업 하기 위해 우리는 데이터를 RAM이란 곳에 올림 (read_csv 등)여기에 OS(윈도우 등)와 기본적인 프로그램을 올리면 2~6GB 정도 차지컴퓨터를 끄면 RAM에 올라간 데이터는 삭제됨책상, 도마 Disk : 저장 공간장기적으로 데이터를 보관(저장)하는 공간컴퓨터를 꺼도, Disk의 데이터는 사라지지 않는다윈도우에서는 작업 관리자, 맥에서는 활성 상태 보기, 리눅스에서는 htop .. 2024. 7. 15.