240718 Today I Learn지표를 왜 알아야 할까?데이터 분석가는 객관적으로 데이터와 상황을 설명하기 위해 수치로 된 자료를 많이 사용하게 되고, 이는 곧 지표(= 정량적 데이터)이기 때문이다. 데이터 분석가는 문제가 생기면 목적에 맞는 지표를 정의하고 만들어낸 수치를 기반으로 해석하고 전달하는 업무를 진행하게 된다. 이렇게 만들어진 지표들을 모아서 해당 데이터를 필요할 때 즉시 활용해야하고 지속적인 활용이 필요한 경우 대시보드를 제작하게 됨.비즈니스 모델과 데이터 베이스데이터 분석가는 어느정도로 비즈니스 모델을 이해해야 할까?전체적인 구조를 이해 : 데이터의 흐름과 데이터 분석이 개입할 수 있는 지점에 대한 부분을 알 수 있다.다양한 비즈니스 모델에 대해 알아보며 또 다른 기회를 창출할 수 있..
전체 글
240717 Today I Learn병렬처리와 분산처리병렬처리 vs. 분산처리병렬처리 : 여러개의 core에서 동시 다발적으로 일을 나누어서 처리Multiprocessing이나 joblib이 흔히 사용.sklearn의 njobs가 이를 제어하는 기능.분산처리 : 네트워크를 통해 연결된 여러 대의 컴퓨터(노드)가 각각의 작업을 수행하는 것Spark를 포함해 Ray, Dask 등의 라이브러리를 사용할 수 있음.병렬 처리 vs Vectorize💡 한 기기의 메모리 안에서 처리가 가능한 규모라면, 굳이 Spark를 사용하는 것보다는 연산을 최적화하는 것이 더 낫다.Numpy(Pandas 포함)는 벡터화 연산을 통해 단순 반복작업을 굉장히 빠르게 처리할 수 있음.스파크에서도 개별 머신은 벡터화를 수행하여 속도를..
240715 Today I Learn스파크란?💥 Spark?SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진. 클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 실행될 수 있으며 다양한 데이터 소스에 대해 실행될 수 있음.→ 대용량 데이터를 다루는 것에 특화된 프레임 워크파이썬과 데이터메모리 RAM = 작업 공간기억된 정보를 읽어내기도 하고 다른 정보를 기억시킬 수도 있는 메모리로서, 컴퓨터의 주기억장치, 응용 프로그램의 일시적 로딩(loading), 데이터의 일시적 저장 등에 사용됨.컴퓨터를 끄면 RAM에 올라간 데이터는 삭제 SSD = 저장 공간장기적으로 데이터를 보관(저장)하는 공간컴퓨터..
240716 Today I Learn API 통신의 개념개념API(Application Programming Interface)소프트웨어 구성 요소가 서로 통신할수 있게 하는 방식(메커니즘).→ 프로그램과 프로그램을 연결시켜주는 통신의 방법 간단한 호출구문을 통해 데이터를 송신받을 수 있음.오픈 API 란, 기업 내 데이터를 일반 사용자에게 공개하는 것역할 및 특징권한관리많은 데이터가 적재(저장)되는 DB 에는 모든 사람들이 이 DB에 접근하면 보안상의 이슈가 발생할 수 있음.API 는 이를 방지하기 위해 접근이 허용된 로컬에게만 권한을 부여하는 ‘중간관리자’ 역할을 수행프로그램 간 (원활한) 통신 지원API 는 자칫 어려운 방식으로 데이터를 수집할 수 있는 부분을 키값을 통해 간편한 통신을 지원해당 키..
실전 프로젝트 : What's Next?💖 발표 후 받은 피드백대시보드 활용 방안에 대한 데모가 잘 만들어 진 것 같다.배경의 가운데 그라데이션 때문에 회색 점이 잘 보이지 않아서 아쉬웠다.데이터 분석에 있어 굉장히 디테일했다. 특히 결측치 제거 부분에서 단순하게 처리하지 않고 하나씩 따져가면서 어떤 것들을 제거해야 할지, 어떻게 제거할지 고민한 것이 잘 보였다. 물론 너무 빨리 지나가서 자세히 살펴보지 못했음. (어쩔수 없는건 인정)그 밖에도 다양한 상관관계 분석과 제작사, 언어 등 구분을 나눠서 EDA 진행한 것이 좋았다. 다만, 그래프를 보여줄 때 글자가 작아서 잘 보이지 않는 그래프들이 있어서 아쉬웠다.전반적인 분석의 로직과 분석에 있어서 디테일하게 신경쓴 것들은 잘 했다고 봤다.큰 변수인 코로..
실전 프로젝트 : What's Next?Figma 이용 배경 만들기메인 대시보드Scatter Plot 그리기1. 투표 수(x축) 대비 수익(y축) 블록버스터 영화(글로벌 매출 4억 달러 이상)매출이 4억달러 이상인 블록버스터 영화만 필터링y축 profit 은 Revenue(매출) - Budget(예산)평점대에 따라 색상 지정`FLOOR([Vote Average])`를 이용 '평점'이라는 계산된 필드를 새롭게 생성이를 색상에 넣어 평점대에 따라 색상이 지정되도록 함.2. 투표수(x축) 대비 수익(y축) 매출과 예산이 모두 0보다 큰 상업영화만 필터링Blockbuster(핑크) vs. General(회색) : 집합기능을 활용 색 구분. 블록버스터 영화들의 특징이 무엇인지 파악할 수 있도록 함.고평점(★, 7..