본문 바로가기

전체 글

[업무자동화][python] 회사 엑셀 파일 가공하기 (feat. groupby, pivot_table) 지난번 DRM 보안이 걸린 엑셀 파일을 읽어오고, 가공하는 것에 이어서 group by와 pivot_table을 통해 데이터를 집계하는 과정이다.  # 2019~2020 기간동안 plant 고유개수, 지출결의금액 합, 지출결의금액 평균 구하기 예시1.  #groupby 사용pd.DataFrame(df_result.fillna("").groupby(['품목군','L2','L3', '송장년도']).agg({ 'Plant' : 'nunique', '지출결의금액' : ['sum', 'mean']}).round(0) )#pivot_table 사용df_result... 더보기
[업무자동화][python] 회사 엑셀 파일 가공하기 (feat. xlwings) 백만년만의 포스팅...이제 더이상 쓸 일이 없을 것이라고 생각했던 파이썬을 회사에서 데이터 가공업무에 사용하게 되었는데..자주 쓰지 않으니 또 사용할 일이 생기면 기억하고자 아주 오랜만에 포스팅하게되었다! 우선 데이터 가공업무에 엑셀 파워쿼리, 파워BI가 아닌 잘 하지도 못하는 파이썬을 굳이 사용하게 된 이유는 바로 엑셀 문서 보안 DRM 때문이다.파이썬의 xlwings 모듈로 DRM 문서를 불러오는 것이 가능했고 이게 내가 찾아낸 유일한 해결방법이었기에.. 앞으로 프로젝트를 하면서 고객사는 분명 방대한 양의 데이터를 엑셀로 제공할 것이고...엑셀로 취합하다 틈만나면 죽어버리는 엑셀에 답답해서 죽지 않기 위해 가공 방법을 기록하고자 한다.  # 1. 데이터 구성 및 설명  보통의 회사가 데이터를 제공해주.. 더보기
[python] 무신사 상품 리뷰 크롤링1. 상품 url/제목/가격 가져오기 (BeautifulSoup, 정규표현식) 오늘은 백만년만에 블로그 포스팅을 해보려한다.. 무신사 상품 리뷰 크롤링은 이번년도 상반기에 비저블 활동을 하면서 마지막 조별 과제에서 하게되었다! (이게 벌써 반년이 다 되어가다니) 물론 결과적으로 주제가 바뀌어 크롤링 결과는 쓸모가 없게 되었지만..그래도 녹슬은 크롤링 감을 되돌리는데 좋은 기회가 되었다. 취직 이후 아예 이쪽 공부는 손을 놓아버리고 회사에 적응하느라 급급했었는데 (사실 아직도 적응 못함😅) 이번 포스팅을 시작으로 다시 새로운 맘으로 공부해보려고한다!!! 서론이 너무 길었네..바로 시작!! 일단 우리 조의 주제는 "무신사 스탠다드" 상품의 리뷰 분석이었다. 다들 알다시피 "무신사 스탠다드" 상품은 매우 많기에 상품의 리뷰를 긁어오기 위해서는 1) 각 상품의 제목과 url을 먼저 긁어온.. 더보기
게임 사용자 관리 비즈니스 시나리오 비저블 과제로 앱로그 데이터를 사용하여 비즈니스 시나리오를 작성해보았다! 비즈니스 시나리오로 들어가기 앞서.. 이 부분은 굉장히 편하게 일기 쓰듯이 기록했기에 시간이 없다면 건너뛰어도 좋다. 데이터 전처리를 왜 하게 되었는지, 어떤 영상에서 비즈니스 시나리오에 대한 영감을 얻었는지 기록했다. 아래의 더보기 버튼을 누르면 확인 가능하다. 더보기 1. 데이터 파악 생각보다 데이터 컬럼 수가 적었다 (사용자의 특성 데이터 혹은 방문 패턴에 대한 컬럼이 더 있었다면 다양한 분석을 해볼 수 있었을텐데..라는 아쉬움이 들었다.) 사용자의 패턴을 파악할 수 있는 컬럼이 사실상 Event Value의 mission 뿐이었는데 태블로에서 전처리하기가 매우 곤란했다!! ( 태블로의 분할 기능을 이용해 "selected_m.. 더보기
[Tableau] 쿠폰 성과 측정 대시보드 비저블 4주차 과제로 #RWFD의 데이터를 활용하여 쿠폰 성과를 측정하는 대시보드를 만들었다. 1. 데이터 https://data.world/markbradbourne/rwfd-real-world-fake-data/workspace/file?filename=Retail+Transactions.csv #RWFD Real World Fake Data - project by markbradbourne A new community project to curate amazing examples from the Tableau Community for real world applications. data.world 컬럼 Transaction Date : 거래 날짜 Transaction Hour : 거래 시간 Loca.. 더보기
[Tableau] 반품 고객 관리 대시보드 (비저블 합격!) 비저블 1차 서류는 주어진 슈퍼스토어 데이터를 가지고 기획안을 작성하는 일이었다. 나는 "반품 고객 관리 대시보드"를 기획하였고 최종 결과는 합격!! 특히, 감사하게도 우수 서류자로 뽑혀 발표하는 기회를 얻게되어 굉장히 뿌듯했다. 비저블이 궁금하다면 아래 링크를 참고하자. https://www.vizable.online/ Home | vizable 비즈니스 인텔리전스 커뮤니티 비저블 - 데이터 시각화 기반의 다양한 비즈니스 시나리오 프로젝트를 수행합니다 www.vizable.online 이 사진은 최종적으로 제출한 대시보드 이미지이다. 여기서, 슈퍼스토어 데이터를 통해 다룰 수 있는 주제는 매우 많지만 하필 반품을 택한 이유가 궁금할 것이다. 슈퍼스토어 데이터에는 주문/반품/인력 테이블이 존재했는데, 아.. 더보기
[Tableau] 와인회사의 RFM 타겟 마케팅 사용데이터 kaggle - Customer Personality Analysis 2012~2014 2년동안 고객들의 여러 특성들이 담겨있는 데이터 https://www.kaggle.com/imakash3011/customer-personality-analysis Customer Personality Analysis Analysis of company's ideal customers www.kaggle.com 나는 여기서 "와인구매"에만 초점을 맞추기로 했다. 사용변수 [인구통계학적 특성] ID: 고객의 고유 식별자 Year_Birth: 고객 생년월일 Education: 고객 교육 수준 Marital_Status: 고객의 결혼 여부 Income: 고객의 연간 가계 소득 Kidhome: 고객 가정의 자녀 수.. 더보기
[Tableau] 연도별 특정 월 기준으로 누적합 구하기, 증감에 따른 레이블 색 구분 목표1) 특정 월을 지정하면, 연도별로 그 특정월에 대한 누적합을 계산해야함 예를 들어, 4월로 매개변수를 설정하면, 2011년 4월까지 누적합, 2012년 4월까지 누적합 ... 2021년 4월까지 누적합 각각 계산되어야 한다. 목표2) 전년도 대비 누적합의 상승률 계산 -> 감소/ 증가에 따라 레이블 색 다르게 하기 1. 날짜 매개변수 설정 1) Year 문자열, 목록(2011~2021) 2) Month 문자열, 목록(01~12) 3) Year + Month (계산된 필드) : 위의 매개변수를 합친 날짜 생성 DATE(DATEPARSE('yyyyMM',[Year]+[Month])) 2. 필터로 사용할 부울 계산식 생성 1) f.Month : 필터에 올린 후 참만 체크 MONTH([연월]) 매개변수 날.. 더보기