모델 설계

모델링의 목적은 여러가지가 있겠지만, 일반적인 모델링의 목적은 미래에 대한 추정이다. 미래를 추정하는 방법은 여러가지가 존재한다. 전략 컨설팅에서는 전문가 의견 종합을 통해 추정하고, 통계청 및 경제 기관에서는 판매사원 의견 종합을 통해 선행지수를 예측한다. 또한, 고객과 맞닿고 있는 리테일에서는 고객에게 설문지를 돌리는 고객조사기법을 사용하기도하고, 데이터가 충분히 존재하는 곳에서는 회귀분석을 통한 기법도 활용한다.

목적값에 따른 Driver 선정 실시(모델링 설계)

  • 모델링 목적에 따라 타당하게 변수를 구성하였나: TOP-DOWN에 의해 설계된 모델링 로직이 맞는지 파악
  • 동일한 목적치를 구하더라도 여러개의 가능한 모델링 시나리오 존재 -> 프로젝트 목적에 가장 부합하는 시나리오 모델링 선정
    • 탑다운 방식 모델링이 타당할지, 바텀업 방식 모델링이 타당할지
    • 수요 측을 통한 Q 로직이 타당할지, 공급 측을 통한 Q 로직이 타당할지
    • 각 모델링을 통해 파악한 Value-Driver의 취득은 용이한지
  • 가장 High Level의 로직 고려 시, 단위를 맞추는 과정이 매우 중요하다. 예를 들어, SOEC 수전해 발전소 시장 규모를 모델링 한다고 할 때, SOEC 수전해 발전소 1기당 가격 * 향후 지어질 수전해 발전소 기수 로 모델링 하면 매우 멍청한 모델링이 된다. 왜냐하면 수전해 발전소 사이즈는 모두 제각각 일텐데 1기당 가격을 어떻게 균일하다고 가정할 것이며, 크기가 제각각이 기수를 단지 한 울타리에 있다고 1기로 인정할 수 있는지에 대한 의문이 들기 때문이다. 때문에 위와 같은 모델링에서는 SOEC 수전해 발전소 kw당 가격 * 향후 지어질 수전해 발전소 총 용량으로 단위를 맞추어 로직 설계해야한다.
  • 고객이 납득할 로직인가?

모델링의 두가지 방법: 탑다운, 바텀업

실제프로젝트에서 탑다운과 바텀업의 구분 중요성을 깨닳은 사례를 통해 각 프로젝트에서 더 맞는 방법의 모델링을 찾아보도록 하자. 이전 프로젝트에서 산업별(철강, 석유화학, 시멘트 등) 자가발전 중 수소 발전 용량 구하는 모델링을 실시한 경험이 있다.

탑다운 모델링의 경우

수소 발전 용량 = 산업별 전체발전용량 * 자가발전비율 * 무탄소발전비율 * 수소발전비율

위와 같은 식은 모집합에서 내려오는 모든 비율들을 구해야하기 때문에 무수히 많은 가정과 가설이 들어간다. 또한, 수소발전량이 직접적으로 구해지지 않아 직관적이지 않다.

바텀업 모델링의 경우

모집합에서 타겟을 쪼개 들어오는 탑다운 방식이 아니라, 바텀에 있는 값을 직접적으로 구해버리는 방법이다. 바텀업 모델링을 위해서는 왜 시장 Player 가 수소 발전을 하려고 하는지? 에 대한 동인(動因)을 고려하는 것이 핵심이다.

플레이어는 왜 수소 자가발전을 하려고 할까? 왜냐하면 탄소 발생량을 낮춰야 하기 때문이다. 그렇다면 수소 자가발전을 통해 얼마만큼의 탄소 발생을 절약해야하는 것일까? 이는 아래와 같은 바텀업 모델링으로 생각될 수 있다.

전체 탄소발생량 * (1-국가 허가한 탄소발생비율) * 탄소 절감에 필요한 재생에너지 발전량 * 수소발전비율

그외 탑다운과 바텀업 모델링의 예

  • 예1: 치약시장
    • 탑다운: 전체 미용 시장 * 치약시장
    • 바텀업: 전체인구 * 양치 가능한 인구비율 * 하루 양치 횟수 * 회당 치약 사용량
  • 예2: 뷰티 디바이스 시장
    • 탑다운: 20대 이상 여성인구 * 뷰티 디바이스 사용률
      • 20대 이상 여성인구 * f(소득, 잉여시간, 나이 등..)
    • 바텀업: 리프팅목적 뷰티디바이스 이용인구 + 여드름 흉터 제거 목적 뷰티 디바이스 사용 인구 + ...
      • 20대 이상 여성인구 * 주름발생률 * 리프팅디바이스사용률 + 20대 이상 여성인구 * 여드름 발병률 * 흉터남길 확률 * 흉터제거디바이스사용률...
    • -> 단, 바텀업으로 구성 시 사용 목적이 겹치거나 명확하지 않아 탑다운 방식으로 모델링 하는게 더 나을 수 있음

어느 정도 Sub-level 까지 변수 구조화할 것인가에 대한 고민

  • 어떤 드라이버는 그냥 상수를 가져 올 수도 있고, 어떤 드라이버는 더 깊이 들어가서 sub-sub-driver 까지 고민 필요
    • 생수 시장규모 = 전체인구 * 일주일 內 수 구매 인구 비율 * 생수 사먹는 횟수 * 1회당 구매하는 생수 mL
    • 일주일 內 생수 구매 인구 비율은 전문가한테 물어보고 가져올 것인가? 아니면 해당 Driver를 구성하는 sub-driver까지 더 깊게 팔 것인가?
    • 생수 구매 비율 = f(정수기 보유 비율, 외출시간, etc)

Driver로 설정한 값들을 어떻게 구할 것인가에 대한 고민

드라이버를 구조화한 후에는 정말 추정할 수 있는 값들인지에 대한 판단을 미리하는게 중요. 아무리 좋은 모델링이라 하더라도 현실적으로 구할 수가 없다면 모델 수정이 필요하기 때문.

해당 Driver가 정말 Top-Value와 상관관계가 있는지 파악

데이터를 통한 상관관계 분석법으로 하위의 subdriver가 top-value와 관계성이 있는지 파악하는 작업. 

[참고1] 논문을 통해 해당 시장에게 영향을 미치는 변수 취득

B2C 시장은 어떤 변수로 시장 사이즈가 변화하는지 명확하지 않다. 이에 각 종 논문에서 진행한 설문 및 통계 자료를 통해 주요 변수를 파악하고 모델링에 적용할 수 있다.

최근에 뷰티 디바이스 시장 규모를 추정했는데, 두세편의 논문을 통해 나이, 소득, 직업군이 유효한 영향을 미치는 변수라는 것을 확인했다. 이처럼 논문을 통해, 타겟 시장의 선택률에 영향을 미치는 요인들을 파악할 수 있다.

[참고2] B2C 시장 모델리의 경우 "시나리오" 따른 시장 규모 추정 필요

고급 고양이 식판 구매 비율을 추정한다고 할 때, 고양이 양육 인구 중 상위 20%만 구매할 경우, 상위 30%만 구매할 경우, 상위 40%만 구매할 경우로 케이스를 나누어 계산가능. 이때 각 숫자의 근거가 필요한데, 동일한 프리미엄 시장의 다른 제품을 통해 추정할 수 있다. 예를 들어, 고양이 프리미엄 사료는 전체 고양이 인구 중 10%만 먹인다고 하면, 고급 고양이 식판도 10%만 구매한다고 추론할 수 있을 것이다.
 
고양이 사료 시장 내 kg당 평균 가격이 2,000원이고 프리미엄 사료는 kg 당 4,000원 인데, 프리미엄 사료 시장의 일반 사료 시장의 10%를 점하고 있다면, 가격/kg 변수와 점유율 변수를 통해 2차함수를 구하고 이로써 프리미엄 시장이 갖는 기울기를 구해낼 수 있을 것이다. 이 기울기를 활용하여 고양이 식판 구매 비율을 추정하면, 훌륭한 모델링이 될 수 있다.

+ 여기에 고양이 식판 시장과 사료 시장의 차이를 만들어내는 변수를 파악해 변화량을 주면 가장 Best일 것.

정성데이터를 어떻게 정량화 시킬까에 대한 고민

Scoring 기법 (가중치 기법)

  • 예를 들어, A국의 한해 수소 생산량이 100만톤일 때, 한국으로 수출가능한 물량은?
  • 전체 수소 생산량 중 한국 向 수출률을 표현해야할 때, 고객한테 "그냥 한 20% 나올것 같은데요?" 라고 말할 수는 없음. 따라서 20%라고 주장할 수 있는 근거가 필요
  • 수소 생산하고 있는 프로젝트의 지분율 중 한국 기업의 차지하는 비중, 한국과의 물리적 거리(수소는 배로 운반하기 때문에 거리가 멀면 자연 소실 되므로), 판매자의 사업 목적 등의 지표에 Scoring
  • 판매자의 사업 목적 같은 정성 데이터는 "판매의지 높음(100점), 판매의지 중간(50점), 판매의지 낮음(0점)"처럼 Scroing하여 정량적 수치로 변환

표준분포 기법

  • 수소 생태계가 얼마나 잘 갖추어져 있는가를 판단하는 정성지표를 정량화 시킨다고 했을때, 각 국 보유 수소 프로젝트수에 따라 표준분포를 그리면 상위 %에 따라 Scoring 가능

Linear 및 Logistic 함수 활용한 예측 모델

  • 데이터가 충분할 시, 기존 데이터를 통한 선형 기법을 통해 독립변수의 종속변수 값을 구할 수 있음

바이너리 기법

  • Pass or Fail 기법으로 떨어뜨리거나 붙여주거나..

워터풀

  • 년도별 발생하는 사건이 언제까지 시작해서 언제 끝날 것인가를 나타낼 때 유용한 방법. 대표적인 예로 감가상각이 있다. '22년 CF가 100만원 발생하여 10년 동안 상각한다고 했을 때, '22년부터 '31년까지 10만원의 CAPEX가 나간다고 인식할 수 있을 것이며 '23년에도, '24년에도 증설로 인한 CF가 100만원씩 나가는 상황이라면 이를 표현하는 대표적 방법이 워터풀.

더 정확한 모델링을 위해 데이터를 가공하는 법에 대한 고민

Log함수

Log함수는 2가지 측면에서 Linear 보다 유용하다. 1. 현실 세계의 한계체감을 잘 반영하고 있다. 아무리 자본을 많이 쏟아부어도 어떤 한계점을 지나면 성장률이 더디다. 로그함수는 한계체감을 잘 표현할 수 있다. 2. 데이터가 편차가 커서 유의미한 모델링이 불가할 때 유용하다. 첫번째 테이블인 "여성 직종별 월평균 임금"에서 관리자와 그외 직종별 임금 편차가 매우 크다. 이때 임금을 독립변수로 사용하면 임금이 낮은 서비스종사자나 단순노무종사자 向 모델링이 심하게 왜곡될 가능성이 있다.

이때 활용할 수 있는 방법이 기존 raw데이터를 log처리 하는 것. 아래 테이블은 기존 임금 데이터를 1.01값으로 log 처리 하였다. 이에 따라 관리자 8,396 -> 단순 노무자 1,895의 편차가 관리자 908 -> 단순노무자 758로 변화하여 더 의미 있는 모델링을 할 수 있다.

행렬을 통한 연립 방정식 계산

종속변수 y값을 추론하기 위해 복수개의 독립변수 x를 선정할 수 있다. 이때 3개의 독립변수 x를 갖는 식을 처리한다고 가정하면 독립변수의 역행렬을 통해 a, b, c의 값을 추론할 수 있다.

aX1 + bX2 + cX3 = Y
aX4 + bX5 + cX6 = Y
aX7 + bX8 + cX9 = Y

X1 X2 X3 (a) = Y
X4 X5 X6 (b) = Y
X7 X8 X9 (c) = Y

어떤 Driver를 Bull Base Bear 로 설정할 지에 대한 고민

  • 모든 드라이버에 시나리오 넣는게 아니라, Impact Factor에 해당하는 변수들에 시나리오를 제공 해야함

어떤 매게 드라이버들을 더 추가하거나 뺄지에 대한 고민

매게 드라이버란 모델링에 주요 전제가 되는 Proxy 숫자들을 의미한다. 예를 들어, 수소의 에너지 전환율이 70%라고 하면 에너지 전환율이 매게 드라이버가 될 수 있다. 에너지 전환율을 낮추거나 높여서 다른 모델링 결과를 도출할 수 있는데 이러한 Impact Factor을 상수로 고정할지 아니면 변수로 Control 할지 고민해야한다.

Driver의 Top-Bottom 값에 대한 고민

  • 특정 Proxy를 통해 Cap값이 제공된다면 그 수치 아래서 모델링하면 되므로 편리함
  • 가령, 국가에서 예상한 매우 긍정적 시나리오의 향후 원자력 발전 비중이 20%라면 이러한 수치를 차용하여 모델이 20%넘지 않는 선에서 모델링 실시

엑셀 시트 분할

  • result
  • input: 주요 벨류 드라이버를 조정하는 시트
  • const: 변수 기입 시트
  • senario
  • calculation: 로직 및 계산이 기입되어 있는 시트로 본 시트의 모든 데이터는 他 시트 참조
  • reference: caculation시트에서 계산할 하부단의 로직들의 섞여있는 데이터 시트
  • rawdata: 인구, 금리 데이터, 수도세 데이터 등 로직 없이 Counting 해서 결과물이 이미 나와있는 데이터

모델검증

  • 정규분포, 표정정규분포를 활용하여 원하는 수치가 고루 분포되었는지 확인

모델링 팁

  • rawdata와 작성데이터는 다른 시트에서 관리 할 것
  • 작성데이터의 참조는 rawdata로 할 것
  • 타시트 참조데이터는 초록색, 동일 시트 함수데이터는 검은색, hardcoding 데이터는 파랑색으로 폰트설정할 것
  • 전체 줄금을 삭제하고 가로줄만으로 표시할 것
  • 데이터는 추세선을 그려가며 진위를 확인해볼 것
  • 한 시트에 여러 테이블을 만들어야 하는 상황에는 엑셀 테이블 만들기기능 이용할 것: 테이블 당 필터링 가능
  • 가정해야하는 변수가 더 적은 모델(less is more)
  • 고객들은 숫자 하나하나 매우 민감하며 사소하다고 판단되는 숫자에도 근거가 존재할 것
  • 모델링은 엑셀로 수행하기에 코딩으로는 쉽게 해결할 수 있는 Technical한 문제를 해결할 수 없는 경우가 많다. 대표적으로 엑셀은 루프기능이 없으며, 값을 변수에 담을 수 없다. 루프와 변수 저장 기능을 모두 셀단위로 처리해야 하는 것이다.

- 요건이 무엇인지 명확히 할 것

 

배경

힘들게 스크립트까지 준비해서 파트너에게 보고하려 했는데, 30분 후부터 다른 미팅이 있다며 설명 단축을 요구

요약

  • (특히 상사에게 보고할 때)말하고 싶은 바를 2-3가지만 정해서 주장하고, 상대방의 질문에 따라 추가하는 형식
    • 시간이 부족한 사람들이기 때문에, 정말 최소한의 최소한만 보고
    • 스크립트 작성후 필요없는 것을 빼가는 네가티브 어프로치가 아니라, 애초부터 정말 할말만 정해서 질문에 따라 추가하는 파지티브 어프로치
    • 윗사람들은 자기가 듣고싶은 것만 듣고 싶어하기 때문에, 윗사람들의 질문에 따라 정보를 추가해가는 어프로치가 타당

인스타그램과 현실공간에서의 과시소비행동 비교 연구.pdf
3.65MB

명품에 대한 사회학적 해석.pdf
0.39MB

 

 

배경

내가 제출하는 리서치 결과물이 클라이언트의 계약서에도 사용될 수 있고, 상대회사와 교섭할 때도 사용될 수 있다. 그만큼 책임감이 무거운 결과물이다.

리서치설계

  • 요건파악(구체적인 골배경에 대한 이해)
  • ★요건 만족을 위해 필요한 정보 설계: 요건 파악과 요건에 따른 리서치 검색어 설계를 하지 않으면 리서치가 산으로감
  • 채널 설계
  • 설계된 정보대로 예상 키워드 설계
  • 검색 실시

채널의 종류

  • 학술지
  • 논문
  • 씽크탱크 업체 보고서
  • 구글검색
  • 정부기관 보고서(산업통산부, 경제부 등)
  • 유료 리포트
  • 스피다(speeda)
  • 스피다(speeda) 트렌드
  • 팩티바(factiva)
  • 캐피탈아이큐(capital Iq)
  • 전문 사이트(화학 전문 저널, 아이티 전문 저널 등)
  • 박람회 자료
  • 기업IR리포트
  • 구글학술검색
  • 다트
  • IDC:テクノロジー市場に特化した業界動向(右上ログインボタンを押すと自動ログインします)
  • EMIS:アジア、南米、東欧等の新興市場に焦点をあてた情報検索データベース
  • Global Market Model:世界60国/地域、27インダストリーの業界レポート

오픈 리서치 포맷

구글링을 통한 오픈 리서치를 수행할 때는 아래와 같은 포맷으로 정리하면 편하다.

  1. 날짜: 정보의 최신화는 중요하다. 법, 비즈니스 환경 등은 2-3년으로도 충분히 변할 수 있기 때문에 데이터의 날짜 입력은 필수
  2. 검색어: 검색어를 무분별하게 사용하지 않고 검색어 하나하나에 집중하며 리서치 할 수 있을 뿐만 아니라, 내가 어떠한 의식의 흐름으로 검색을 시행하고 있는지 체크할 수 있다.

리서치하는 감

  • 개발이랑 느낌이 비슷한데, 개발할 때 "아, 이런걸 어떻게 만들지? 되긴되나?"라는 마음이 생기지만 손을 움직이면 어떻게든 개발을 한다. 리서치도 이와 마찬가지로 "아, 이런 걸 어떻게 찾지? 절대 안나올거 같은데"라는 생각이 들지만 그걸 찾아내는게 리서치이다. 찾으면 나온다.
  • 오픈리서치 시에는 검색어 설계 후, 검색한 검색어를 표시하면서 리서치하기
  • 최신 데이터를 요구하는 리서치의 경우, 올드 데이터는 재끼기
  • 비즈니스 리서치는 양과 분위기가 중요하지만, TAX나 LEGAL리서치는 정확도가 생명이므로 아래의 두 가지에 특히 주의
    • 데이터의 출처가 어디인지: 신뢰할 수 있는 조직에서 언급한 건지, 법적 근거가 있는 데이터인지
    • 데이터가 최신인지: 법적근거가 있는 데이터라하더라도, 변경된 데이터라면 고객에게 불리하게 작용
  • 검색 후, 검색 페이지를 훑어가며 새탭으로 페이지를 쭉 열어놓고, 20개정도 탭이 쌓이면 페이지들을 하나하나 훑어가기
  • 처음부터 페이지를 모두 보지 말고, 큰 목차를 스킵한 뒤 내가 원하는 정보가 맞는지 먼저 확인하기
  • 리서치를 하다보면, 최신 동향을 알고 싶을 때는 startup으로 검색한다던가 시장 수치를 알고싶을 때는 graph statistics 로 검색한다던가 하는 키워드에 대한 감이 생김
  • 주요 키워드: silicon valley startup graph statistics MIT 기술동향
  • 이미지 검색을 미리 시행하는 것도 하나의 요령
  • 시간에 제한(2시간)을 두고 시간 내 에서 리서치 하기
  • 구조화된 설계를 눈앞에 적어두고 자료 찾을때 마다 설계 방향에 따른 올바른 데이터 인지 아닌지를 확인하기
  • 리서치 도중 추가 리서치가 필요한 키워드에 대해서는 새로운 탭 열어놓고 검색어 넣어 놓기
  • 가설적 검색하기: 발전량이 감소하는 원인을 찾는다고 할때 "발전량 감소"라고 검색해서 망라적으로 리서치할게 아니라 발전량이 감소하는 원인에 대한 가설을 세워 가령 발전량 감소 원인이 省에너지 정책 기조 때문이라고 가설을 세웠다면 발전량 省에너지 정책이라고 검색하면 리서치 속도를 비약적으로 끌어올릴 수 있다.

리서치를 했는데 안나온다..

안나오는 경우 의외로 많다. 비이이이싼 보고서에는 있겠지만 공짜로 얻으려니 쉽지 않다. 이럴땐 다음과 같이 해결한다.

꼭 찾아야 되는 정보인 경우: 돈주고 정보사기

  1. 인터뷰
  2. 보고서 구매
  3. Statista 등

중요도가 높진 않지만 찾긴 해야하는 경우

1. 추정

최근에 수전해 공장의 수소 저장창고 면적을 찾아야하는 프로젝트가 있었다. 나올 턱이 없다. 돈도 없어서 돈주고 정보를 살수도 없다. 그렇다면 추정이 최고의 방법이다.

수소 저장 창고 면적 = 수소 탱크 용량당 면적 * 수전해 공장 수소 생산량

위의 방법으로 추론할 수 있겠다. 수소 탱크 용량당 면적은 리서치해도 쉽게 나오고 안나오면 사진보고 크기 추정하면 된다. 리서치 결과 1,200L/㎡다.
 
이처럼 리서치해보고 안나오면 추정해라. 중요한건 고객도 오히려 이런 방식으로 머리써서 찾는걸 더 선호할 때도 있다는 것이다. '컨설팅 업체 맡기니까 이런 접근도 하네' 라는 배울점이 있어서다.

2. 대안 솔루션 고려

꼭 필요한 데이터가 아니라면 동일한 시사점을 갖지만 내용은 다른 정보를 찾아보자. 예를 들어, 최근에 기업 別 수소 시장 점유율을 찾아야하는 프로젝트가 있었는데 신시장이라 그런지 돈주고 데이터가 나오지 않았다. 그런데 이 데이터를 장표에 사용하려고 했던 이유는 '수소 시장의 Leading 기업이였던 Linde라는 회사가 진짜 대단한 회사에요'를 어필하기 위한 목적이었다.
 
그러면 꼭 수소 시장 점유율을 찾을 필요는 없다. 산업가스 시장 점유율은 좀 더 리서치하기가 편하니 기업 별 산업 가스 시장 점유율로 대체했다.

리서치의 결과 정리

설계에 따라 실행된 리서치 결과는 그 결과물만 보면 input이 정리가 되지 않아 무엇을 의미하는지 이해하기 힘들다. 따라서, 처음 설계한 구조에 따라 input을 삽입해가며 정리해나가는 과정이 필요하다.

리서치만을 실행한 날 것의 데이터
리서치의 결과를 구조에 따라 정리한 데이터

# 호흡 명상
폐가 공기로 가득 차는걸 느껴보세요

공기를 내쉬면서 온몸의 근육이 이완되는걸 느껴보세요

공기가 코를 지나 목을지나 폐까지 이동하는 흐름을 느껴보세요

폐가 공기로 가득 차는걸 느껴보세요

숨을 내쉬면 의자를 뚫고, 바닥을 뚫고 저 바닥밑으로 가라앉습니다.

숨을 내쉬면서 온몸의 근육이 부드럽게 이완됩니다

# 소리 명상
주변의 소리에 집중합니다

# 감각 명상
몸이 닿아있는 곳에 집중합니다. 누르고 있는 느낌이 어떤가요

어떤 생각이 난다면, 생각이 지나가도록 그냥 둡니다. 그 생각에 집중하지 마세요.

따듯한 햇살이 머리끝을 지나 발끝까지 지나갈 것입니다.

머리가 따듯합니다.

따듯한 햇살은 천천히 내려옵니다.

목을 타고 어깨를 타고 팔과 가슴으로 내려갑니다.

# 손바닥 명상
손바닥이 하늘을 보게 하고 손의 바닥에 집중해보세요.

세상의 모든 불이꺼지고 어두워집니다. 세상에는 손바닥만 남습니다.

손은 따듯한가요 차가운가요?

손을 둘러싼 공기는 차가운가요 따듯한가요?

손에서 맥박이 느껴지나요? 맥박은 빠른가요 느린가요?

# 스캔 명상
머리에서 부터 발바닥까지 온몸을 스캔해봅니다.

스캔이 지나가는 각 부분에 집중해보세요.

몸이 가벼운가요 무거운가요 불편한가요 편안한가요

# 아무 생각 하지 않기
머리를 비웁니다. 머리가 천천히 하얘집니다.

무언가 이미지가 지나간다면 인식하지 말고 그냥 바라보세요. 지나가게 두세요.


+ Recent posts