22년 6월 한 달 동안 ' 인공지능을 활용한 경기국면별 기업 부도 예측 ' 을 주제로 프로젝트를 했던 경험이 있다.
주제에 언급했듯이 우리 조 기업 부도 예측 모델 연구의 포인트는 경기국면 구별이었다.
경기순환
경기 국면은 경기순환에서 현재 경제가 놓여진 상태를 나타내며 이분법적으로는 확장기와 수축기로 구분된다.
경기순환(Business Cycle)에 대해서 간단하게 설명하자면,
총체적 경제활동이 경제의 장기 성장추세를 중심으로 상승과 하강을 반복하며 성장하는 현상을 의미한다.
이때, 경기저점에서 정점까지 경제활동이 활발하면 확장국면, 경기정점에서 저점까지 경제활동이 위축되면 수축국면으로 보는 것이 일반적이다.
기업부도와 경기국면
기업부도에 영향을 주는 요인은 다양하겠지만 그 중 가장 큰 요인이 기업내부적인 (영업활동과 관련된) 요인일 것이다.
실제로 기업 부도 예측과 관련된 논문들을 찾아보면 대부분 기업의 재무적 요소를 독립요인으로 하여 연구를 진행했다.
그러나, 기업의 재무적 요인 외에도 거시경제 요인 역시 기업부도에 영향을 줄 수 있다. 즉, 거시경제적 측면을 반영한 기업부도 예측 연구의 필요성을 느꼈다.
따라서 '경기국면별 기업의 부도에 영향을 주는 재무적인 요인이 다를 것이다' 라는 가설을 세우고 프로젝트를 진행했다.
데이터 설명
수집기간 : 2000~2017 (금융위기 기간을 포함하여 강건성 높이려고 함)
수집대상 : 코스닥 상장 기업
데이터출처 : KIND, TS2000
이번 피드에서는 프로젝트 과정 중 데이터 확인 단계의 내용을 설명하려고 한다.
프로젝트의 핵심적인 내용은 아니기 때문에 프로젝트의 전체 내용이 궁금하다면 깃허브로 이동하면 된다 깃허브 링크!
데이터
우선 KIND의 상장폐지현황 페이지에 가서 원하는 시장과 기간을 설정하여 엑셀 파일을 다운 받는다
페이지로 이동하려면 여기
총 702개의 상장폐지 기업을 확인할 수 있다. 이제 이 상장폐지 기업 중 우리팀이 '부도'라고 정의 내렸던 폐지사유로 다시 걸러줘야 한다.
총 261개의 기업이 남았다. 좀 있다가 다시 설명하겠지만 부도기업과 정상기업의 데이터 불균형이 정말 심했는데, 애초에 부도 기업의 수가 너무 적었기 때문이다...
TS2000기업 재무 데이터 가져오기
동일한 기간에 대해 코스닥기업의 재무데이터(정기보고서)를 받아왔다. TS2000의 경우 유료로 사용하는 서비스이다. 오늘 하려는 작업은 사실 TS2000데이터가 필요없다. 각 년도별 코스닥 상장기업의 리스트만 있으면 충분하다.
부도 라벨링
처음에 소개한 KIND의 부도기업 리스트를 사용하여 TS2000에서 부도 직전 년도에 부도 라벨 1을 주었다.
이는 기업이 부도 나기 적어도 1년전의 재무상태에서 그 징후가 나타난다고 보기 때문이다. 대부분의 연구에서 1년전을 부도 라벨로 주었고, 경우에 따라서는 최대 5년치까지 라벨을 해준 연구도 있었다.
우리는 직전년도만 부도 라벨을 주고 2년전 데이터의 경우' 완벽하게 정상이다, 완벽하게 부도다'라고 판단하기 어렵다고 생각해 drop처리 해주었다.
경기국면별 데이터 나누기
경기 국면 분할의 기준은 통계청의 기준을 따랐다.
그러나 년단위로 발표되는 정기보고서와 달리 경기 국면은 년단위로 구분이 어려웠다. 그래서 한 해에 확장기와 수축기가 모두 포함된 년도의 경우 전환기로 칭하고 따로 데이터를 분리하였다.
확실히 수축기에 부도 기업 수가 더 많은 것을 확인할 수 있다. 확장기와 수축기의 부도 기업 수 차이를 보아 경기 국면을 나누어 기업의 부도 예측을 진행하는 것이 어느 정도 설득력이 있다고 볼 수 있을 것 같다.
이 엄청난 데이터불균형..... 그래프로 확인하면 더 심각하다
그래프로 확인하기
부도 라벨링까지 마쳤으니 이제 년도별로 부도기업과 정상기업의 변화 추세를 차트로 확인해보겠다
부도 기업 수의 경우 우측 눈금으로, 정상 기업 수의 경우 좌측 눈금으로 확인할 수 있다.
이 때 해석에 주의할 점이 부도 기업의 경우 해당 년도에 부도가 난 기업이 아닌 부도 직전년도의 상황으로 봐야 한다.
따라서 빨간선이 한칸 씩 앞으로 밀어서 해석하면 될 것이다.
이번에는 실제 부도난 년도로 그래프를 다시 그려보았다. 추가로 해당년도의 부도 비율(전체기업 대비 부도기업)도 같이 표기해 보았다
확실히 금융위기 전후로 부도 비율 변화가 큰 것을 확인 할 수 있다. 사용한 데이터에 차이가 있어 위의 그래프와 조금은 다를 수 있다.
마무리
이렇게 경기국면에 따른 기업부도 변화를 직접 확인해 보았다. 프로젝트 전체 내용을 다 담고 싶지만, 전문가가 아닌 배우는 학생의 입장에서 진행한 프로젝트라 혹시나 잘못된 정보를 전달하게 될까봐 데이터 확인 단계까지만 피드에 올리려고 한다.
이번 피드 내용을 작업한 코드 파일은 여기서 확인할 수 있다.
'🏷️Workplace > PROJECTS' 카테고리의 다른 글
[방과방가] 프로젝트 소개 (0) | 2023.05.07 |
---|