Data Science/KDT

[KDT] 주차 수요 예측 AI 경진대회 코드 필사 (ML Regression , Dacon)

나는 정은 2022. 11. 29. 02:06

🦁 LikeLion AIS7 MINI PROJECT - 4

멋쟁이 사자처럼 미니프로젝트 : 회귀 예측 ML + 심화 
프로젝트 기간 : 2022-11-14 ~ 2022-11-20

Dataset 출처

 

주차수요 예측 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

: Dacon https://dacon.io/competitions/official/235745/overview/description

주제 : 유형 별 임대주택 설계 시 단지 내 적정 주차 수요를 예측

평가산식 : MAE(Mean Absolute Error)

    • Public 평가 : 전체 Test 데이터 중 무작위 33% (50단지)
    • Private 평가 : 전체 Test 데이터 중 나머지 67% (100단지)

최종 결과물 (Notion) 

Notebook nbviewer

 

Jupyter Notebook Viewer

행복주택 대상자 대학생(취준생 포함), 사회초년생(재취준생 포함), 신혼부부(예비신혼부부, 대학생, 취준생 신혼부부 포함), 고령자, 주거급여수급자, 산업단지 근로자

nbviewer.org

 

 

🎃 네 번째 미니프로젝트 회고

처음으로 데이터를 급하게 갈아엎고 시간에 쫓겨 얼레벌레 마무리를 지은 프로젝트였다.

Pycaret을 통해 1차적으로 골라낸 좋은 모델들을 수동으로 2차 하이퍼 파라미터 튜닝을 하고자 했는데

시간적 + 능력적 한계로 다 못해낸게 많이 아쉽다.

모든 과정에서 스스로 작성한 코드보다 보고 따라한 코드가 더 많아 여러모로 아쉬움이 많이 남았던 프로젝트였다 ...

아무래도 대회 수상자의 코드를 리뷰하다보니 코드를 이해하려 노력한 시간이 가장 많은 비중을 차지했다.

Feature Engineering의 매운맛을 느껴버렸다. 어렵다

그래도 수상하신 분들의 정돈된 코드들을 보면서

데이터를 다양한 각도에서 뜯어보고 조립하는 연습을 해볼 수 있어서 이 또한 좋은 경험이라 생각이 들었다.

Feature 가 깔끔하지 않고 여러가지가 섞여 있는 경우에 Train, Test 셋에 각각 중복되는 데이터가 있는지 , 어떤 데이터들이 중복되고 어떤 데이터들이 포함되지 않는지를 한번 쭉 출력한 코드가 가장 인상적이었다.

이런 테크닉들을 체화시켜 이 다음 참여하게될 파이널 프로젝트나 공모전에서 한번 적용시켜보고 싶다.