목록Language/Python (13)
언빌리버블티

✅ Interpolate 보간법을 통한 결측치 처리 pandas.DataFrame.interpolate() pandas.DataFrame.interpolate — pandas 1.5.1 documentation ‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’, ‘spline’, ‘barycentric’, ‘polynomial’: Passed to scipy.interpolate.interp1d. These methods use the numerical values of the index. Both ‘polynomial’ and ‘spline’ req pandas.pydata.org DataFrame.interpolate(method='linear', *, axi..

Pandas 시리즈 접근자 dtype에 따라 시리즈에 접근할 수 있는 다양한 접근자를 제공하고 있다. 시리즈 내에서 특정 데이터 유형에만 적용되는 별도의 네임스페이스이다. Data Type Accessor Datetime dt String str Categorical cat Sparse sparse Datetime properties Series.dt.date Returns numpy array of python datetime.date objects. Series.dt.time Returns numpy array of datetime.time objects. Series.dt.timetz Returns numpy array of datetime.time objects with timezones. Ser..

요소가 df 또는 Series 에 포함되는지 검사 pd.isin() 칼럼이 list의 값들을 포함하고 있는지를 검사 DataFrame 컬럼에서 어떤 list의 값을 포함하고 있는 것만 걸러낼 때 유용하게 사용된다. DataFrame.isin(values) 활용 예시 # isin 을 사용해 리스트로 여러 값을 찾아오기 # "거주구"가 "강남구", "서초구", "송파구" 인 데이터만 찾기 df[df["거주구"].isin(["강남구", "서초구", "송파구"])].head() Reference pandas.DataFrame.isin — pandas 1.5.0 documentation The result will only be true at a location if all the labels match. If ..

Pandas 데이터를 숫자 형식으로 변환하기 pd.to_numeric() 숫자형식으로 변경시킬 대상으로 스칼라값, list, tuple, Series 등을 지정 pandas.to_numeric(arg, errors='raise', downcast=None) errors 파라미터 ' ignore ' : 만약 숫자로 변경할 수 없는 데이터라면 숫자로 변경하지 않고 원본 데이터를 그대로 반환 ' coerce ' : 만약 숫자로 변경할 수 없는 데이터라면 기존 데이터를 지우고 NaN으로 설정하여 반환 ' raise ' : 만약 숫자로 변경할 수 없는 데이터라면 에러 발생 후 코드 중단 downcast 파라미터 INT8 , Float32 형식 등을 지정해줄 수 있다 . 활용 예시 문자형인 숫자와 숫자가 섞인 경우..

데이터프레임 조건 탐색 및 대치 메서드 .where() & np.where() 비교 series.where() : 판다스 Series 객체의 함수 Series.where(조건, other=_NoDefault.no_default, inplace=False, axis=None, level=None, errors=_NoDefault.no_default, try_cast=_NoDefault.no_default) Series 객체에 대한 조건문과 거짓 값을 대체할 값 두 가지를 입력받는다. pandas의 메서드는 아님 ! 시리즈 객체의 함수 조건문의 참 값에 대해서는 Series값이 그대로 들어가게 된다. df.where(df['접촉력'] == '해외유입',False)['접촉력'] 연번 218646 False 2..

Pandas 데이터프레임 행 방향 누적값 계산 pd.cumsum / pd.cumprod cumsum / cumprod메서드를 사용해서 행/열의 누적합/누적곱을 구할 수 있다. 위에서부터 아래로 한줄씩 덧셈/곱셈을 누적한다. pd.cumsum() DataFrame.cumsum(axis=None, skipna=True, args, kwargs) axis : 누적합/ 누적곱을 적용할 축 기준을 설정 skipna : 결측치를 무시할 지 여부 설정 pd.cumprod() DataFrame.cumprod(axis=None, skipna=True, args, kwargs) 활용 예시 서울시 코로나19 공공데이터 활용 2020년 1월부터 2021년 12월 까지의 확진자 수 / 누적 확진자 수의 변화 그래프 시각화 df..

Pandas 데이터 프레임 합치기 - 2 pd.merge() 두 데이터 프레임을 각 데이터에 존재하는 고유 Key값을 기준으로 병합한다. DataFrame 기존 병합 메서드 join() 보다 좀 더 세부적인 설정이 가능한 메서드이다. index - columns 기준 병합이 가능하다. indicator : 병합에 대한 정보를 확인할 수 있다. validate : 병합 방식을 확인할 수 있다. SQL에서 JOIN과 같은 역할을 수행한다. DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=T..

Pandas 데이터 프레임 합치기 - 1 pd.concat() 데이터 프레임을 이어 붙이는 함수로 리스트 객체를 인자로 받는다. axis = 0 : 위 아래로 병합 axis = 1 : 좌 우로 병합 join = ‘inner”, 결측치를 제외하고 병합 pd.concat(df) pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None,verify_integrity=False, sort=False, copy=True) pd.concat() 예시 a b c 0 a0 b0 c0 1 a1 b1 c1 2 a2 b2 c2 3 a3 b3 c3 a b c d 0 a2 b2 c2 d2 1 a3 b3 c3 d3..