'DataScience' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Tags more

04-10 08:46

Archives

관리 메뉴

목록DataScience (15)

develop myself

추정(estimation) 이론

추정: Estimation 표본에서 얻은 추정량(estimator)을 이용하여 모집단의 모수(parameter) 값을 추측하는 과정에서 사용되는 이론과 기법 통계량(statistics): 표본으로부터 얻을 수 있는 다양한 값들. 추정량(estimator): 통계량이 추정의 용도로 사용되는 경우, 그 통계량을 추정량이라고 한다. 점추정 모수의 위치와 가장 가깝다고 기대되는 하나의 점을 찾아서 그것을 추정값으로 정한다. 모평균 $\mu$의 점추정치 = 표본평균 모분산 $\sigma^2$의 점추정치 = 표본분산 점추정의 문제점: 추정의 신뢰성(reliability)이 어느 정도인지를 알 수 없다. 구간추정 점추정의 문제점을 보완 => 구간으로 추정 구간의 길이를 어떻게 정할 것인가? => 확률분포를 이용한다...

DataScience/통계분석 2023. 1. 31. 12:51

quantile(분위수) vs quartile(사분위수) vs percentile(백분위수)

definition Here’s a simple definition of each: Percentiles: Range from 0 to 100. Quartiles: Range from 0 to 4. Quantiles: Range from any value to any other value. Note that percentiles and quartiles are simply types of quantiles. (percentiles과 quartiles은 quantiles의 종류들이다.) Some types of quantiles even have specific names, including: 4-quantiles are called quartiles. 5-quantiles are called quinti..

DataScience/통계분석 2023. 1. 30. 17:17

유의수준 $\alpha$의 이해

import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt from scipy.stats import norm, t, chi2 z_values = np.linspace(-4, 4, 1000) pdf_values = norm.pdf(z_values) z_alpha=1.5 fill_color = (0, 0, 0, 0.1) # Light gray in RGBA format. line_color = (0, 0, 0, 0.5) # Medium gray in RGBA format. fig, axes = plt.subplots(figsize=(10,4)) axes.plot(z_values,pdf_values) axes.fill_between..

DataScience/통계분석 2023. 1. 27. 16:51

matplotlib 사용 지침

객체 지향 방식을 사용해야 하는 이유 2022 PyCon 이제현 님 발표: https://youtu.be/ZTRKojTLE8M 사용 예제 fig, axes = plt.subplots(ncols=5, figsize=(8,4)) for i, col in enumerate(['Temperature','Humidity','Light','CO2','HumidityRatio']): sns.boxplot(data=rooms[col],ax = axes[i]) axes[i].set_title(col) fig.tight_layout() fig.subplots_adjust(top=0.8) fig.suptitle("Room Occupancy") fig.set_facecolor("lightgray") plt.show() fig..

DataScience/Python 2023. 1. 27. 14:56

pdf, cdf, ppf (SciPy의 method 활용)

용어 - pdf: Probability density function - cdf: Cumulative distribution function. - ppf: Percent point function (inverse of cdf: cdf와 역함수 관계) pdf: 확률밀도함수 확률변수(X)의 분포를 나타내는 함수. 즉, 함수 값(그래프의 y축)은 분포를 나타낸다. - 일반 확률밀도함수 - 표준 확률밀도 함수 위 함수에서 $\mu$ = 0, $\sigma$=1 인 경우, 즉 $N(0,1)$ 연속 확률 분포이므로 특정 값에서는 확률을 구할 수 없다. 특정 구간에서의 확률을 구할 수 있고, 확률은 구간에서의 적분값이 된다. $P(a \leq X \leq b) = \int_a^b f(x) dx$ 모든 구간에서의 적분..

DataScience/통계분석 2023. 1. 27. 14:44

데이터핸들링: 문자열(str)

문자열: str 문자열 슬리아싱 가능: str[i:j] split() startswith() endswith() contains() 함수 설명 capitalize() 첫 문자를 대문자로하고, 나머지 문자를 소문자로 하는 문자열 반환 casefold() 모든 대소문자 구분을 제거 count(sub, [, start[, end]]) [start, end] 범위에서 부분 문자열 sub의 중복되지 않은 수를 반환 find(sub, [, start[, end]]) [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환 rfind(sub, [, start[, end]]) [start, end]에서 부분 문자열 sub가 문자열의 가장 큰 인덱스를 ..

DataScience/Python 2023. 1. 27. 12:10

데이터 핸들링: 데이터 재구성해서 보기

df.groupby().func() 집계 설명 count 전체 개수 head, tail 앞의 함목 일부 반환, 뒤의 항목 일부 반환 describe Series, DataFrame의 각 컬럼에 대한 요약 통계 min, max 최소값, 최대값 cummin, cummax 누적 최소값, 누적 최대값 argmin, argmax 최소값과 최대값의 색인 위치 idxmin, idxmax 최소값과 최대값의 색인값 mean, median 평균값, 중앙값 std, var 표준편차(Standard deviation), 분산(Variance) skew 왜도(skewness) 값 계산 kurt 첨도(kurtosis) 값 계산 mad 절대 평균 편차(Mean Absolute Deviation) sum, cumsum 전체 항목 합..

DataScience/Python 2023. 1. 27. 12:04

데이터 핸들링: 기본

DataFrame 생성 - 리스트, 배열, ndarray로 부터 생성: 행 단위로 되어 있음: [['1행의 1','1행의 2'],['2행의 1','2행의 2']] - dictionary 타입으로 부터 생성: {'컬럼명':['컬렴의 요소들'],'컬럼명':['컬럼의 요소들']} DataFrame properties, methods 데이터프레임의 properties # df's properties [ elem for elem in dir(pd.DataFrame) if isinstance(getattr(pd.DataFrame,elem),property) and not elem.startswith('_') ] ['T', 'at', 'attrs', 'axes', 'dtypes', 'empty', 'flags', '..

DataScience/Python 2023. 1. 27. 10:51

이전 Prev 1 2 Next 다음

목록DataScience (15)

develop myself

티스토리툴바