본문 바로가기

분류 전체보기

(36)
[DSP] Sinusoids Sinusoidal Signals (정현파 신호) - 코사인(cosine) 또는 사인(sine) 신호를 정현파 라고 함. - 주로 cos 함수를 사용. (sin 함수를 사용하면 추후에 계산이 복잡해짐) - W0 (주파수) : 1초에 몇 라디안이 돌아가느냐 - f0 : 1초에 몇 번 signal이 사이클을 갖느냐 Period - sinusoid가 한 사이클동안 걸리는 시간 (주기). T0 - cos 함수 주로 사용 - x(t) = x(t + T0) for all t w0T0 = 2pi Time shift Phase and time shift - 빨간 점선 그래프 : x(t) = 5cos(w0t) - t1 : time domain에서 얼마나 shift됐는지 Complex Exponentials and Pha..
[DSP] Introduction Signal - 어떠한 정보를 담고 있는 독립변수에 관한 함수 - signal로 표현된 데이터를 컴퓨터로 처리하고자 함 System - signal을 받아들여 처리하고 signal을 내보냄 Audio Signals - 시간(t)에 관한 함수 Image Signals - 공간좌표(x, y)에 관한 함수 - 빛의 밝기 구분 -> 흑백영상 - 2차원 평면에서 픽셀좌표 - x, y가 크면 빛의 세기가 크다는 뜻. 흰색에 가까워짐 Color images - r(x, y), g(x, y), b(x, y) - 세개의 독립된 영상이 쌓이면 컬러 이미지 - 빨간색 이미지는 R의 빛의 세기가 크다는 의미 Video Signals - 공간, 시간에 관한 함수 - r(x, y, t), g(x, y, t), b(x, y, t)..
[Data/Python] 로지스틱 회귀분석 y값을 확률로 봄. y값이 0.5보다 크거나 같으면 A, 작으면 B. 분류문제 statsmodels - Logit() 로지스틱 회귀분석을 실시하는 statsmodels의 함수 endog, exog 인자에 각각 종속변수, 독립변수 할당 산출 모델 객체의 params어트리뷰트에 모델의 계수 저장 산출 모델 객체의 predict()메서드로 예측값을 생산. 이는 종속변수가 1이 될 확률값 sklearn - LogisticRegression() 로지스틱 회귀분석 실시 fit_intercept, solver 인자로 절편 적합 여부 및 최적화 알고리즘 설정 가능 random_state 인자에 자연수를 할당하여 결과 고정 가능 fit() 메서드에 독립변수 및 종속변수 할당 산출 모델 객체의 coef_어트리뷰트에 모델의..
[Data/Python] 회귀분석 [이론] 회귀분석 상관분석을 통해 두 변수 간에 의미있는 선형성이 있음을 알았지만 인과관계를 설명하는건 아니었음->회귀분석으로 인과관계 확인 마케팅 비용 늘리면 매출 늘어나는가?얼마나 늘어나? 회귀분석은 관찰된 연속형 변수들에 대해 변수들 사이의 모형을 구한 뒤, 적합도를 측정해내는 분석 방법 예측함수의 형태에 따라 선형회귀/비선형회귀 독립변수의 개수에 따라 단순회귀/다중회귀 종속변수의 개수에 따라 단변량회귀/다변량회귀 선형 회귀분석의 목적 설명 : 종속변수에 대한 설명변수(독립변수)의 영향을 측정, 설명함 예측 : 설명변수(독립변수)정보가 있을 때 이에 따른 종속 변수를 예측함 단순 선형 회귀분석 회귀분석의 가설 1) 회귀식이 존재하는지? -> f검정을 통해 회귀식의 존재여부 판정 * 선형 회귀분석의 ..
[Data/Python] 비계층적 군집분석 [이론] 비계층적 군집분석(Non-hierarchical Clustering) 주어진 데이터를 k개의 군집으로 나눔. 원하는 군집의 수, k를 사전에 지정. k값이 이러지 않겠어~? k=3을 넣으면 군집이 무조 3개가 형성됨. K-means Clustering k-means 알고리즘 군집의 중심이 되는 k개의 seed 점들을 선택하여 그 seed 점과 거리가 가까운 개체들을 그룹화하는 방법 계산량 많음 + 왜곡(Distortion). 거리제곱의 총합. 거리 제곱의 총합이 작을 수록 똘똘 뭉쳐있음 Distortion값이 작을수록 좋음. 왜곡값이 움직였는데 이전보다 커지면, 커지기 직전상태를 최종 왜곡값으로 두고 멈춤 k값을 얼마를 줄 때 성능이 가장 좋을까? -> 실험을 여러번 해서. k값을 증가시켜서 k..
[Data/Python] 상관분석 [이론] 회귀분석 전에 상관분석으로 선형성이 있는지 확인해야함. 선형성이 없는걸로 선형 회귀분석을 하면 안됨. 상관분석 연속형 두 변수간의 직선적(선형)관계 정도를 검정하는 통계 분석 방법 상관관계는 인과관계를 의미하지 않음. A와 B 간에 높은 상관관계가 산출되었을 때 우연일 수도 있다. 두 변수가 비선형관계이거나 우연히 상관관계가 높을 수 있어서 상관계수 절댓값이 1에 가까워도 상관관계가 높지 않을 수 있고, 0에 가까워도 상관관계가 없는건 아닐 수 있음 시계열 자료처럼 독립적이지 않은 자료에 대해 상관계수 사용x 상관계수는 원인-결과로 해석x 산점도 두 개의 숫자형 데이터를 직교좌표계에 표시하여 두 변수 간의 관계를 나타내는 방법 - 산점도를 통해 확인할 사항 두 변수 간에 선형관계 존재하는지 두 ..
[Data/Python] 이론 정리 [자료의 이해1_기본 용어] 모집단 : 관심 대상의 전체 집합 모수 : 모집단을 분석해서 얻은 결과 (ex 평균, 분산 등) 하지만 실제로는 모집단 전체를 조사하기 힘듦 -> 표본 추출 표본 : 모집단 중 일부 통계량 : 표본을 분석해서 얻은 결과값 통계량을 통해 모수를 추정하자!! 변수형 종류 범주형(빈도 분석) 명목형 단순히 범주(성별, 혈액형) 순서형 범주의 순서 상대적으로 비교 가능(비만도, 학점) 수치형(분포 분석) 이산형 셀 수 있음. 유한한 범위(멤버의 수, 교통사고 건수) 연속형 등간형 독립 변수 X 수치형 범주형 종 속 변 수 Y 수 치 형 상관분석 회귀분석 t-test 범 주 형 로지스틱 회귀분석 카이제곱 검정 [자료의 이해2_시각화] 범주형 데이터 - 질적 자료 수치형 데이터 - 양적..
[Data/Python]실습_데이터 전처리: 결측치 이상치 이상치 중심 경향성에서 멀리 떨어진 값 처리 방법 이상치 처리에 절대적인 기준 x Carling, Tukey 방법 등 분포 기반으로 처리도 가능 결측치 값이 기록되지 않고 비어 있음 처리 방법 결측치 처리에 절대적인 기준 x 단순 제거, 특정 값으로 대체하는 방식 등 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우 보통 단순 제거함 붓꽃 결측 데이터 - iris_missing.csv 주요 함수 및 메서드 pandas - isna(), isnull() 결측치 원소를 True, 관측치를 False로 반환 반대 기능 메서드 notna(), notnull() pandas - fillna() 결측치 채우기 위한 메서드 value 인자에 결측치를 채워 넣을 값을 입력하며 딕셔너리 사용 가능 'bfill'은 뒤의..