선형 회귀는 데이터 포인트 집합을 통해 선형 모델을 맞추어 목표 결과 레이블과 하나 이상의 특징 변수 간의 관계를 추정하여 숫자 값을 예측합니다. 결과 y(레이블)는 직선으로 추정할 수 있으며 다음과 같이 시각화할 수 있습니다.
y = intercept + ci * xi + Error
여기서 xi는 입력 변수(특징)이고 매개변수 ci, intercept 및 Error는 각각 회귀 계수, 상수 오프셋 및 오차입니다. 계수 ci는 해당 독립 변수(x 특징)의 단위 증가에 대한 종속 변수(y 레이블)의 증가로 해석할 수 있습니다. 아래의 간단한 예제에서는, 집의 크기(x 특징)에 따라 집값(y 레이블)을 추정하는 데 선형 회귀를 사용합니다.

x 및 y 점과 선 간의 거리에 따라 독립 변수와 종속 변수 간의 연결 강도가 결정됩니다. 선의 기울기는 곡선상 점의 오프셋 제곱합을 최소화하는 최소제곱법을 사용하여 결정되는 경우가 많습니다.

출처: Wikipedia
선형 회귀에는 단순 선형 회귀와 다중 선형 회귀의 두 가지 기본 유형이 있습니다. 단순 선형 회귀에서는 한 개의 독립 변수를 사용하여 단일 종속 변수의 결과를 설명하거나 예측합니다. 다중 선형 회귀에서는 두 개 이상의 독립 변수를 사용하여 같은 작업을 합니다.
회귀는 주로 결과를 예측하는 데 사용됩니다. 예를 들어, 칫솔질과 충치 사이의 상관관계를 찾는 데 회귀를 사용할 수 있습니다. x축은 특정 모집단에서 충치가 발생한 빈도이고 y축은 이 모집단의 사람들이 이를 닦는 빈도입니다. 주간 양치 빈도와 충치 개수를 나타낸 차트에서 각 사람은 점으로 표시됩니다. 실제 경우에는 차트에 점이 많이 분포하며, 자주 양치하는 사람도 충치가 생길 수 있고, 드물게 양치하는 사람은 충치가 없는 경우도 있습니다. 그러나 충치에 대한 정보를 고려하면, 모든 점에 가장 가깝게 닿는 선은 아마도 아래쪽으로 기울어져 있을 것입니다.
회귀 분석의 가장 유용한 적용 사례 중 하나는 날씨입니다. 변수 간에 강한 상관관계가 성립할 때—예를 들어, 동남 대서양의 해수 온도와 허리케인의 발생 빈도 간에—공식을 만들어 독립 변수의 변화에 따라 미래의 사건을 예측할 수 있습니다.
회귀 분석은 지금까지의 금리를 기반으로 투자 계좌의 미래 가치를 예측하는 등의 금융 시나리오에도 유용할 수 있습니다. 금리는 매월 변하지만, 장기적으로는 어떤 패턴이 나타나 투자금의 증가율을 어느 정도 정확하게 전망하는 데 사용할 수 있습니다.
이 기법은 관계가 직관적으로 명확하지 않은 요인 간의 상관관계를 밝히는 데도 유용합니다. 그러나 상관관계와 인과관계는 서로 다른 개념임을 기억하는 것이 중요합니다. 이 둘을 혼동하면 잘못된 가정을 내리는 위험한 상황이 발생할 수 있습니다. 예를 들어, 아이스크림 매출과 익사 사고의 빈도는 제3의 요인인 여름 때문에 상관관계가 있지만, 아이스크림을 먹는 것이 익사와 관련이 있다고 생각할 이유는 전혀 없습니다.
여기서 다중 선형 회귀가 유용합니다. 다중 선형 회귀는 여러 독립 변수를 분석하여 단일 종속 변수의 결과를 예측합니다. 또한, 종속 변수와 독립 변수 사이에 선형 관계가 존재한다고 가정하고, 잔차(회귀 선 위 또는 아래에 위치한 점)가 정규 분포하며, 모든 무작위 변수가 동일한 유한 분산을 가진다고 가정합니다.
다중 선형 회귀는 종속 변수에 대해 독립 변수가 미치는 영향력의 상대 강도를 파악하고 종속 변수에 대해 독립 변수의 특정 단일 집합이 미치는 영향력을 측정하는 데 사용할 수 있습니다. 따라서 원자재 가격을 전망하는 것처럼 수많은 요인이 작용하는 문제 집합에서는 단순 선형 회귀보다 더 유용합니다.
세 번째 유형인 비선형 회귀에서는 데이터 피팅을 통해 모델을 찾고 수학적 함수로 표현합니다. 보통 여러 개의 변수를 포함하고 관계는 직선보다 곡선으로 나타납니다. 비선형 회귀는 독립 변수와 종속 변수 간의 관계가 임의적인 모델을 추정할 수 있습니다. 일반적인 한 예로는 시간에 따른 인구 변화 예측을 들 수 있습니다. 인구와 시간 사이에는 뚜렷한 관계가 있지만, 해마다 인구 변화에 영향을 미치는 요인이 다양해서 이 관계는 선형이 아닙니다. 비선형 인구 증가 모델을 사용하면 인구 측정이 수행되지 않은 시기의 인구를 예측할 수 있습니다.