Model simple linear regression (SLR) dikatakan sederhana karena hanya memiliki satu prediktor, linier karena menggunakan fungsi linier dengan dua parameter, dan regresi karena model menghasilkan satu variabel respons sebagai fungsi dari satu variabel prediktor [1]. Model ini terkait dengan titik sampel dua-dimensi dengan satu variabel bebas dan satu variabel terikat, yang secara konvensional menggunakan $x$ dan $y$ [2]. Kedua parameter dalam SLR dapat diestimasi menggunakan least square (LR), yang penurunannya perlu meggunakan kalkulus ataupun tidak [3]. LR yang merupakan prosedur matematika untuk mendapatkan kurva terbaik yang cocok untuk data yang diberikan, yang dilakukan dengan meminimumkan kuadrat dari offset atau residual dari titik data ke kurva, umumnya dicontohkan dengan model linier [4]. Dalam proses penentuan kedua parameter fungsi linier, bila digunakan kalkulus, langkah meminimumkan dilakukan dengan menggunakan turunan terhadap kedua parameter tersebut [5]. LS atau lebih tepatnya yang dimaksud adalah OLS, suatu ordinary LS [6], tak diragukan merupakan salah satu algoritma pembelajaran mesin yang fundamental [7]. Perlu ditekankan bahwa LR (SLR dalam hal ini dan LS merupakan dua hal yang berbeda akan tetapi sering disampaikan secara terkait sehingga kadang membingungkan [8].
Model regresi linier sederhana atau SLR memiliki bentuk [1]
\begin{equation}\label{eqn:slr-model} y_i = b_0 + b_1 x_i + e_i, \end{equation}
untuk $i \in \{1, \dots, n \}$, dengan $y_i \in \mathbb{R}$ nilai riil respons observasi ke-$i$, $b_0 \in \mathbb{R}$ intersep regresi atau titik potong pada sumbu $y$, $b_1 \in \mathbb{R}$ kemiringan regresi, $x_i \in \mathbb{R}$ prediktor untuk oberservasi ke-$i$, dan $e_i \stackrel{\rm iid}{\sim} N(0, \sigma^2)$ suatu suku kesalahan Gaussian.
Terdapat ssumsi mendasar dari model SLR pada Persamaan \eqref{eqn:slr-model}, yaitu
Perlu dicatat bahwaa $b_1$ diharapkan bertambah dalam $Y$ sebesar satu satuan saat bertambahnya $X$.
Simbol $\rm iid$ merupakan kependekan dari independent and identically distributed, dengan terdistribusi identik (identically distributed) berarti tidak terdapat tren secara keseluruhan atau distribusi tidak berfluktuasi dan semua bagian sampel diambil dari distribusi probabilitas yang sama, dan terdistribusi bebas (independent distributed) berarti semua bagian sampel merupakan kejadian bebas, yang tidak terkait satu sama lain [9].
Simbol $\rm ind$, dengan mengambil pola yang sama dengan $\rm iid$, mungkin berarti independent but not identically distributed, yang istilahnya tidak terlalu mudah dicari, akan tetapi ada [10, 11].
Homogenitas variansi, yang merupakan asumsi penting yang dimiliki bersama oleh berbagai metode statistik parametrik, membutuhkan bahwa variansi dalam tiap populasi sama bagi semua populasi [12] atau berarti bahwa rata-rata kuadrat jarak suatu nilai terhadap mean adalah sama meliputi semua kelompok dalam suatu studi [13]. Atau secara sederhana memiliki sebaran yang sama, yang saat digambarkan terlihat lebih jelas [14].
Terdapat beberapa statistik kecocokan yang dapat digunakan dengan $n$ jumlah pengamatan yang tak-hilang dan $k$ jumlah parameter dalam model [15]. Dengan model $y = f(x)$ maka $\hat{y}_i$ adalah nilai prediksi satu-langkah dari data $x_i$ mengunakan model, sedangkan $y_i$ adalah data respons yang teramati bersama-sama dengan $x_i$.
\begin{equation}\label{eqn:mean} \overline{y} = \frac{1}{n} \sum_{i = 1}^n y_i. \end{equation}
\begin{equation}\label{eqn:sst0} {\rm SST} = \sum_{i = 1}^n y_i^2. \end{equation}
\begin{equation}\label{eqn:sst1} {\rm SST} = \sum_{i = 1}^n (y_i - \overline{y})^2. \end{equation}
\begin{equation}\label{eqn:sse} {\rm SSE} = \sum_{i = 1}^n (y_i - \hat{y}_i)^2. \end{equation}
\begin{equation}\label{eqn:mse} {\rm MSE} = \frac{1}{n} \sum_{i = 1}^n (y_i - \hat{y}_i)^2. \end{equation}
\begin{equation}\label{eqn:rmse} {\rm RMSE} = \sqrt{\frac{1}{n} \sum_{i = 1}^n (y_i - \hat{y}_i)^2}. \end{equation}
\begin{equation}\label{eqn:mape} {\rm MAPE} = \frac{100}{n} \sum_{i = 1}^n \left| \frac{(y_i - \hat{y}_i)}{y_i} \right|. \end{equation}
\begin{equation}\label{eqn:mae} {\rm MAE} = \frac{1}{n} \sum_{i = 1}^n \left| y_i - \hat{y}_i \right|. \end{equation}
\begin{equation}\label{eqn:r2} R^2 = 1 - \frac{\rm SSE}{\rm SST}. \end{equation}
\begin{equation}\label{eqn:r2-adjusted} R_{\rm adj}^2 = 1 - \left( \frac{n - 1}{n - k} \right) (1 - R^2). \end{equation}
\begin{equation}\label{eqn:mpe} {\rm MPE} = \frac{100}{n} \sum_{i = 1}^n \frac{(y_i - \hat{y}_i)}{y_i}. \end{equation}
\begin{equation}\label{eqn:me} {\rm MAE} = \frac{1}{n} \sum_{i = 1}^n (y_i - \hat{y}_i). \end{equation}
Untuk adjusted $R^2$ terdapat formula yang sedikit berbeda [16]
\begin{equation}\label{eqn:r2-adjusted-other-version} \begin{array}{rcl} R _{\rm adj}^2 & = & \displaystyle 1 - \frac{ {\rm SSE} / (n - k - 1) }{ {\rm SST} / (n - 1) } \newline & = & \displaystyle 1 - \left( \frac{n - 1}{n - k - 1} \right) (1 - R^2), \end{array} \end{equation}
pada bagian penyebut suku kedua ruas paling kanan.
Kuadrat terkecil digunanakan untuk terjemahan LR, di mana kuadrat yang dimasuka adalah kuadrat dari selisih antara prediksi model dengan pengamatan [4]
\begin{equation}\label{eqn:lr} R^2 = \sum_{i = 1}^n [y_i - f(x_i, {\rm coeffs})]^2, \end{equation}
dengan $\rm coeffs$ adalah koefisien dari model, misalnya $b_0$ dan $b_1$ pada Persamaan \eqref{eqn:slr-model}. Arti dari $R^2$ ini adalah deviasi pada arah vertikal. Selanjutnya adalah mencari nilai terkecil atau minimum dari $R^2$ yang diperoleh dengan menurunkan mencari turunan dari $R^2$ terhadap semua koefisien model yang sama dengan nol, seperti
\[\frac{\partial R^2}{\partial b_0} = 0\]dan
\[\frac{\partial R^2}{\partial b_1} = 0\]untuk Persamaan \eqref{eqn:slr-model}.
Suatu model linier, mirip dengan Persamaan \eqref{eqn:slr-model}, dengan hanya satu variabel bebas dapat dituliskan sebagai
\begin{equation}\label{eqn:linear-model-1-ind-var} y = c_0 + c_1 x, \end{equation}
yang dapat dituliskan untuk $p$ variabel bebas dalam bentuk vektor $c = (c_1, \dots, c_p)$ dengan $c_0$ ada titik potong$ [17], akan tetapi untuk saat ini hanya akan digunakan skalar karena $c = (c_1)$. Penerapan Persamaan \eqref{eqn:sse} pada Persamaan \eqref{eqn:linear-model-1-ind-var} akan memberikan
\begin{equation}\label{eqn:sse-linear-model-1-ind-var} {\rm SSE} = \sum_{i = 1}^n (y_i - c_0 - c_1 x_i)^2 \end{equation}
untuk data $\{(x_i, y_i), i = 1, \dots, n\}$ dengan $n$ adalah jumlah pasangan data yang teramati [2]. Selanjutnya LS diterapkan untuk mencari $c_0$ dan $c_1$ yang membuat $\rm SSE$ minimum melalui
\begin{equation}\label{eqn:sse-lin-mod-min-c0} \frac{\partial {\rm SSE}}{\partial c_0} = 0 \end{equation}
dan
\begin{equation}\label{eqn:sse-lin-mod-min-c1} \frac{\partial {\rm SSE}}{\partial c_1} = 0. \end{equation}
Penerapan Persamaan \eqref{eqn:sse-lin-mod-min-c0} pada Persamaan \eqref{eqn:sse-linear-model-1-ind-var} akan memberikan
\begin{equation}\label{eqn:sse-min-c0=0} \begin{array}{rcl} \displaystyle \sum_{i = 1}^n 2 \cdot (y_i - c_0 - c_1 x_i) \cdot -1 & = & 0 \newline \displaystyle \sum_{i = 1}^n (y_i - c_0 - c_1 x_i) & = & 0 \newline \displaystyle \sum_{i = 1}^n y_i - c_0 \sum_{i = 1}^n 1 - c_1 \sum_{i = 1}^n x_i & = & 0, \end{array} \end{equation}
sedang penerapan Persamaan \eqref{eqn:sse-lin-mod-min-c1} pada Persamaan \eqref{eqn:sse-linear-model-1-ind-var} akan menghasilkan
\begin{equation}\label{eqn:sse-min-c1=0} \begin{array}{rcl} \displaystyle \sum_{i = 1}^n 2 \cdot (y_i - c_0 - c_1 x_i) \cdot -x_i & = & 0 \newline \displaystyle \sum_{i = 1}^n (y_i - c_0 - c_1 x_i) \cdot x_i & = & 0 \newline \displaystyle \sum_{i = 1}^n (x_i y_i - c_0 x_i - c_1 x_i^2) & = & 0 \newline \displaystyle \sum_{i = 1}^n x_i y_i - c_0 \sum_{i = 1}^n x_i - c_1 \sum_{i = 1}^n x_i^2 & = & 0. \end{array} \end{equation}
Kalikan Persamaan \eqref{eqn:sse-min-c0=0} dengan $\sum_{i = 1}^n x_i^2$ dan kurangi dengan Persamaan \eqref{eqn:sse-min-c1=0} yang telah dikalikan dengan $\sum_{i = 1}^n x_i$ akan menghasilkan
\begin{equation}\label{eqn:sse-min-find-c0} \begin{array}{rcl} \displaystyle \sum_{i = 1}^n x_i^2 \sum_{i = 1}^n y_i - c_0 \sum_{i = 1}^n x_i^2 \sum_{i = 1}^n 1 && \newline \displaystyle - \sum_{i = 1}^n x_i \sum_{i = 1}^n x_i y_i + c_0 \sum_{i = 1}^n x_i \sum_{i = 1}^n x_i & = & 0 \newline \displaystyle c_0 \left( \sum_{i = 1}^n x_i \sum_{i = 1}^n x_i - \sum_{i = 1}^n x_i^2 \sum_{i = 1}^n 1 \right) & = & \newline \displaystyle \sum_{i = 1}^n x_i \sum_{i = 1}^n x_i y_i - \sum_{i = 1}^n x_i^2 \sum_{i = 1}^n y_i \newline c_0 = \frac{\displaystyle \sum_{i = 1}^n x_i \sum_{i = 1}^n x_i y_i - \sum_{i = 1}^n x_i^2 \sum_{i = 1}^n y_i}{\displaystyle \sum_{i = 1}^n x_i \sum_{i = 1}^n x_i - \sum_{i = 1}^n x_i^2 \sum_{i = 1}^n 1}. && \end{array} \end{equation}
Selanjutnya, kalikan Persamaan \eqref{eqn:sse-min-c0=0} dengan $\sum_{i = 1}^n x_i$ dan kurangi dengan Persamaan \eqref{eqn:sse-min-c1=0} yang telah dikalikan dengan $\sum_{i = 1}^n 1$ akan menghasilkan
\begin{equation}\label{eqn:sse-min-find-c1} \begin{array}{rcl} \displaystyle \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i - c_1 \sum_{i = 1}^n x_i \sum_{i = 1}^n x_1 && \newline \displaystyle - \sum_{i = 1}^n 1 \sum_{i = 1}^n x_i y_i + c_1 \sum_{i = 1}^n 1 \sum_{i = 1}^n x_i^2 & = & 0 \newline \displaystyle c_1 \left( \sum_{i = 1}^n 1 \sum_{i = 1}^n x_i^2 - \sum_{i = 1}^n x_i \sum_{i = 1}^n x_i \right) & = & \newline \displaystyle \sum_{i = 1}^n 1 \sum_{i = 1}^n x_i y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i \newline c_1 = \frac{\displaystyle \sum_{i = 1}^n 1 \sum_{i = 1}^n x_i y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i}{\displaystyle \sum_{i = 1}^n 1 \sum_{i = 1}^n x_i^2 - \sum_{i = 1}^n x_i \sum_{i = 1}^n x_1}. && \end{array} \end{equation}
Dari Persamaan \eqref{eqn:sse-min-find-c0} dan \eqref{eqn:sse-min-find-c1} telah diperoleh nilai $c_0$ dan $c_1$.
Kemudian, dapat didefinisikan beberapa simbol [18]
\begin{equation}\label{eqn:s1=n} n = \sum_{i = 1}^n 1, \end{equation}
\begin{equation}\label{eqn:sx} {\rm Sx} = \sum _{i = 1}^n x_i, \end{equation}
\begin{equation}\label{eqn:sy} {\rm Sy} = \sum _{i = 1}^n y_i, \end{equation}
\begin{equation}\label{eqn:sxx} {\rm Sxx} = \sum _{i = 1}^n x_i^2, \end{equation}
\begin{equation}\label{eqn:syy} {\rm Syy} = \sum _{i = 1}^n y_i^2, \end{equation}
\begin{equation}\label{eqn:sxy} {\rm Sxy} = \sum _{i = 1}^n x_i y_i, \end{equation}
\begin{equation}\label{eqn:syx} {\rm Syx} = \sum _{i = 1}^n y_i x_i, \end{equation}
dengan dua persamaan terakhir memiliki nilai yang sama. Dengan menggunakan Persamaan \eqref{eqn:s1=n} - \eqref{eqn:syx}, Persamaan \eqref{eqn:sse-min-find-c0} dan \eqref{eqn:sse-min-find-c1} dapat disederhanakan menjadi
\begin{equation}\label{eqn:slr-ols-c0} c_0 = \frac{ {\rm Sx} \ {\rm Sxy} - {\rm Sxx} \ {\rm Sy} }{ {\rm Sx} \ {\rm Sx} - {\rm Sxx} \ n} \end{equation}
dan
\begin{equation}\label{eqn:slr-ols-c1} c_1 = \frac{n \ {\rm Sxy} - {\rm Sx} \ {\rm Sy} }{n \ {\rm Sxx} - {\rm Sx} \ {\rm Sx} }. \end{equation}
Persamaan \eqref{eqn:sse-min-find-c0} dan \eqref{eqn:sse-min-find-c1} dapat dituliskan juga, dengan menyederhanakan somasinya
\[c_0 = \frac{ \sum x_i \sum x_i y_i - \sum x_i^2 \sum y_i }{ \sum x_i \sum x_i - \sum x_i^2 \sum 1}\]dan
\[c_1 = - \frac{ \sum 1 \sum x_i y_i - \sum x_i \sum y_i }{\sum x_i \sum x_i - \sum x_i^2 \sum 1},\]yang dapat disatukan menjadi
\begin{equation}\label{eqn:slr-ols-c0-c1} c_j = (-1)^j \ \ \frac{ \sum x_i^{1-j} \sum x_i y_i - \sum x_i^{2-j} \sum y_i }{\sum x_i \sum x_i - \sum x_i^2 \sum 1}, \end{equation}
dengan $j = 0, 1$. Lalu, apakah bentuk terakhir ini dapat dibuat lebih sederhana? Misalnya dengan Einstein summation notation atau ESN [19]?
— Sparisoma Viridi (@6unpnp) December 4, 2021
slr ls line • slr ls gradient descent