Корреляционный и регрессионный анализ

Корреляционный анализ

Основная задача — выявление связи между случайными переменными

Коэффициент корреляции:

\(\rho = \frac{M(XY) - a_x a_y}{\sigma_x \sigma_y}\)

Условные математические ожидания и дисперсии:

\(M_y(X) = a_x + \rho \frac{\sigma_x}{\sigma_y}(y - a_y)\)
\(M_x(Y) = a_y + \rho \frac{\sigma_y}{\sigma_x}(x - a_x)\)
\(D_y(X) = \sigma_x^2 (1 - \rho^2), \quad D_x(Y) = \sigma_y^2 (1 - \rho^2)\)

Выборочный коэффициент корреляции:

\(r = \frac{\overline{xy} - \overline{x}\,\overline{y}}{s_x s_y}\)

r значим на уровне \(\alpha\), если

\(\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}} > t_{1-\alpha, n-2}\)

Регрессионный анализ

Основная задача — установление формы связи между переменными

Уравнение линейной регрессии:

Парной:

\(y_x = \overline{y} + b_1 (x - \overline{x}), \quad b_1 = \frac{\overline{xy} - \overline{x}\,\overline{y}}{s_x^2}\)

Множественной:

\(y_x = Xb, \quad b = (X^T X)^{-1} X^T Y\)

Интервальная оценка для \(M_x(Y)\):

\(y_x - t_{1-\alpha,n-p-1}s_y \leq M_x(Y) \leq y_x + t_{1-\alpha,n-p-1}s_y\)
где \(\; s_y = S_y \sqrt{\frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}\)

Уравнение регрессии значимо на уровне \(\alpha\), если

\(F = \frac{R^2 (n - p - 1)}{(1 - R^2)p} > F_{1-\alpha,p,n-p-1}\)

Основные распределения и их числовые характеристики

Математическое ожидание и дисперсия:

\(M(X) = \sum_{i=1}^n x_i p_i, \quad D(X) = M[X^2] - (M[X])^2\)
\(M(X) = \int_{-\infty}^{+\infty} x \cdot p(x)\,dx\)

Биномиальное:

\(P(X=m) = C_n^m p^m q^{n-m}, \quad M(X)=np, \; D(X)=npq\)

Пуассона:

\(P(X=m) = \frac{\lambda^m e^{-\lambda}}{m!}, \quad M(X)=\lambda, \; D(X)=\lambda\)

Нормальное:

\(f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-a)^2}{2\sigma^2}}, \quad M(X)=a, \; D(X)=\sigma^2\)

Логнормальное:

\(\varphi(x) = \frac{1}{\sigma x \sqrt{2\pi}} e^{-\frac{(\ln x - a)^2}{2\sigma^2}}\)
\(M(X)=a e^{\tfrac{1}{2}\sigma^2}, \; D(X)=a^2 e^{2\sigma^2}(e^{\sigma^2} - 1)\)

Показательное:

\(\varphi(x)=\lambda e^{-\lambda x}, \; M(X)=\tfrac{1}{\lambda}, \; D(X)=\tfrac{1}{\lambda^2}\)

Хи-квадрат:

\(\chi^2(n) = \sum_{i=1}^n z_i^2, \; z_i \sim N(0,1)\)
\(M(\chi^2(n))=n, \; D(\chi^2(n))=2n\)

Стьюдента:

\(t(n) = \frac{z}{\sqrt{\chi^2(n)/n}}, \quad z \sim N(0,1)\)
\(M(t)=0, \; D(t)=\frac{n}{n-2}\)

Фишера-Снедекора:

\(F(m,n) = \frac{\chi^2(m)/m}{\chi^2(n)/n}\)