رگریشن د متوسط په نسبت (ریاضی)

د ويکيپېډيا، وړیا پوهنغونډ له خوا
ورټوپ کړه: گرځښت, پلټل

تعریف

تاریخچه[سمول]

خطی رگریشن[سمول]

تصور کوو چی د y تر x پوری د عدم خپلواکی رابطه د یوی لمړی مرتبي په شکل کی وگورو :

Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i=1, …, n. Таким образом мы можем записать:

где означает предсказанное моделью значение y при данном x, b0 и b1 — выборочные оценки параметров модели, а  — значения ошибок аппроксимации.

Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[1][2].

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

دلته متوسط مقدار یا اندازه تعریفیږی لکه د معمول په شان: , یا se2 دا د ریگریشن د انحراف د پاتی برخی ښکارندوی ده , کوم چی د واریانس د اټکل ویاندوی دی σ2د په هغه صورت کی چی موډل صحیح وی.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t=b/sb. Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b1 — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b0, то прямая проходит через начало координат и оценка углового коэффициента равна

,

а её стандартной ошибки

thumb|right|400px|Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)

Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b0 и b1. Иначе говоря истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

Теперь можно вычислить 100(1−α/2)-процентный доверительный интервал для значения уравнения регрессии в точке x:

,

где t(1−α/2, n−2) — t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

Здесь m — кратность измерения y при данном x. И 100(1−α/2)-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

.

На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.

  1. Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)
  2. Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8