非线性回归模型——行星轨道

概述
回归统计
普通和加权最小二乘法
$L o g i s t i c$ 回归
- 对数几率分布公式
拟合一个行星轨道

概述

在统计学中，非线性回归是回归分析的一种形式，其中观测数据由函数建模，该函数是模型参数的非线性组合并且取决于一个或多个独立变量。通过逐次逼近的方法拟合数据。
在非线性回归中，形式的统计模型，
$f(x,\beta) = \frac{\beta_1x}{\beta_2 + x}.$
此函数是非线性的，因为它不能表示为两个 $\beta$ 的线性组合。
系统误差可能存在于自变量中，但其处理不在回归分析的范围内。如果自变量不是无差错的，那么这是一个变量误差模型，也在此范围之外。
非线性函数的其他示例包括指数函数，对数函数，三角函数，幂函数，高斯函数和洛伦兹曲线。

回归统计

这个过程的基本假设是模型可以用线性函数近似，即一阶泰勒级数：
$f(x_i,\beta) \approx f(x_i,0) + \sum_{j} J_{ij}\beta_j$
其中 $J_{IJ} = \frac{\partial f(x_i,\beta)}{\partial \beta_j}$ ，由此得出最小二乘估计量由下式给出。
$\hat \beta \approx (J_TJ)^{-1}J^Ty$
计算非线性回归统计量并将其用作线性回归统计量，但在公式中使用J代替X. 线性近似将偏差引入统计中。因此，在解释从非线性模型得到的统计数据时，需要比平常更多的谨慎。

普通和加权最小二乘法

最佳拟合曲线通常假定应该看起来平方的总和最小化残差。这是普通的最小二乘（OLS）方法。然而，在因变量不具有恒定方差的情况下，可以最小化加权平方残差的总和;看加权最小二乘法。理想情况下，每个权重应等于观察方差的倒数，但是在迭代加权最小二乘算法中，可以在每次迭代时重新计算权重。

$L o g i s t i c$ 回归

对数几率模型（英语：Logit model，也译作“逻辑模型”、“评定模型”、“分类评定模型”）是离散选择法模型之一。

对数几率分布公式

$\frac{e^{x'\beta}}{1 + e^{x'\beta}}$
其中参数 $\beta$ 常用最大似然估计。
下面介绍与 $L o g i s t i c$ 回归相似的一个模型，仅是分布公式上的不同，其算法原理一致。

拟合一个行星轨道

问题一

行星遵从椭圆性轨道，在笛卡尔坐标 $(x, y)$ 下可以用下列方程来表示：
$b_0 + b_1x + b_2y + b_3xy + b_4y^2 = x^2$
$\bullet$ 根据行星轨道在表中10个位置的观测值，运用最小二乘法来拟合5个参数： $b_0,b_1,b_2,b_3,b_4$ ，构造出拟合曲线。
$\begin{array}{c|lcr} x & 1.02 & 0.95 & 0.87 & 0.77 & 0.67 & 0.56 & 0.44 & 0.30 & 0.16 & 0.01\\ \hline y & 0.39 & 0.32 & 0.27 & 0.22 & 0.18 & 0.15 & 0.13 & 0.12 & 0.13 & 0.15 \\ \end{array}$
在同一幅图上画出拟合的椭圆性轨道（连续的实线）及观测结果，并计算误差的平方和，评估拟合效果。

思路及解答

本题是给出了10对 $x, y$ 的数据，通过这个数据进行拟合，值得注意的是这个拟合不像普通的线性回归是：
$f(x) = b_0 + b_1x + b_2x^2 + ... + b_nx^n$
其中 $n = 1, 2, 3, . . .$
如是这种形式，可以直接利用MATLAB中的regress函数进行计算。

本题的函数是：
$b_0 + b_1x + b_2y + b_3xy + b_4y^2 = x^2$
不妨改写为：
$b_0 + b_1x + b_2y + b_3xy + b_4y^2 - x^2 = 0$
然后将变量 $x, y$ 看作是已知量，将 $b_0,b_1,b_2,b_3,b_4$ 看作是变量参数，那么可以得到一个距离函数（为最小二乘法作准备）：
$\epsilon(b_0,b_1,b_2,b_3,b_4) = \sum_{i=1}^{10} (b_0 + xb_1 + yb_2 + xyb_3 + y^2b_4 - x^2)^2$
已知的是 $x, y$ 的10组数据，现在要根据已知数据去拟合出 $b$ 的值，下面就要利用一些高等数学和线性代数的知识（很基础）。

最小二乘法

要求得 $min||\epsilon||^2$ ，即应满足：
$\frac{\partial\epsilon}{b_0} = \frac{\partial\epsilon}{b_1} = \frac{\partial\epsilon}{b_2} = \frac{\partial\epsilon}{b_3} = \frac{\partial\epsilon}{b_4} = 0$
下面以 $\frac{\partial\epsilon}{b_4} = 0$ 为例：
$\frac{\partial\epsilon}{b_4} = \frac{\partial(\sum_{i=1}^{10} (b_0 + b_1x + b_2y + b_3xy + b_4y^2 - x^2)^2)}{b_4} \\ =2\sum_{i=1}^{10}(b_0 + b_1x + b_2y + b_3xy + b_4y^2 - x^2)\cdot y^2\\ =2\sum_{i=1}^{10}(b_0y^2 + b_1xy^2 + b_2y^3 + b_3xy^3 + b_4y^4 - x^2y^2)$
然后将含有 $b_0,b_1,b_2,b_3,b_4$ 的项放在左侧，其余放在右侧，得到：
$\sum b_0y^2 + \sum b_1xy^2 + \sum b_2y^3 + \sum b_3 xy^3 + \sum b_4y^4 = \sum x^2y^2$
写成矩阵形式如下：
$\begin{bmatrix} \sum y^2 & \sum xy^2 & \sum y^3 & \sum xy^3 & \sum y^4 \\ \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}= \begin{bmatrix} \sum x^2y^2 \end{bmatrix}$
类似的，得到 $\frac{\partial\epsilon}{b_0}$ ， $\frac{\partial\epsilon}{b_1}$ ， $\frac{\partial\epsilon}{b_2}$ ， $\frac{\partial\epsilon}{b_3}$ 分别如下：
$\begin{bmatrix} \sum 1 & \sum x & \sum y & \sum xy & \sum y^2 \\ \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}= \begin{bmatrix} \sum x^2 \end{bmatrix}$
$\begin{bmatrix} \sum x & \sum x^2 & \sum xy & \sum x^2y & \sum xy^2 \\ \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}= \begin{bmatrix} \sum x^3 \end{bmatrix}$
$\begin{bmatrix} \sum y & \sum xy & \sum y^2 & \sum xy^2 & \sum y^3 \\ \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}= \begin{bmatrix} \sum x^2y \end{bmatrix}$
$\begin{bmatrix} \sum xy & \sum x^2y & \sum xy^2 & \sum x^2y^2 & \sum xy^3 \\ \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}= \begin{bmatrix} \sum x^3y \end{bmatrix}$
其中， $\sum1 = 10$ .
将五个矩阵方程合并成一个，用来表示总的方程组，如下：
$\begin{bmatrix} \sum 1 & \sum x & \sum y & \sum xy & \sum y^2 \\ \sum x & \sum x^2 & \sum xy & \sum x^2y & \sum xy^2 \\ \sum y & \sum xy & \sum y^2 & \sum xy^2 & \sum y^3 \\ \sum xy & \sum x^2y & \sum xy^2 & \sum x^2y^2 & \sum xy^3 \\ \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}= \begin{bmatrix} \sum x^2 \\ \sum x^3 \\ \sum x^2y \\ \sum x^3y \\ \sum x^2y^2 \end{bmatrix}$
在程序中是：

M = [10, sum(x), sum(y), sum(x.*y), sum(y.^2);
     sum(x), sum(x.^2), sum(x.*y), sum(x.*x.*y), sum(x.*y.*y);
     sum(y), sum(x.*y), sum(y.^2), sum(x.*y.*y),sum(y.^3);
     sum(x.*y), sum(x.*x.*y), sum(x.*y.*y),sum(x.*x.*y.*y),sum(x.*y.*y.*y);
     sum(y.^2), sum(x.*y.*y), sum(y.^3), sum(x.*y.*y.*y), sum(y.^4)];
N = [sum(x.^2);
     sum(x.^3);
     sum(x.*x.*y);
     sum(x.*x.*x.*y);
     sum(x.*x.*y.*y)];

可以写成：
$\begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}=N$
则参数
$\begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}=M^{-1}\cdot N$
即：

b = M \ N;

经过编程求解，最后的结果：
$\begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ b_3 \\ b_4 \end{bmatrix}= \begin{bmatrix} -0.4329 \\ 0.5514 \\ 3.2229 \\ 0.1436 \\ -2.6356 \end{bmatrix}$
$1.4824\times 10^{-4}$

问题二

$\bullet$ 若上述函数表中 $x, y$ 加上扰动 $\Delta x,\Delta y$ ，对新的 $x, y$ 重新运用最小二乘法计算 $b_0,b_1,b_2,b_3,b_4$ 值，构造出新的拟合曲线。

解答

添加扰动和其数据发生了变化,导致曲线、误差、拟合效果都发生了变化。
其中和方差(The sum of squares dueto error)为
$\sum_{i = 1}^n w_i(y_i - \hat y_i)^2$
SSE越接近于0，说明模型选择和拟合更好，数据预测也越成功。
两次拟合的曲线
由于我在画图的过程中，是遍历 $x$ 并根据方程计算 $y$ ，在暴力的求根公式下可能会出现复数根的情况，所以我自己给来 $x$ 一个范围，导致了图像出现了某种莫名的“缺失”。
其中我自己编写了一个测试程序，来粗略的给出 $x$ 的范围。

b = [-0.432894270264437;0.551446963140366;3.22294033810576;0.143646182598893;-2.63562548371186];
i = 1;
for x_ = -0.5:0.01:2
    A = b(5);
    B = b(4) * x_ + b(3);
    C = -x_^2 + b(2) * x_ + b(1);
    delta(i)= (B^2 - 4 * A * C)^0.5;
    if isreal(delta(i))
        x_
    end
end

变量 $x$ _输出的是求得的根 $y$ 满足不是复数的筛选。

完整代码

由于本题涉及到绘图以及矩阵处理问题，我用MATLAB比较顺手，故先给出MATLAB的代码部分，python的代码以后会贴出。

% main.m
clear
clc
% polyfit
x = [1.02, 0.95, 0.87, 0.77, 0.67, 0.56, 0.44, 0.3, 0.16, 0.01];
y = [0.39, 0.32, 0.27, 0.22, 0.18, 0.15, 0.13, 0.12, 0.13, 0.15];

delta_x = [-0.029, 0.0007, -0.0082, -0.0038, -0.0041,...
    0.0026, -0.0001, -0.0058, -0.0005, -0.0034];
delta_y = [-0.0033, 0.0043, 0.0006, 0.0020, 0.0044,...
    0.0009, 0.0028, 0.0034, 0.0059, 0.0024];

[b1, sse1] = my_polyfit(x,y);
[b2, sse2] = my_polyfit(x+delta_x, y+delta_y);

% my_polyfit.m
function [b,sse] = my_polyfit(x,y)
M = [10, sum(x), sum(y), sum(x.*y), sum(y.^2);
     sum(x), sum(x.^2), sum(x.*y), sum(x.*x.*y), sum(x.*y.*y);
     sum(y), sum(x.*y), sum(y.^2), sum(x.*y.*y),sum(y.^3);
     sum(x.*y), sum(x.*x.*y), sum(x.*y.*y),sum(x.*x.*y.*y),sum(x.*y.*y.*y);
     sum(y.^2), sum(x.*y.*y), sum(y.^3), sum(x.*y.*y.*y), sum(y.^4)];

N = [sum(x.^2);
     sum(x.^3);
     sum(x.*x.*y);
     sum(x.*x.*x.*y);
     sum(x.*x.*y.*y)];
 
b = M \ N;

% drow and compare
i = 1;
for x_ = -0.48:0.001:1
    A = b(5);
    B = b(4) * x_ + b(3);
    C = -x_^2 + b(2) * x_ + b(1);
    y_1(i) = (-B + (B^2 - 4 * A * C)^0.5) / (2 * A);
    y_2(i) = (-B - (B^2 - 4 * A * C)^0.5) / (2 * A);
    plot(x_, y_1(i),'.');
    hold on
    plot(x_, y_2(i),'.');
    i = i + 1;
end



for i = 1: 10
    plot(x(i),y(i),'*')
end

sse = 0;
for i = 1:10
    sse = sse + (b(1)+b(2)*x(i)+b(3)*y(i)+b(4)*x(i)*y(i)+b(5)*y(i)*y(i)-x(i)^2)^2;
end

该文章首发于 zyairelu.cn
欢迎来到我的网站进行评论及研讨
个人邮箱[email protected]

非线性回归模型的原理及评估——解决行星轨道的拟合问题

非线性回归模型——行星轨道

概述

回归统计

普通和加权最小二乘法

$L o g i s t i c$ 回归

对数几率分布公式

拟合一个行星轨道

问题一

思路及解答

最小二乘法

问题二

解答

完整代码

猜你喜欢

非线性回归模型的原理及评估——解决行星轨道的拟合问题

非线性回归模型——行星轨道

概述

回归统计

普通和加权最小二乘法

L o g i s t i c Logistic Logistic回归

对数几率分布公式

拟合一个行星轨道

问题一

思路及解答

最小二乘法

问题二

解答

完整代码

猜你喜欢

$L o g i s t i c$ 回归