基于python数据分析(分析篇七:预测误差)

    科技2024-10-14  19

    一、预测,回归

    算法:为了完成某个计算而执行的任何过程。

    1.散点图的使用 只要是涉及到两种变量都应该使用(根本在于看出散点图两种变量中的之间的关系)

    散点图:用于展现数据快捷经典的方式,现实的是数据的分布情况, 与直方图不同的是,散点图显示的两种变量,散点图现实出现观察结果的成对关 系,一个好的散点图可以是原因说明的一个重要组成部分。

    2.直线的使用

    贯穿数据的直线有可能是有效的预测办法

    直线的来源:考虑我们尝试解决问题时,使用的算法

    散点图的合理分割,确定期望与实际相匹配的对象。有助于确定直线

    平均值图形

    定义:散点图,显示出X轴上的每个区间相对应的Y轴的数值

    画一条把图中平均值连接起来的直线,利用他就可以预测我们想要的数据。 3.使用

    具有相关性,相关性为1或者是-1的时候,非常可靠的使用线性回归的的方式。利用程序的得到相关的函数,进而确定出我们需要的方程。

    二、误差/合理误差

    预测失准不稀奇,但是预测的时候需要给出误差范围。 ·回归方程预测的是人们的平均水平,不是每个人都在平均水平

    1.外插法

    定义:回归方程预测数据范围以外的数值车各位外插法。

    内插法对数据范围内的点进行预测,这也是回归方程本来的目的,内插法相对很准确; 人们随时都在使用外插法。使用外插法时就要指定附加假设条件,明确白确实不考虑数据集外发生的情况。 2.机会

    机会误差=实际结果与模型预测结果之间的偏差

    回归分析很少不偏不倚,这种实际结果与预测结果之间的偏差叫做机会误差,统计学中又把机会误差成为残差。

    对残差的分析是优秀的统计模型的核心 指出误差并不意味着我们的分析是错误的,只能说明我们对于的真实程度无法 隐瞒,我们的客户越是理解我们的预测,越是能根据预测做出正确的决策。

    3.指定误差

    需要一个统计值,体现出典型的点(观察结果)相对于回归线的平均偏移量

    可以告诉客户:实际结果与典型预测结果之间可能有多大差距

    用均方根误差定量表示残差分析 使用程序确定均方根误差(后续介绍使用python处理)

    4,多条回归线

    分区(将数据拆分成几个组称为分割)确定每个区域内的均方根误差管理误差预测和解释的平衡效果(合理的选择回归线的条数)
    Processed: 0.021, SQL: 8