机器学习基础之数据降维与数据转换

科技2023-10-11 119

数据降维

特征选择：单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小；特征选择方法：Filter(过滤式)VarianceThreshold;Embedded（嵌入式)正则化、决策树；Wrapper（包裹式）特征选择API：sklearn.feature_selection.VarianceThreshold，VarianceThreshold(threshold = 0.0)，Variance.fit_transform(X,y) PCA：是数据维数压缩，尽可能降低原数据得维数（复杂度），损失少量信息，可以削减回归分析或者聚类分析中特征得数量； PCA语法：PCA(n_components=None)将数据分解为较低维数空间；PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features] 返回值：转换后指定维度的array 机器学习开发流程：原始数据、数据特征工程（训练数据和测试数据）、模型、模型评估（测试数据）、判断模型是否合格（不合格重新选择模型）和模型应用；

数据划分和数据转换

数据划分：训练数据和测试数据，分别指用于训练，构建模型；在模型检验时使用，用于评估模型是否有效； sklearn数据集划分API：sklearn.model_selection.train_test_split，sklearn.datasets：加载获取流行数据集；datasets.load_()：获取小规模数据集，数据包含在datasets里；datasets.fetch_(data_home=None)：获取大规模数据集，需要从网络上下载，函数的第一参数是data_home,表示数据集下载的目录，默认是 ~/scikit_learn_data/ 转换器：fit_transform(X)、fit()和transform()区别，fit()：输入数据，不计算平均值，方差等；transform()：进行数据的转换；估计器：调用fit(x_train,y_train)，估计器（estimator)；输入与测试集的数据；

Processed: 0.016, SQL: 9