特征选择:单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小; 特征选择方法:Filter(过滤式)VarianceThreshold;Embedded(嵌入式)正则化、决策树;Wrapper(包裹式) 特征选择API:sklearn.feature_selection.VarianceThreshold,VarianceThreshold(threshold = 0.0),Variance.fit_transform(X,y) PCA:是数据维数压缩,尽可能降低原数据得维数(复杂度),损失少量信息,可以削减回归分析或者聚类分析中特征得数量; PCA语法:PCA(n_components=None)将数据分解为较低维数空间;PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features] 返回值:转换后指定维度的array 机器学习开发流程:原始数据、数据特征工程(训练数据和测试数据)、模型、模型评估(测试数据)、判断模型是否合格(不合格重新选择模型)和模型应用;
数据划分:训练数据和测试数据,分别指用于训练,构建模型;在模型检验时使用,用于评估模型是否有效; sklearn数据集划分API:sklearn.model_selection.train_test_split,sklearn.datasets:加载获取流行数据集;datasets.load_():获取小规模数据集,数据包含在datasets里;datasets.fetch_(data_home=None):获取大规模数据集,需要从网络上下载,函数的第一参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/ 转换器:fit_transform(X)、fit()和transform()区别,fit():输入数据,不计算平均值,方差等;transform():进行数据的转换; 估计器:调用fit(x_train,y_train),估计器(estimator);输入与测试集的数据;