ML-决策树-泰坦尼克号

科技2026-02-21 24

ML-决策树-泰坦尼克号

流程代码项目总结

流程

1.数据加载 2.数据特征 3.数据预处理:均值填充，最大值填充 4.特征选择 5.构造ID3树 6.决策树训练 7.决策树预测 8.准确率输出

代码

import pandas as pd from sklearn.feature_extraction import DictVectorizer from sklearn.tree import DecisionTreeClassifier # 数据加载 train_data = pd.read_csv('C:\\Users\\YXJ\\Documents\\Tencent Files\\1064584707\\FileRecv\\Titanic_Data-master\\train.csv') test_data = pd.read_csv('C:\\Users\\YXJ\\Documents\\Tencent Files\\1064584707\\FileRecv\\Titanic_Data-master\\train.csv') # 数据探索 print(train_data.info()) #数据信息 print('-'*30) print(train_data.describe()) #数据描述 print('-'*30) print(train_data.describe(include=['O'])) print('-'*30) print(train_data.head())#前五条数据 print('-'*30) print(train_data.tail())#后五条数据 print('-'*30) # 数据清洗 # 使用平均年龄来填充年龄中的 nan 值 train_data['Age'].fillna(train_data['Age'].mean(), inplace=True) test_data['Age'].fillna(test_data['Age'].mean(),inplace=True) # 使用票价的均值填充票价中的 nan 值 train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True) test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True) print(train_data['Embarked'].value_counts()) # 使用登录最多的港口来填充登录港口的 nan 值 train_data['Embarked'].fillna('S', inplace=True) test_data['Embarked'].fillna('S',inplace=True) # 特征选择 features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] train_features = train_data[features] train_labels = train_data['Survived'] test_features = test_data[features] #特征向量化 #将dict类型的list数据，转换成numpy array，具有属性vec.feature_names_，查看提取后的特征名。 #pclass和sex两列分类变量转换为了数值型变量（只有0和1），age列数值型保持不变 dvec=DictVectorizer(sparse=False) #sparse=False意思是不产生稀疏矩阵 train_features=dvec.fit_transform(train_features.to_dict(orient='record')) #特征名字 print(dvec.feature_names_) # 构造 ID3 决策树 clf = DecisionTreeClassifier(criterion='entropy') # 决策树训练 clf.fit(train_features, train_labels) test_features=dvec.transform(test_features.to_dict(orient='record')) # 决策树预测 pred_labels = clf.predict(test_features) # 得到决策树准确率 acc_decision_tree = round(clf.score(train_features, train_labels), 6) print(u'score 准确率为 %.4lf' % acc_decision_tree) #0.9820 ##交叉验证 ```python import numpy as np from sklearn.model_selection import cross_val_score #使用K折交叉验证，统计决策树准确率 score=cross_val_score(clf,train_features,train_labels,cv=10) print(score) print(u'score 准确率为 %.4lf' % np.mean(score)) #score 准确率为 0.7801

项目总结

采用决策树方法，对泰坦尼克号乘客生存问题进行预测，准确率达0.9820，使用K折交叉验证后准确率为0.7801

Processed: 0.009, SQL: 9