使用Python对UCI机器学习库中的葡萄酒质量统计分析和特征提取
用Python的pandas库读取葡萄酒数据集,并用describe函数生成数据集描述统计分析结果。然后将结果写入Description.csv。同时使用特征选择,提取葡萄酒数据集的关键特征,以便于后续使用。代码如下:
import pandas as pd
import os
df=pd.read_csv('winequality-white.csv', sep=";")
d=df.describe()
d
dpath=os.path.abspath(os.pardir)+"\Results\Description.csv"
d.to_csv(dpath)
特征选择
feature_names =df.columns[:-1]
from sklearn.feature_selection import SelectKBest, f_regression
X=df[feature_names]
y=df['quality']
selector=SelectKBest(f_regression, k=5) # 取5个最佳特征
selector.fit(X, y)
selected_names=X.columns[selector.get_support()] # 选出最佳特征名称
print("Selected features:", selected_names)
用户评论