sklearn 一个热编码。 ValueError:对于稀疏输出,所有列都应该是数字或可转换为数字

我是使用 sklearn 编码的新手,我需要对我的 dtaset 的 3 列进行编码,我尝试只对一列进行编码,但它给我发送了一个错误


*ValueError Traceback(最近一次调用最后)/usr/local/lib/python3.6/dist-packages/sklearn/compose/_column_transformer.py in _hstack(self, Xs) 614 force_all_finite=False) --> 615 for X in Xs] 616 except ValueError: 5 frames ValueError: could not convert string to float: 'Vikings' 在处理上述异常期间,发生了另一个异常:ValueError Traceback (最近一次调用最后一次) /usr/local/lib/python3.6/ dist-packages/sklearn/compose/_column_transformer.py in _hstack(self, Xs) 615 for X in Xs] 616 except ValueError: --> 617 raise ValueError("对于稀疏输出,所有列都应该"618"是一个数字或可转换为数字。”)619

ValueError:对于稀疏输出,所有列都应该是数字或可转换为数字。*

当我尝试对 3 列进行编码时,它会将结果以元组的形式发送给我,但我需要将其编码而不是元组。

(0, 25) 1.0 (0, 62) 1.0 (0, 86) 1.0 (1, 3) 1.0 (1, 44) 1.0 (1, 99) 1.0...

我的代码如下

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer

ds = pd.read_csv('nfl_per.csv')

X = ds.iloc[0:2789,4:-1].values
y = ds.iloc[0:2789,-1].values

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
X = np.array(ct.fit_transform(X))
print(X)

用于编码我使用的 3 列:

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer

ds = pd.read_csv('nfl_per.csv')

X = ds.iloc[0:2789,4:-1].values
y = ds.iloc[0:2789,-1].values

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0,1,2])], remainder='passthrough')
X = np.array(ct.fit_transform(X))
print(X)

但同样,我不希望它在元组中,而是编码。

我使用的数据集如下: https://drive.google.com/file/d/1wn5coKQ5BRWS1Bll5po2H45unWtPLqTX/view?usp=sharing

我会感谢任何指导和建议。

stack overflow sklearn One Hot Encode. ValueError: For a sparse output, all columns should be a numeric or convertible to a numeric
原文答案

答案:

作者头像

尝试:

OneHotEncoder(sparse=False)