tachiken's blog

開発、プログラミング、その他

Python 機械学習 データを訓練データとテストデータに分ける

例えばarray_dataという506個の14この特徴量をもった numpy arrayがあったとして、それの90パーセントを 訓練データ、残りの10パーセントをテストデータとしたいとする。

こんな時は sklearnのtrain_test_splitメソッドを使うと便利。

from sklearn.model_selection import train_test_split
train_data,test_data =train_test_split(array_data, train_size = 0.9, random_state = 1)

これにより、

train_data (455, 14)
test_data (51, 14)

と、データが2つに分かれる。