『Pythonではじめる機械学習』第3刷正誤表

下記の誤りがありました。お詫びして訂正いたします。

本ページに掲載されていない誤植など間違いを見つけた方は、japan＠oreilly.co.jpまでお知らせください。

場所	誤	正
p49、In[28]の直前	前述したように、このデータセットには導出された105の特徴量を持つ	前述したように、このデータセットには導出された104の特徴量を持つ
p54、Out[35]の下	さらに、105の特徴量のうち	さらに、104の特徴量のうち
p54、In[36]の5行目	`nprint("Test set score: {:.2f}".format(lasso001.score(X_test, y_test)))`	`print("Test set score: {:.2f}".format(lasso001.score(X_test, y_test)))`
p54、最後	105の特徴量のうち、わずか33しか使っていない。	104の特徴量のうち、わずか33しか使っていない。
p76、6行目	ルートから右の枝をたどると、`worst radius <= 16.795`に	ルートから右の枝をたどると、`worst radius > 16.795`に
p76、10行目	ルートから左に行った場合、つまり`worst radius > 16.795`	ルートから左に行った場合、つまり`worst radius <= 16.795`
p139、12行目	このデータセットには特徴量が30もあるので、30×14＝420の散布図	このデータセットには特徴量が30もあるので、30×29 / 2＝435の散布図
p204、囲みの最後	表3-1の`X_train`と`y_train`は訓練データと訓練ラベル、`X_test`と`y_test`はテストデータとテストラベルである。	表3-1の`X_train`と`y_train`は訓練データと訓練ラベル、`X_test`はテストデータである。
p280、下から7行目	ダミークラス分類器のf-値は0.13だが、	ダミークラス分類器のf-値は0.10だが、
p283、サソリアイコン	スレッショルドを設定する場合には、テストセットを使わないように注意しよう。	ここでは話を簡単にするためにテストセットの結果を用いてスレッショルドを設定したが、実際にはテストセットを使ってはいけない。
p331、数式修正	tfidf (w, d) ＝ tf log (N ＋ 1 / Nw ＋ 1) ＋ 1	tfidf (w, d) ＝ tf (log (N ＋ 1 / Nw ＋ 1) ＋ 1)
p331、数式の下3行目	ユークリッド距離	ユークリッド長
p331、数式の下4行目	スケール変換を行う	スケール変換を行う＊2 ＊2これは各文書の個々の特徴量を、その文書のすべての特徴量の自乗和の平方根で割ることを意味する。
p331、Out[23]の直下	この結果からわかるように、ワード頻度だけを用いるのに比べて	この場合にはtf-idf変換を行っても性能は向上しなかった。