【Kaggleの本で勉強(4/18)】Tabular_Playground 組み合わせ(続き)

よくよく本とDiscussionとコードとを見直してやり直してみた。 本に書いてあったアンサンブルは回帰タスクだったんで間違えてた。 二項分類になるように、0か1に変換したらOKでした。 ただ、ランダムフォレストを組み合わせても良くはならなかった。。 Light…

【Kaggleの本で勉強(4/17)】Tabular_Playground 組み合わせ

LightGBMとランダムフォレストを半分ずつ組み込んでsubmitしてみたところ、 あれ??? スコアが出ない。。。なぜじゃ。 もう、今日は遅くなってしまったので解明はまた今度。。

【Kaggle日記(4/17)】Tabular_Playground ②

この間、LightGBMで学習したのだけど、KaggleのDiscussionで一番良い成績の人のやつを見たら、他のツールで学習したのとアンサンブルしていたので、それに習ってランダムフォレストで学習してみました。 ほとんど元のデータをさわらないで欠損値の補正とラベ…

【Kaggleの勉強(4/17)】Tabular_Playground‐2021April 欠損値とかの補正

2021AprilのDiscussionを参考に見てみたら欠損値を鮮やかに(初心者の私から見ると、ほんとに鮮やか)処理している方がいたので今後のために書き残します。 ただ、プログラムの意味が難しくて解読が必要でした。■平均値で穴埋め これは本にも書いてあったの…

【Kaggle日記(3/27)】Titanic、HousePricesの次:Tabular_Playground ①

というわけで、Tabular_Playgroundというのをやってみた。 Titanicと同じようなデータセットということなので、本を頼りにやってみてとりあえず初回のSubmitまでできた。 さて、この後どうやれば精度があがるのやら。 どこか参考になるページを探さねば。

【Kaggle日記】Titanic、HousePricesの次は?

ひとまず、Kaggleデータ分析入門をやり終わったので、TitanicとHousePricesには触れてみたものの、さて次はどうすればいいのかしら。。。 ググってみた結果このページがわかりやすかった。 atmarkit.itmedia.co.jp ここに初心者向けのコンペのリストがあるん…

【Kaggleの本で勉強(3/21)】HousePrices 追加分析② 高額なおうちの条件を可視化する

価格の上位10%に入っている家の条件を決定木を使って可視化します。 決定木はLightGBMと比べて精度が低いらしいので予測する段階では使わないみたいです。でも、LightGBMで分析した結果を可視化することで、新たな特徴量を生成するヒントが得られることもあ…

【Kaggleの本で勉強(3/21)】HousePrices 追加分析②の途中(graphvizを使う)

決定木の出力結果を描画できる「graphbiz」というツールがあるようで、本に書いてある通りにpip installしたけどエラーが出て進まなかった。 結構な時間を使ってしまたので、備忘のために書き残します。 まず、本に書いてある通りにふつうのコマンドプロンプ…

【Kaggleの本で勉強(3/15)】HousePrices 追加の分析①統計手法による家のクラスタ分析をする

ここからは、追加の分析だそうです。 はじめに、統計手法によるクラスタ分析で、k-meansによるクラスタ分析をしました。 その次に、主成分分析をしました。コードの中身がもはやよくわからなくなってる。今度、LightGBMのコードの内容を復習したいな。 gist7…

【Kaggleの本で勉強(3/13)】HousePrices アンサンブルしてみる!

そもそもLightGBMもアンサンブルのような気がするけど。 別々の手法でやった結果を組み合わせると精度が良くなるらしいので、XGBoostとLightGBMの結果を組み合わせてみる。 手法同士が独立しているほど、よくなるはず。 これまでにXGBoostとLightGBMの両方や…

【Kaggleの本で勉強(3/13)】HousePrices ランダムフォレストとXGBoostで学習する!

LightGBM以外のツールで学習してみる。 ランダムフォレストとXGBoostの2つです。でも、LightGBMの方が良くつかわれているみたいです。 gist7ce8eb2416eaa2554629360d07d89db6

【Kaggleの本で勉強(3/10)】HousePrices ますます精度を上げてsubmitする!

ハイパーパラメータとかいうやつを調節して精度を上げる回です。 LightGBMの設定値みたいなもんなんでしょうかね。全く理解できていないですが、本の通りに進めていくと、あら不思議、精度が上がりました。 もはや、魔法を習っているみたいです。 そんでもっ…

【Kaggleの本で勉強(3/7)】HousePrices データの前処理を追加して精度を上げるの続き

今回は精度を上げる処理の続き。広さや年数の変数を組み合わせて新しい変数を追加してまた学習させて結果を見る。本に書いてある事なので、追加することでどんどん良くなるけど、追加して悪くなるケースもあるみたい。 gist40c58bf16409953eae65f9b8ac086841

【Kaggleの本で勉強(3/6)】HousePrices データの前処理を追加して精度を上げる

外れ値とか欠損値の多い項目を整理する処理を加えて、もう一度学習させて結果をみる。RMSEは0.1298064868429131と、少しだけ小さくなりました! gist00806caef2fb3a59c7cc1fed7dac1ea2

【Kaggleの本で勉強(2/27)】SalePrice 対数化で精度を上げる

目的変数のSalePriceを対数化することで、正規分布に近くなるので機械学習したときの精度が良くなる、らしい。今日はそこだけ追加。 giste038a635696925b4d155da3c6144a43d

【Kaggleの本で勉強(2/23)】HousePrices とりあえずRMSEを計算する

HousePricesのデータを使ってPricesを予測してみて、ひとまず平均二乗誤差(RMSE)を計算してみるところまで。次回は精度の改善となる模様。 gist39d97b26fc7e8cf2a8ccbcc8708b4df1

【Kaggleの本で勉強(2/20)】House Prices データの前処理

Titanicは終わり、今日からはHousePricesという新しい題材。 Kaggleのチュートリアルのようです。 gist51e74244927e5466bf49adedf6df1fd7

【Kaggleの本で勉強(2/19)】Titanic 精度以外の分析視点

先週は、ひとまず初めての機械学習の結果をKaggleに投稿してみました。 今週は、他の観点で分析を深めていって精度を高めることのようです。 どれか1つの項目に着目して分けていく方法や、統計手法・機械学習手法を使う方法があるようです。後者は、k-means…

【Kaggleの本で勉強(2/13)】Titanicで初投稿

この本を読んでアラフィフのおじさんがプログラミングを 勉強していくブログです! 勉強したことの積み上げのために開始しました! www.shoeisha.co.jp とりあえず、SECTION3.9までやってみて、Kaggleに初めて投稿してみました。 gist7d27970d410247c77091bf…