2022-03-01から1ヶ月間の記事一覧
というわけで、Tabular_Playgroundというのをやってみた。 Titanicと同じようなデータセットということなので、本を頼りにやってみてとりあえず初回のSubmitまでできた。 さて、この後どうやれば精度があがるのやら。 どこか参考になるページを探さねば。
ひとまず、Kaggleデータ分析入門をやり終わったので、TitanicとHousePricesには触れてみたものの、さて次はどうすればいいのかしら。。。 ググってみた結果このページがわかりやすかった。 atmarkit.itmedia.co.jp ここに初心者向けのコンペのリストがあるん…
価格の上位10%に入っている家の条件を決定木を使って可視化します。 決定木はLightGBMと比べて精度が低いらしいので予測する段階では使わないみたいです。でも、LightGBMで分析した結果を可視化することで、新たな特徴量を生成するヒントが得られることもあ…
決定木の出力結果を描画できる「graphbiz」というツールがあるようで、本に書いてある通りにpip installしたけどエラーが出て進まなかった。 結構な時間を使ってしまたので、備忘のために書き残します。 まず、本に書いてある通りにふつうのコマンドプロンプ…
ここからは、追加の分析だそうです。 はじめに、統計手法によるクラスタ分析で、k-meansによるクラスタ分析をしました。 その次に、主成分分析をしました。コードの中身がもはやよくわからなくなってる。今度、LightGBMのコードの内容を復習したいな。 gist7…
そもそもLightGBMもアンサンブルのような気がするけど。 別々の手法でやった結果を組み合わせると精度が良くなるらしいので、XGBoostとLightGBMの結果を組み合わせてみる。 手法同士が独立しているほど、よくなるはず。 これまでにXGBoostとLightGBMの両方や…
LightGBM以外のツールで学習してみる。 ランダムフォレストとXGBoostの2つです。でも、LightGBMの方が良くつかわれているみたいです。 gist7ce8eb2416eaa2554629360d07d89db6
ハイパーパラメータとかいうやつを調節して精度を上げる回です。 LightGBMの設定値みたいなもんなんでしょうかね。全く理解できていないですが、本の通りに進めていくと、あら不思議、精度が上がりました。 もはや、魔法を習っているみたいです。 そんでもっ…
今回は精度を上げる処理の続き。広さや年数の変数を組み合わせて新しい変数を追加してまた学習させて結果を見る。本に書いてある事なので、追加することでどんどん良くなるけど、追加して悪くなるケースもあるみたい。 gist40c58bf16409953eae65f9b8ac086841
外れ値とか欠損値の多い項目を整理する処理を加えて、もう一度学習させて結果をみる。RMSEは0.1298064868429131と、少しだけ小さくなりました! gist00806caef2fb3a59c7cc1fed7dac1ea2