2022-03-01から1ヶ月間の記事一覧

【Kaggle日記(3/27)】Titanic、HousePricesの次:Tabular_Playground ①

というわけで、Tabular_Playgroundというのをやってみた。 Titanicと同じようなデータセットということなので、本を頼りにやってみてとりあえず初回のSubmitまでできた。 さて、この後どうやれば精度があがるのやら。 どこか参考になるページを探さねば。

【Kaggle日記】Titanic、HousePricesの次は?

ひとまず、Kaggleデータ分析入門をやり終わったので、TitanicとHousePricesには触れてみたものの、さて次はどうすればいいのかしら。。。 ググってみた結果このページがわかりやすかった。 atmarkit.itmedia.co.jp ここに初心者向けのコンペのリストがあるん…

【Kaggleの本で勉強(3/21)】HousePrices 追加分析② 高額なおうちの条件を可視化する

価格の上位10%に入っている家の条件を決定木を使って可視化します。 決定木はLightGBMと比べて精度が低いらしいので予測する段階では使わないみたいです。でも、LightGBMで分析した結果を可視化することで、新たな特徴量を生成するヒントが得られることもあ…

【Kaggleの本で勉強(3/21)】HousePrices 追加分析②の途中(graphvizを使う)

決定木の出力結果を描画できる「graphbiz」というツールがあるようで、本に書いてある通りにpip installしたけどエラーが出て進まなかった。 結構な時間を使ってしまたので、備忘のために書き残します。 まず、本に書いてある通りにふつうのコマンドプロンプ…

【Kaggleの本で勉強(3/15)】HousePrices 追加の分析①統計手法による家のクラスタ分析をする

ここからは、追加の分析だそうです。 はじめに、統計手法によるクラスタ分析で、k-meansによるクラスタ分析をしました。 その次に、主成分分析をしました。コードの中身がもはやよくわからなくなってる。今度、LightGBMのコードの内容を復習したいな。 gist7…

【Kaggleの本で勉強(3/13)】HousePrices アンサンブルしてみる!

そもそもLightGBMもアンサンブルのような気がするけど。 別々の手法でやった結果を組み合わせると精度が良くなるらしいので、XGBoostとLightGBMの結果を組み合わせてみる。 手法同士が独立しているほど、よくなるはず。 これまでにXGBoostとLightGBMの両方や…

【Kaggleの本で勉強(3/13)】HousePrices ランダムフォレストとXGBoostで学習する!

LightGBM以外のツールで学習してみる。 ランダムフォレストとXGBoostの2つです。でも、LightGBMの方が良くつかわれているみたいです。 gist7ce8eb2416eaa2554629360d07d89db6

【Kaggleの本で勉強(3/10)】HousePrices ますます精度を上げてsubmitする!

ハイパーパラメータとかいうやつを調節して精度を上げる回です。 LightGBMの設定値みたいなもんなんでしょうかね。全く理解できていないですが、本の通りに進めていくと、あら不思議、精度が上がりました。 もはや、魔法を習っているみたいです。 そんでもっ…

【Kaggleの本で勉強(3/7)】HousePrices データの前処理を追加して精度を上げるの続き

今回は精度を上げる処理の続き。広さや年数の変数を組み合わせて新しい変数を追加してまた学習させて結果を見る。本に書いてある事なので、追加することでどんどん良くなるけど、追加して悪くなるケースもあるみたい。 gist40c58bf16409953eae65f9b8ac086841

【Kaggleの本で勉強(3/6)】HousePrices データの前処理を追加して精度を上げる

外れ値とか欠損値の多い項目を整理する処理を加えて、もう一度学習させて結果をみる。RMSEは0.1298064868429131と、少しだけ小さくなりました! gist00806caef2fb3a59c7cc1fed7dac1ea2