2015/04 から3か月に1度くらいのペースで不動産・住宅総合情報サイトをスクレイピングしています。今回は4回目なので価格の変化を確認してみます。
結果的には 2016/02 は賃貸物件家賃, 中古マンション販売価格とも僅かながら過去3回よりも平均価格が下がっているようです。
(ただし, 市場全体として下落傾向なのか単なる季節性なのかはわかりません。情報サイトに集まる物件が母集団を代表しているかもわかりません。)
賃貸物件の家賃動向
1回目から取集しているのは習志野市, 川口市, 豊島区の3市区。
習志野市の家賃の変化。赤線が平均値。
川口市の家賃の変化。
豊島区の家賃の変化。
わかりにくいけどやや家賃が下がってきている。季節性の影響だろうか。
中古マンションの販売価格動向
中古マンションの販売価格も1回目から取集しているのは習志野市, 川口市, 豊島区の3市区。
習志野市の販売価格の変化。
川口市の販売価格の変化。
豊島区の販売価格の変化。
売れていない物件については, 追跡できていると思う [1] ので時系列プロットしてみた。下記の例は, 川口元郷駅付近にそびえ立ち東京北区からも見えるタワーマンション。
2015/07 からは江東区を収集し始めて, 2016/02 からさらに城南3区のひとつである世田谷区も収集を始めた。
販売価格のヒストグラム。
面積のヒストグラム。
築年数のヒストグラム。
最後に 川口市, 習志野市, 豊島区で k-means でクラスタリングしてみた。3 はラベルが豊島区の物件の比率が高いので, 何となく高級物件のクラスタな気がする。
1 2 3
kawaguchi 358 117 5
narashino 121 26 0
toshima 166 158 80
都内 or 郊外だと上手くクラスタリングできる気はしている。
おわりに
スクレイピングを安いVPS上で完全自動化したいけど, サーバーメンテナンス時のエラーハンドリングとか再開の処理を書いたり, xpath でマッチしなくなったらその度に修正しなくてはいけないことを考えてしまい, 二の足を踏んでいます。
[1] 物件名と面積、階数など複数の特徴量が一致している場合を同一物件としている。