【Book】2018年を振り返る

年末に振り返る記事も5回目となりました。2018年を振り返ってみます。

Blog posts

2018年に投稿した記事は20本だった。 前半は R, 後半は Python について書くことが多かった。また, 会社のテックブログに2本投稿した。

Books read

2018年は本を53冊買った。読了した中で印象に残っている本を挙げて振り返ってみる。

  • 『深層学習』
  • 『ベイズモデリングの世界』
  • 『データマイニングによる異常検知』
  • 『PythonとKerasによるディープラーニング』
  • 『実践 金融データサイエンス 隠れた構造をあぶり出す6つのアプローチ』
  • 『人工知能~その到達点と未来~』

『深層学習』

本書の読書会を社内で行った。第8章 深層モデルの訓練のための最適化, 第10章 系列モデリング, 第20章 深層生成モデル は担当したこともあり特に印象に残っている。
モデルの容量 (capacity) という概念を本書を読んで初めて知ったので書き留めておく。

  • モデルの容量: モデルが多様な関数に適合する能力
  • モデルの表現容量: 容量はモデルの選択だけで決まるものではない. モデルは訓練時にパラメータを変化させるときに学習アルゴリズムが選択することができる関数の族を指定する
  • モデルの有効容量: モデル全体の表現能力の中で学習アルゴリズムの能力によって制限された容量

訓練時の τ 回の反復回数と学習率 e の積 eτ は容量を示す指標と見なせる。この eτ を制限することで初期パラメータ θ から到達可能なパラメータ空間の体積を制限できる。大きな表現容量を持つモデルを訓練するとき, 訓練誤差が時間とともに減少する一方で検証誤差が増加することがある。このような過剰適合 (overfitting) に対して, 容量を制限することで検証誤差の増加を抑えることを正則化 (regularization) という。
ハイパーパラメータ選択の目的のひとつは, モデルの有効容量をタスクの複雑度に適合するように調整することである。例えば, 隠れユニットの数を増やすとモデルの容量は大きくなる。また, モデルの容量はVC次元 (Vapnik-Chervonenkis dimension) でも定量的に考えることができる。

『ベイズモデリングの世界』

岩波データサイエンスの姉妹本。内容が濃く価格が手頃である。第一部はベイズモデリングの時系列モデリング (状態空間モデル), 自然言語処理などへの応用, 第二部は階層ベイズの講義となっている。 ベイズモデリングでは, 定数を確率変数と読み替えて多段のデータ生成過程を考えるが, 条件付き確率密度を計算する必要があり, パラメータの推定に多変数の最適化や高次元積分が必要となり MCMC (Markov chain Monte Carlo) が必要となる。階層的なモデルとすることで局所的なパラメータと大域的なパラメータが割り当てられ, 局所的なパラメータを個人やグループの異質性と解釈することができる。また, 欠測の背後にある状態を局所的なパラメータと捉えることで, 階層ベイズモデリングの枠組みとして欠測値を推定できる。

『データマイニングによる異常検知』

異常検知の問題を統計的手法の違いにより外れ値検出・変化点検出・異常行動検出に分類し解説している。ホストベースの syslog, ネットワークベースの通信ログ, UNIXコマンド列などのデータを扱っており, 侵入検知, DDoS検知, なりすまし検知, ネットワーク障害検知などのセキュリティ分野の異常検知を考えている人にオススメ。統計的異常検知はデータ発生分布の確率モデルを学習し, モデルを基に異常スコアを計算する。手法は ARモデル, HMM, カーネル法を用いたモデルなどを扱っている。

『PythonとKerasによるディープラーニング』

著者は Keras の開発者で, Keras でディープラーニングしたい人に最適な一冊。難しい概念を数式を出さずにわかりやすく解説しており, 道具として Keras を使いこなせることを目指しているのではと思う。画像認識におけるデータ拡張やファインチューニング, 中間層の可視化, LSTMによるテキスト生成, VAE, GAN と内容も幅広く参考になる。

『実践 金融データサイエンス 隠れた構造をあぶり出す6つのアプローチ』

企業のサプライチェーンのネットワーク構造からの株価予測, 決算短信のテキストマイニング, 石油タンクの画像解析から貯蔵バレルの予測など金融市場でもデータの利活用が進んでいる。一方, 囲碁や将棋のようにルールが変化しないゲームに対しては機械学習は有利だが, 金融市場のように振る舞いが複雑で未知の状況が生まれやすく参加者が状況を踏まえ自ら行動を変えてしまうゲームに対しては人間が有利に働くと主張している。9章では 「調査観察データの統計科学-因果推論・選択バイアス・データ融合-」の著者である星野先生のインタビューも掲載されている。

『人工知能~その到達点と未来~』

専門家でない人にとって人工知能に何ができて何ができないかを見極めるのは中々難しいが, 本書はその手助けになる本である。特に第二部は専門家により各概念について数式を使わずわかりやすく書かれている。例えば, 探索について状態探索空間と問題分解法, 最適化については連続値を扱う線形最適化や非線形最適化, 組み合わせ探索 (離散) 問題, 多腕バンディットなどの探索的な最適化, ゲーム理論などの知的な競争相手がいる最適化など網羅的に書かれており頭の整理としても便利な一冊。

Seminars

以下の統計数理研究所の公開講座に参加した。

  • 統計・機械学習における確率的最適化
  • イベント時系列解析

統計・機械学習における確率的最適化

  • 1. 統計的学習の基本的定式化
  • 2. 機械学習の最適化および近接勾配法
  • 2-1. 凸解析と近接勾配法
  • 2-2. Nestrovの加速法
  • 3. オンライン型確率的最適化
  • 3-1. 確率的勾配降下法
  • 3-2. 確率的双対平均化法
  • 3-3. オンライン型確率的最適化手法の高速化
  • 4. バッチ型確率的最適化
  • 4-1. 確率的分散縮小勾配法
  • 4-2. 確率的平均勾配法
  • 4-3. 確率的座標降下法
  • 5. より高度な話題
  • 5-1. 確率的交互方向乗数法
  • 5-2. 非凸関数の確率的最適化

確率的最適化は大規模なデータ解析における最適化を効率的に実行する手法である。基本となる確率的勾配降下法 (SGD) は勾配の二乗の期待値が最小となる微分ゼロの点, つまり停留点 (局所最適解や大域的最適解) へ収束することが保証される。効率的な手法が次々と開発されている一方で SGD の良い性質が発見されてきており, モーメンタム法 + SGD で十分という雰囲気があるとのこと。

イベント時系列解析

  • 1. 点過程とは
  • 2. ポアソン過程
  • 2-1. 一様ポアソン過程
  • 2-2. 非一様ポアソン過程
  • 3. 一般過程
  • 3-1. リニューアル過程
  • 3-3. ホークス過程
  • 3-3. 非線形ホークス過程
  • 4. マーク付き過程
  • 5. 多変量過程
  • 6. 状態空間モデル

点過程はイベント時系列の確率モデルで, 条件付き強度関数をどのように作りこむかが肝となる。Identifying exogenous and endogenous activity in social media (K.Fujita et al., 2018) では, ホークス過程 (自己励起点過程) でフォロワーが多いとリツイートが増えやすい現象をモデリングしている。条件付き強度関数は外因性要因と内因性要因 (イベント連鎖)に分けられ, EMアルゴリズムでパラメータ推定を行う。外因性要因は平滑化により推定し, これがオリジナルツイートに対応していると考えられる。

Movies

2018年に観た印象に残っている映画。

  • ボヘミアン・ラプソディ
  • ハン・ソロ/スター・ウォーズ・ストーリー

Queen は学生時代から飽きずに聞いているバンドで, 映画ボヘミアン・ラプソディもフィクションを含んでいるものの楽しめた。主演のラミ・マレックはハッカーを演じた MR.ROBOT とのギャップが凄かったが, 力強くも美しく内面の繊細さも表現した見事な演技だった。Seven Seas of Rhye や Play The Game も聞きたかった。
ハン・ソロは同じスピンオフのローグ・ワンと比較すると満足度は低かったが, ソロとチューバッカとの出会いやダース・モールのシーンなどは印象に残っている。