2021/01/04
から t2sy
0件のコメント

【Book】2020年を振り返る

2020年を振り返る記事です。

Blog posts

2020年に投稿した記事は6本だった。投稿数は近年減少傾向となっているので持ち直したい。また, 会社のテックブログには6本投稿した。

Books read

2020年は本を34冊買った。今年も読了した中で印象に残っている本を挙げて振り返ってみる。

『スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform』

Google の Valliappa Lakshmanan 氏によって書かれた GCP でスケーラブルなデータ分析パイプラインを構築する方法を解説した本。 GCP の各サービスを利用しダッシュボードの構築, イベントデータの取り込み, 探索的データ解析, 機械学習モデルの構築を行う。GCP, AWS などクラウドプラットフォームの発展は今後も続くことが予想されるため, 基本的な使い方は抑えておきたい。
元々 Google Cloud 認定資格の参考書として読んだ本だけど, スケーラブルなデータパイプラインの構築における勘所を抑えることもできる良書だと思う。

『データ指向アプリケーションデザイン』

600 ページを超えるため読了までに数ヶ月かかった本。データ分析基盤や機械学習基盤の構築や運用 (MLOps) は大規模データを対象とすることが一般的であり, スケーラビリティの要件から Hadoop/Spark のような OSS, または SaaS 型の DWH である Redshift や BigQuery など分散システムをコンポーネントとして選択することが増えている。これらのサービスは利用しやすいように抽象化されており, 手軽に利用することができる反面, 分散システムの内部でどのようにデータが処理されているかを知るには体系的な知識が必要であり, そのための入門書・ガイドとしてオススメ。

『データ活用のための数理モデリング入門』

データ分析では現実の問題に対して適切な手法でアプローチする技術が必要となる。ビジネスの現場では資源配分や組み合わせ最適化, 情報伝播など機械学習というより数理モデルが適している場合も多い。また, 現象を理解/解釈するためのモデルと予測を目的とした汎化のためのモデルを使い分けることも重要。
「ハンマーを持つ人にはすべてが釘に見える」という言葉があるように, 多くの数理モデルや手法を知っておくことも重要だと思う。

『Pythonではじめる教師なし学習――機械学習の可能性を広げるラベルなしデータの利用』

教師なし学習はデータ構造からパターンを見つける手法で, 異常検知やクラスタリング, 特徴量エンジニアリングなど広く利用されている。PCA や k-means などよく知られた従来手法に加えて, 深層学習以降の教師なし学習やチャレンジな領域である時系列クラスタリングなども紹介している点が特徴。
本書では展望で触れられている程度ではあるが, ゼロショット学習, ワンショット学習など少量のラベルデータから高精度なモデルを学習できる理論の発展に期待。

『問題解決力を鍛える!アルゴリズムとデータ構造』

本書は計算量から始まり, アルゴリズム (全探索, 再帰, 動的計画法, 二分探索法, 貪欲法) とデータ構造 (配列, スタック/キュー, グラフ), グラフに関する問題, また問題の難しさを測り方として P と NP クラスの解説といった内容。
計算機科学の中でもアルゴリズムとデータ構造は重要で, IT技術者の基礎体力とも言えるので定期的に復習したい内容。

『ウェブ最適化ではじめる機械学習』

ウェブにおける広告やデザインは膨大なデータに基づいたA/Bテストにより日々最適化が行われている。これらを支える技術であるベイズ統計 (w/MCMC)や, 探索と活用をバランスよく実現するバンディットアルゴリズム, ベイズ最適化, 正しく施策の効果を検証するためのモデル設計などを解説した本。
本書でも触れられているが, 最適化の対象をビジネスの課題から短期性/長期性を踏まえた上でクリック率, 広告収益, ユーザ数などの何を最適化するのが適切かを考え設計することは重要。

『多モデル思考 データを知恵に変える24の数理モデル』

原著の題名は『The Model Thinker: What You Need to Know to Make Data Work for You』で, 社会, 経済, 公衆衛生など幅広い分野で使われているモデルを解説した本。コンドルセの陪審定理と多様性予測定理から多モデルの有用性 (i.e. アンサンブル学習)を述べてから, 現実にはデータから多様なモデルを数多く用意することには限界がある点に触れた上で, それでも多くのモデルを引き出しとして知っておくことは有用と述べている。
知らなかったモデルも多くあり新鮮だった。数式は少ないのでどちらかというと読み物としてオススメ。

Seminars

2020年に参加したイベントの中で, 印象に残っているイベントは以下。

  • Discovery DataScience Meet up (DsDS) #1
  • 言語処理技術セミナー (言語処理学会主催)
  • DCASE 2020 Workshop
  • IBISML 2020
  • LINE DEVELOPER DAY 2020
  • 第11回対話システムシンポジウム

COVID-19の影響で学会や研究会がオンライン開催となったことで参加の機会が増えた。また, イベントの登壇を1件行った。

Movies

2020年に映画館で観た映画のうち印象に残っている映画。

  • この世界の(さらにいくつもの)片隅に
  • TENET テネット

『TENET テネット』はクリストファー・ノーラン監督によるSF映画で, 難解だったが期待通り面白かった。2020年は映画館で映画を観る機会が少なかったが, 徐々にでもCOVID-19以前のように気軽に映画館に行ける日常が戻ってきて欲しい。