データサイエンティストに転職して1年が経ち、いろいろな業務を経験させてもらいつつ、自分でもある程度本を読んできました。
仕事の話は下記の記事で書きましたが、自分で読んだ本については書いていないのでこの記事で書いておきたいと思います。
-
データサイエンティストに転職して1年間で経験した仕事を振り返る
こんにちわ、さとしです! 気がつけばこのデータサイエンティスト転職から、1年が経とうとしています。 今はご時世的に外にも出られず、変化があまりない生活を送ったせいもあってか、なんかあっという間に1年が ...
まぁ買っただけで積んである本もたくさんあるので、この記事ではあくまで少しは読んだ本のみ紹介しておきます。
ただし、決して全部は読めてないですし、全部理解なんてとんでもないので、パラパラ読んだくらいの認識でいてもられるとよいです。
そして、最後にこれから読みたい本もまとめておき、これからの自分のための備忘録としようと思います。
もっと勉強しろよ!とかなんでこれを読まないんだ!などと思う方もいるかもしれませんが、僕なりのペースでやっていきますので、ご了承ください。
データサイエンティストになってから1年間で読んだ本
数学系
・統計学入門(東大出版)
・Pythonで学ぶフーリエ解析と信号処理
・集合と位相をなぜ学ぶのか
機械学習の理論とかをちゃんと勉強しようとすると線形代数は必須なのでこの本を読みました。
特に一般逆行列までの流れをしっかり学びたかったので購入したところ、かなりコンパクトながらしっかり理論的な部分もまとめられていたので、とても好きです。
統計学入門は統計を再度学習し直すという意味で、統計学の赤いやつを買いました。
やはりデータサイエンティストたるもの統計を知らないわけにはいかないので、基礎からの復習です!
フーリエ変換をPythonでやりたかったこともあり、Pythonコードがたくさん買いてあるこの本にはお世話になりましたね。
写経させてもらいました。
集合と位相はAmazonでレコメンドされたので買ってみましたが全然わからないので、パラパラ見て積んだままですw
いつかは集合と位相をなぜ学ぶのかくらいはわかるようになりたいです。。。
Python系
・Pythonインタラクティブデータビジュアライゼーション
Python系は主にnumpyとPandasの使い方を学ぶために、Pythonによるデータ分析入門はよく読みました。
データサイエンス100本ノックをやってるときに、これを見ながらやって勉強になったのを覚えています。
インタラクティブビジュアライゼーションは、PlotlyとDashを使いたかったので、そのために買いました。
現状、書籍でPlotlyやDashの解説をした本はこれくらいなので買ったという感じです。
機械学習・深層学習
・Python機械学習クックブック
・データ収集からwebアプリ開発まで実践で学ぶ機械学習活用ガイド(吉崎他・マイナビ)
・ゼロから作るdeep learning 1(斉藤・オライリー)
・ゼロから作るdeep learning 2(斉藤オライリー)
機械学習を学ぶのに一番読んだのは、一番上のscikit-learnとTensorFlowによる実践機械学習です。
コードもありながら、理論的な部分もちゃんと書いてくれているので、機械学習がバックでどのような挙動をしているのかをイメージするのに有用でした。
TensorFlow部分はちゃんと読んでないですが、CNNのイメージを湧かせるのにもちょうどよかったです。
クックブックはいろんなことをやるための辞書代わりですね。
データ収集から〜は、機械学習をモデリングだけで終わらずに、データを集めてモデリングして、アプリとして使えるようにデプロイをするというところまで書いてくれている意外と珍しい本です。
多くの書籍やオンライン学習動画でもモデリングの話で終わってしまうことが多く、アプリ化・デプロイまで書いていてくれてありがたかったです。
ゼロから作るdeep learningシリーズは、深層学習の基礎部分なので素人は最初にぜひ読んだらいいのではないでしょうか。
僕はまた深層学習の知識が必要になったときに、読み返そうと思います。
時系列分析
・時系列分析と状態空間モデルの基礎(馬場・プレアデス出版)
泣く子も黙る沖本・時系列分析を僕も買いました。
僕は泣きたくなりましたが、もちろん理論をしっかり記述しているので、本腰を入れて勉強するときに読みたいと思います。
今は…積んでおきます。。。
その代わり、こちら(いわゆる、ハヤブサ本)はやさしく、かつ幅広く書いてくれているので、最初はこちらを読むのがよいでしょう。
Rでコードが書かれているのが僕にはあんまりですが、理論面だけでも十分読む価値ありのオススメ本です。
ベイズ統計モデリング
・StanとRでベイズ統計モデリング(松浦・共立出版)
・しくみがわかるベイズ統計と機械学習(手塚・朝倉書店)
・基礎からのベイズ統計学(豊田・朝倉書店)
・ベイズモデリングの世界
・Pythonによるベイズ統計モデリング(共立出版)
まず最初に読みたいのがこちらの本です。
全部ベイズ統計の本というわけではないですが、ロジスティック回帰のような一般化線形モデルや混合モデルから順に学んでいくことができます。
題材が種子の話になるので少しとっつきにくいかもですが、階層ベイズ、MCMCなども学ぶことができる良本です。
実際にベイズ統計モデリングのコーディングをしたいと言う場合は、この本です。
Rを使うことになるのでPython派には厳しいかもですが、Pystanでやるにしてもstanの記述を学ぶことができるので有用です。
僕も案件でかなり参考にさせてもらいました。
これもベイズ統計を基礎から学べるのがよいです。
EMアルゴリズムや変分ベイズとかを学ぶにいいかと思います。
まぁ僕もちゃんと読まないといけないのですが。。。
理論的にしっかり学ぶならこの本を読むと良いです。
MCMCの詳しいところを学ぶことができる珍しい本だと思います。
「基礎からの」とありますが、難しいです。。。
この本は教科書という感じではなく、各専門家の方々がベイズの記事を書いてくれているオムニバス的な感じです。
ただ、ちゃんと内容は難しいですが、噛み砕こうとしてくださっているので、読書がわりがよいかと思います。
ベイズ統計モデリングのコーディング本はRとstanによる本が多いですが、PythonとPyMCで学べるのがこの本になるかと思います。
絶対にPyMCで統計モデリングをやりたいという人は、読んだらいいかという感じです。
自然言語処理
・言語処理のための機械学習入門
・機械学習・深層学習による自然言語処理入門
・トピックモデルによる統計的潜在意味解析
・社会調査のための計量テキスト分析 第2版
・テキストマイニング入門ExcelとKHcoderでわかるデータ分析
・データ解析の実際 多次元尺度法・因子分析・回帰分析
自然言語処理とはなんぞ?というときに、どの分野はどんな内容でというのをざっと学びたい時にグッドです。
つまり、自然言語処理の最初に読むべき本ではないでしょうか。
コンパクトに重要事項がまとまっていてとてもよいです。
こちらは自然言語処理をやるために知っておくべき数学的な話が書かれています。
機械学習入門ですが、コーディングとかではなく理論のお話です。
実際に手を動かして自然言語処理をやってみるというフェーズではこちらが活躍します。
基本となる自然言語処理特有のデータ加工方法を学んでから、実際にデータを使って、前処理や特徴量エンジニアリングをして機械学習・予測分類をするといったことを学べます。
さらに、深層学習によるテキスト分類も学べるので、実際に自然言語処理で手を動かしたい人にはこれが一番オススメです。
トピックモデルは自然言語処理の一分野で僕も勉強したいと思って購入したのですが、挫折したものです。
積んであります。いつかまたチャレンジです!
こちらはちょっと毛色が変わって、KH coderというテキスト分析ソフトを使ったテキストマイニングの本になります。
KH coderはフリーソフトで誰でも使うことができる便利ソフトです。
GUIでポチポチするだけでテキストマイニングを味わうことができるので、プログラミングができない方もぜひやってみてほしいです。
そしてこの本は何を隠そう、KH coderを作成した先生の本なのです。
実際の研究においてもどう活用されているか見ることができます。
同様にKH coderの本です。
マンガ形式で実際のプロジェクトでどうKH coderを使ってテキストマイニングをするかといったことが書かれていてとっつきやすいと思います。
案件でアンケート分析をしないといけないけど、プログラミングなんてできないというような方にはオススメです。
自然言語系のオススメ本を厳選して5冊、こちらにもう少し詳しくまとめていますので、興味あればご覧くださいね!
-
初学者が自然言語処理を学ぶためのおすすめ本・入門書5冊
この記事では初学者が自然言語処理を学ぶためのお勧めの書籍を5冊紹介したいと思います。 自然言語処理と言うと難しいイメージがあってとっつきにくい感じがするかと思います。でも大丈夫です! しっかりと本を選 ...
ちょっとジャンルが違いますがこの本はここに入れています。
KH coderには機能がたくさんあって多次元尺度法などいろいろできるのですが、その数学的背景を学ぶために買ったのがこの本です。
多次元尺度法や因子分析を詳しく書いている書籍は少ないイメージなので、貴重だと思います。
データベース・SQL
・達人に学ぶSQL徹底指南書
・達人に学ぶDB設計徹底指南書
(・データサイエンス100本ノック SQL)
データサイエンティストにデータベースやSQLはつきものなので、一応これらを読みました(読んでいます)。
最初にSQLに取り組むときにこれを読むといいと思います。
初歩の初歩から相関サブクエリ、CASE式やWindow関数まで入っていてかなり網羅的でよいと思います。
本音はWith句も入れてほしかったですが、それはよしとしましょう。
とにかくわかりやすく書かれているので、初めてでも読めるはずです。
ちょっとレベルが上がって達人に学ぶシリーズになります。
SQLもデータベースも両方買いました。
SQLとデータベースは密接無関係があるので、両方学びながらがいいと思います。
ただ、少し僕には難しめ(SQLが)なので、徐々に勉強しているところです。
最後にカッコしていますが、実際に手を動かすにはデータサイエンス100本ノックのSQL編をやるのがいいと思います。
上記で学んだことをフル活用できるので定着にもってこいです。
書籍ではないですが、ぜひオススメです。
その他読み物
・データ分析人材になる。目指すは「ビジネストランスレーター」
・シン・ニホン
・イシューからはじめよ
・ビッグデータを支える技術
・図解即戦力 ビッグデータ分析のシステムと開発がこれ一冊でわかる教科書
長くなってきたので、これらの感想は割愛します。
他にももっと読んだのですが、人にオススメできるのはこの辺りです。
特に、データサイエンティストになった方は上の2つは読んでおくといいかと思いました。
技術ばかりに目がいってしまう節がある中で、とても耳が痛くなる本でした。
教訓にしないといけません。
あとは、安宅先生の2冊ですね。
これらは絶対読んでおきたいところです。
他に死ぬほどレビューがあるので、細かいことは言いません。
これから読みたい本
これから読みたい本はこれらです。
・時系列解析 Advanced Python 1
・カルマンフィルタ
・調査観察データの統計科学
・効果検証入門
・Pythonによる因果分析 因果推論・因果探索の実践入門
・入門統計的因果推論
・異常検知と変化検知
・ガウス過程と機械学習
・機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック
・施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方
・しっかり学ぶ数理最適化 モデルからアルゴリズムまで
・Pythonによる数理最適化入門
なんかたくさんになってしまいました。。。
読めるのかはわかりませんが、少しずつ勉強していきたいと思います!