はじめに
忘れた頃に、GCIの修了証届いていた pic.twitter.com/NlT6xTQpLc
— nishipy (@iamnishipy) 2019年6月16日
「Data Science Online Course」について
私が受講していたのは、以下の講座の第3期です。
初心者向けの内容で、教材も公開されています。また最近では、書籍化もされたみたいです。
この章では、「Data Science Online Course」で受講した内容を、少し詳しくまとめていきます。
概要
講座の概要は以下の通りです。
本講座では、5年間で延べ約700名が受講し約160名の修了者を輩出した東京大学学生向けのデータサイエンス講座のエッセンスを凝縮し、完全自習可能なオンラインコースとして公開します。
第3期までの社会人向けコースでは募集人数をはるかに超える応募が殺到し、多大な反響をいただきました。本コースは主に社会人技術者やマーケティング担当者、情報分野以外の研究者等を対象者と想定し設計されていますが、幅広い分野で役に立つ実践的なデータサイエンスを網羅的にカバーしているため、データサイエンスを身に付けたい幅広い層に活用いただけるものとなっています。
- こんな人にオススメ
- 高度なデータ解析でインパクトを出したいビジネス/マーケティング分野の専門家
- 機械学習技術を身に着けたいソフトウェアエンジニア
- データを扱うスキルの基礎を網羅的に学びたい非情報系の研究者
- ディープラーニングを学ぶための前提スキルを一気に身につけたい方
- 受講に必要なスキル
- Pythonで基礎的なコーディングができる
- 大学の初等数学を理解している
受講に必要なスキルレベルは高くなく、初歩から教えてくれるため、受講希望者も多かったようです。受講に当たっては、簡単なPython
のテストがありました。ほとんどインフラエンジニアの私でも受かるような、本当に簡単なnumpy
などのテストでした。
ちなみに、私が受講を決めた理由は、「データサイエンスってなんか格好いいから」「自分の仕事にも取り入れてみたいから」です。
期間
期間としては、2018年10月〜2019年3月くらいだったと記憶しています。週一回教材が配布され、宿題を解いて提出するといった流れです。一番最後には、最終レポートの提出もありました。働きながら続けるのは意外としんどかったです。
特に仕事が忙しかった週ともなると…
松尾研講座の課題するの忘れてた
— nishipy (@iamnishipy) 2019年1月25日
とはいえ週一ペースで宿題がある生活は、大学生活に戻ったみたいで、結構楽しいものでした。
カリキュラム
カリキュラムは、概ね以下の通りでした。
- Chapter1: Numpy、Scipy、Pandas、Matplotlibの基礎
- Numpy、Scipy、Pandas、Matplotlibの基礎
- Chapter2 : 記述統計学と単回帰分析
- 記述統計学と単回帰分析
- Chapter3 : 確率と統計の基礎
- 確率・統計の基礎
- Chapter4 : Pythonによる科学計算の基礎(NumpyとScipy)
- Numpy
- Scipy
- Chapter5 : Pandasを使ったデータ加工処理
- Pandas
- 欠損データと異常値の取り扱いの基礎
- Chapter6 : Matplotlibを使ったデータ可視化
- データの可視化
- 分析結果の見せ方を考えよう
- Chapter7 : データベースとSQLの基礎
- この章の概要
- SQLの基礎
- ビュー
- Chapter8 : データベースの応用(高度なSQL処理と高速化)
- この章の概要
- 高度なSQLの基礎
- ストアドプロシージャとストアドファンクション
- インデクシングとSQLの高速化
- Chapter9 : ドキュメント型DB(MongoDB)
- NoSQLとRDBMS
- MongoDBの基礎知識
- MongoDBの基本操作
- MongoDBのパフォーマンス向上
- Chapter10 : 機械学習の基礎(教師あり学習)
- 機械学習の全体像
- 重回帰分析
- ロジスティック回帰分析
- 正則化、ラッソ回帰、リッジ回帰
- 決定木
- k-NN
- サポートベクターマシン
- Chapter11 : 機械学習の基礎(教師なし学習)
- クラスタリング(クラスター分析)
- 次元圧縮(主成分分析)
- バスケット分析とアソシエーションルール
- Chapter12 : モデルの検証方法とチューニング方法
- 過学習の対処法とモデルチューニング方法
- 混同行列とROC曲線
- シミュレーションと計算統計学の基礎
- アンサンブル学習
- Chapter13 : データサイエンスティスト中級者への道
- 深層学習を学ぶための準備
- Pythonの高速化
- Spark入門
- その他の数学的手法とエンジニアリングツール
- Chapter14 : 総合演習問題(最終課題)
- レポートの提出
初心者向けの内容が、とても丁寧に解説されています。練習問題も結構豊富です。
私は、事前に趣味で以下の書籍を読んでいました。そのため、ある程度Python
や周辺ライブラリにも慣れていたので、スムーズに課題に取り組むことができました。
どちらも初心者にもわかりやすい良書でした。読んでみてください。
教材
この講座は、インターネット環境とブラウザさえあれば受講できました。さすがオンライン講座です。iLect
というサービスを通じて、Jupyter Lab
のような環境(多分コンテナ?)にアクセスし、教材を進めていきました。
講座で実際に利用した教材はこちらに公開されているようです。Jupyter Notebook
形式なので、Google Colab
などを利用して進めてみるのも良いと思います。
また、この章の冒頭にも書いた通り、上記教材をブラッシュアップして、さらにわかりやすくなったものが、書籍化されたようです。書籍派の方は、こちらもお勧めします。
さいごに
本講座は、確かに初心者向けです。修了したからといって、データサイエンティストや高度AI人材を名乗ることはできません。しかし、データサイエンティストの仕事の流れを学ぶことができ、簡単なPython
コーディングのハンズオンを実施するきっかけになります。このカリキュラムを一通りこなせば、「データサイエンス」「データ分析」「AI」が、決してよくわからん魔法じゃないことも、少し理解できます。現代の社会人全員が、この程度の知識を身につけていれば、より良い社会が実現できるのでは?と感じました。
最後に、このような講座を無償で開講し、教材作成や課題の採点などを行って頂いた関係者の皆さんに感謝いたします。ありがとうございました。
以上.
コメント