東大松尾研「社会人向けデータサイエンスオンライン講座」を修了していました

はじめに
「Data Science Online Course」について
さいごに

はじめに

東大松尾研が実施した社会人向け「Data Science Online Course」の第3期を受講し修了していました。初心者にもわかりやすいよい講座でした。先日修了証が届いたので、記念にまとめていきます。

忘れた頃に、GCIの修了証届いていた pic.twitter.com/NlT6xTQpLc

— nishipy (@iamnishipy) 2019年6月16日

「Data Science Online Course」について

私が受講していたのは、以下の講座の第3期です。

東京大学グローバル消費インテリジェンス寄付講座

Chair for Global Consumer Intelligence

初心者向けの内容で、教材も公開されています。また最近では、書籍化もされたみたいです。

この章では、「Data Science Online Course」で受講した内容を、少し詳しくまとめていきます。

概要

講座の概要は以下の通りです。

本講座では、5年間で延べ約700名が受講し約160名の修了者を輩出した東京大学学生向けのデータサイエンス講座のエッセンスを凝縮し、完全自習可能なオンラインコースとして公開します。
第3期までの社会人向けコースでは募集人数をはるかに超える応募が殺到し、多大な反響をいただきました。

本コースは主に社会人技術者やマーケティング担当者、情報分野以外の研究者等を対象者と想定し設計されていますが、幅広い分野で役に立つ実践的なデータサイエンスを網羅的にカバーしているため、データサイエンスを身に付けたい幅広い層に活用いただけるものとなっています。

こんな人にオススメ

高度なデータ解析でインパクトを出したいビジネス/マーケティング分野の専門家

機械学習技術を身に着けたいソフトウェアエンジニア

データを扱うスキルの基礎を網羅的に学びたい非情報系の研究者

ディープラーニングを学ぶための前提スキルを一気に身につけたい方

受講に必要なスキル

Pythonで基礎的なコーディングができる

大学の初等数学を理解している

受講に必要なスキルレベルは高くなく、初歩から教えてくれるため、受講希望者も多かったようです。受講に当たっては、簡単なPythonのテストがありました。ほとんどインフラエンジニアの私でも受かるような、本当に簡単なnumpyなどのテストでした。
ちなみに、私が受講を決めた理由は、「データサイエンスってなんか格好いいから」「自分の仕事にも取り入れてみたいから」です。

期間

期間としては、2018年10月〜2019年3月くらいだったと記憶しています。週一回教材が配布され、宿題を解いて提出するといった流れです。一番最後には、最終レポートの提出もありました。働きながら続けるのは意外としんどかったです。
特に仕事が忙しかった週ともなると…

松尾研講座の課題するの忘れてた

— nishipy (@iamnishipy) 2019年1月25日

とはいえ週一ペースで宿題がある生活は、大学生活に戻ったみたいで、結構楽しいものでした。

カリキュラム

カリキュラムは、概ね以下の通りでした。

Chapter1: Numpy、Scipy、Pandas、Matplotlibの基礎

Numpy、Scipy、Pandas、Matplotlibの基礎

Chapter2 : 記述統計学と単回帰分析

記述統計学と単回帰分析

Chapter3 : 確率と統計の基礎

確率・統計の基礎

Chapter4 : Pythonによる科学計算の基礎（NumpyとScipy）

Numpy

Scipy

Chapter5 : Pandasを使ったデータ加工処理

Pandas

欠損データと異常値の取り扱いの基礎

Chapter6 : Matplotlibを使ったデータ可視化

データの可視化

分析結果の見せ方を考えよう

Chapter7 : データベースとSQLの基礎

この章の概要

SQLの基礎

ビュー

Chapter8 : データベースの応用（高度なSQL処理と高速化）

この章の概要

高度なSQLの基礎

ストアドプロシージャとストアドファンクション

インデクシングとSQLの高速化

Chapter9 : ドキュメント型DB（MongoDB）

NoSQLとRDBMS

MongoDBの基礎知識

MongoDBの基本操作

MongoDBのパフォーマンス向上

Chapter10 : 機械学習の基礎（教師あり学習）

機械学習の全体像

重回帰分析

ロジスティック回帰分析

正則化、ラッソ回帰、リッジ回帰

決定木

k-NN

サポートベクターマシン

Chapter11 : 機械学習の基礎（教師なし学習）

クラスタリング(クラスター分析）

次元圧縮（主成分分析）

バスケット分析とアソシエーションルール

Chapter12 : モデルの検証方法とチューニング方法

過学習の対処法とモデルチューニング方法

混同行列とROC曲線

シミュレーションと計算統計学の基礎

アンサンブル学習

Chapter13 : データサイエンスティスト中級者への道

深層学習を学ぶための準備

Pythonの高速化

Spark入門

その他の数学的手法とエンジニアリングツール

Chapter14 : 総合演習問題(最終課題)

レポートの提出

初心者向けの内容が、とても丁寧に解説されています。練習問題も結構豊富です。

私は、事前に趣味で以下の書籍を読んでいました。そのため、ある程度Pythonや周辺ライブラリにも慣れていたので、スムーズに課題に取り組むことができました。

どちらも初心者にもわかりやすい良書でした。読んでみてください。

教材

この講座は、インターネット環境とブラウザさえあれば受講できました。さすがオンライン講座です。iLectというサービスを通じて、Jupyter Labのような環境(多分コンテナ？)にアクセスし、教材を進めていきました。

iLect by NABLAS | 法人向けAI人材育成講座・研修サービス

東大発企業「AI総合研究所NABLAS」が提供するDX/AI人材育成サービスです。エンジニアからAI技術を活用する経営者層までを対象にしたAI人材育成サービスを提供。

講座で実際に利用した教材はこちらに公開されているようです。Jupyter Notebook形式なので、Google Colabなどを利用して進めてみるのも良いと思います。

ページが見つかりませんでした - 東京大学松尾・岩澤研究室（松尾研）- Matsuo Lab

また、この章の冒頭にも書いた通り、上記教材をブラッシュアップして、さらにわかりやすくなったものが、書籍化されたようです。書籍派の方は、こちらもお勧めします。

さいごに

本講座は、確かに初心者向けです。修了したからといって、データサイエンティストや高度AI人材を名乗ることはできません。しかし、データサイエンティストの仕事の流れを学ぶことができ、簡単なPythonコーディングのハンズオンを実施するきっかけになります。このカリキュラムを一通りこなせば、「データサイエンス」「データ分析」「AI」が、決してよくわからん魔法じゃないことも、少し理解できます。現代の社会人全員が、この程度の知識を身につけていれば、より良い社会が実現できるのでは？と感じました。

最後に、このような講座を無償で開講し、教材作成や課題の採点などを行って頂いた関係者の皆さんに感謝いたします。ありがとうございました。

以上.