東大松尾研「社会人向けデータサイエンスオンライン講座」を修了していました

Python

はじめに

Nishipy
東大松尾研が実施した社会人向け「Data Science Online Course」の第3期を受講し修了していました。初心者にもわかりやすいよい講座でした。先日修了証が届いたので、記念にまとめていきます。

「Data Science Online Course」について

私が受講していたのは、以下の講座の第3期です。

東京大学グローバル消費インテリジェンス寄付講座
Chair for Global Consumer Intelligence

初心者向けの内容で、教材も公開されています。また最近では、書籍化もされたみたいです。

この章では、「Data Science Online Course」で受講した内容を、少し詳しくまとめていきます。

概要

講座の概要は以下の通りです。

本講座では、5年間で延べ約700名が受講し約160名の修了者を輩出した東京大学学生向けのデータサイエンス講座のエッセンスを凝縮し、完全自習可能なオンラインコースとして公開します。
第3期までの社会人向けコースでは募集人数をはるかに超える応募が殺到し、多大な反響をいただきました。

本コースは主に社会人技術者やマーケティング担当者、情報分野以外の研究者等を対象者と想定し設計されていますが、幅広い分野で役に立つ実践的なデータサイエンスを網羅的にカバーしているため、データサイエンスを身に付けたい幅広い層に活用いただけるものとなっています。

  • こんな人にオススメ
    • 高度なデータ解析でインパクトを出したいビジネス/マーケティング分野の専門家
    • 機械学習技術を身に着けたいソフトウェアエンジニア
    • データを扱うスキルの基礎を網羅的に学びたい非情報系の研究者
    • ディープラーニングを学ぶための前提スキルを一気に身につけたい方
  • 受講に必要なスキル
    • Pythonで基礎的なコーディングができる
    • 大学の初等数学を理解している

受講に必要なスキルレベルは高くなく、初歩から教えてくれるため、受講希望者も多かったようです。受講に当たっては、簡単なPythonのテストがありました。ほとんどインフラエンジニアの私でも受かるような、本当に簡単なnumpyなどのテストでした。
ちなみに、私が受講を決めた理由は、「データサイエンスってなんか格好いいから」「自分の仕事にも取り入れてみたいから」です。


期間

期間としては、2018年10月〜2019年3月くらいだったと記憶しています。週一回教材が配布され、宿題を解いて提出するといった流れです。一番最後には、最終レポートの提出もありました。働きながら続けるのは意外としんどかったです。
特に仕事が忙しかった週ともなると…

とはいえ週一ペースで宿題がある生活は、大学生活に戻ったみたいで、結構楽しいものでした。

カリキュラム

カリキュラムは、概ね以下の通りでした。

  • Chapter1: Numpy、Scipy、Pandas、Matplotlibの基礎
    • Numpy、Scipy、Pandas、Matplotlibの基礎
  • Chapter2 : 記述統計学と単回帰分析
    • 記述統計学と単回帰分析
  • Chapter3 : 確率と統計の基礎
    • 確率・統計の基礎
  • Chapter4 : Pythonによる科学計算の基礎(NumpyとScipy)
    • Numpy
    • Scipy
  • Chapter5 : Pandasを使ったデータ加工処理
    • Pandas
    • 欠損データと異常値の取り扱いの基礎
  • Chapter6 : Matplotlibを使ったデータ可視化
    • データの可視化
    • 分析結果の見せ方を考えよう
  • Chapter7 : データベースとSQLの基礎
    • この章の概要
    • SQLの基礎
    • ビュー
  • Chapter8 : データベースの応用(高度なSQL処理と高速化)
    • この章の概要
    • 高度なSQLの基礎
    • ストアドプロシージャとストアドファンクション
    • インデクシングとSQLの高速化
  • Chapter9 : ドキュメント型DB(MongoDB)
    • NoSQLとRDBMS
    • MongoDBの基礎知識
    • MongoDBの基本操作
    • MongoDBのパフォーマンス向上
  • Chapter10 : 機械学習の基礎(教師あり学習)
    • 機械学習の全体像
    • 重回帰分析
    • ロジスティック回帰分析
    • 正則化、ラッソ回帰、リッジ回帰
    • 決定木
    • k-NN
    • サポートベクターマシン
  • Chapter11 : 機械学習の基礎(教師なし学習)
    • クラスタリング(クラスター分析)
    • 次元圧縮(主成分分析)
    • バスケット分析とアソシエーションルール
  • Chapter12 : モデルの検証方法とチューニング方法
    • 過学習の対処法とモデルチューニング方法
    • 混同行列とROC曲線
    • シミュレーションと計算統計学の基礎
    • アンサンブル学習
  • Chapter13 : データサイエンスティスト中級者への道
    • 深層学習を学ぶための準備
    • Pythonの高速化
    • Spark入門
    • その他の数学的手法とエンジニアリングツール
  • Chapter14 : 総合演習問題(最終課題)
    • レポートの提出

初心者向けの内容が、とても丁寧に解説されています。練習問題も結構豊富です。

私は、事前に趣味で以下の書籍を読んでいました。そのため、ある程度Pythonや周辺ライブラリにも慣れていたので、スムーズに課題に取り組むことができました。

どちらも初心者にもわかりやすい良書でした。読んでみてください。

教材

この講座は、インターネット環境とブラウザさえあれば受講できました。さすがオンライン講座です。iLectというサービスを通じて、Jupyter Labのような環境(多分コンテナ?)にアクセスし、教材を進めていきました。

iLect by NABLAS | Deep Learning | AI | AI人材育成 | Bunkyo, Tokyo, Japan
東大発企業「AI総合研究所NABLAS」が提供するDX/AI人材育成サービスです。エンジニアからAI技術を活用する経営者層までを対象にしたAI人材育成サービスを提供。

講座で実際に利用した教材はこちらに公開されているようです。Jupyter Notebook形式なので、Google Colabなどを利用して進めてみるのも良いと思います。

ページが見つかりませんでした – 東京大学松尾研究室 – Matsuo Lab

また、この章の冒頭にも書いた通り、上記教材をブラッシュアップして、さらにわかりやすくなったものが、書籍化されたようです。書籍派の方は、こちらもお勧めします。

さいごに

本講座は、確かに初心者向けです。修了したからといって、データサイエンティストや高度AI人材を名乗ることはできません。しかし、データサイエンティストの仕事の流れを学ぶことができ、簡単なPythonコーディングのハンズオンを実施するきっかけになります。このカリキュラムを一通りこなせば、「データサイエンス」「データ分析」「AI」が、決してよくわからん魔法じゃないことも、少し理解できます。現代の社会人全員が、この程度の知識を身につけていれば、より良い社会が実現できるのでは?と感じました。

最後に、このような講座を無償で開講し、教材作成や課題の採点などを行って頂いた関係者の皆さんに感謝いたします。ありがとうございました。


以上.

コメント