[聴講メモ]Google Cloud Next Extended 2019 BigData Dayに行ってきた

はじめに
Introduction
「Next19にいってきました。」by satoru_nakamuraさん
- 1日目
- 2日目
「Cloud Next’19 BigData Day」by orfeonさん
所感

はじめに

Google Cloud Next Extended 2019 BigData Dayに行ってきたので聴講レポートを。随時更新します。こちらに動画がアップロードされています。

ERROR: The request could not be satisfied

Introduction

Google Cloud Nextは、以下のサービスに関する発表が中心
- G Suite
- GCP
開催地は、サンフランシスコと東京とロンドン
今年のサンフランシスコ会場では、Nextの入場バッジを持っていると、周りの店でタダメシが食えたらしい

「Next19にいってきました。」by satoru_nakamuraさん

わしもー！
がんばってしゃべります！#bigquery #gcpug #next19extended https://t.co/VDLbfAgfHY

— なかむらさとる (@satoluxx) 2019年5月29日

1日目

主に発表されたもの
- Anthos
データ関連は？
- Coming Soon…と書かれているだけ

2日目

データ関連のプロダクトがいろいろ発表された。たくさんあるので抜粋して発表

AutoML Tables
- データ用意するだけでOK
- データウェアハウスとしてBigQueryで整形し、直接インプットデータにできる
- BigQueryとGCSに対応
- 裏側で、様々なモデルアーキテクチャを組み合わせて試してくれる
- 処理が終わったり、エラーが出たらメールをくれる
- 学習の中身は見られない
- 変数の型は全てGUIでしか指定できない(？)
- 試しに10時間学習させてみたら、10万円かかった…
DataFusion
- さまざまなデータソースの結合やインポートができる
  - Excelも可能！
- エンジニアならプログラミングなしでフローを作成できる。業務部門ではまだ厳しい。今後のUI改善に期待
- 裏はGCEが動いているため、ちょっとお高いかも
- 処理するにあたって、インターネットに出てしまう。日本企業は嫌うかもしれない
BQML Tensorflow models for Prediction
- BigQueryに特徴量を、予め入れておく？
- GCS上に保存されているTensorflowのモデルを読み込める
- つまりクエリだけで機械学習が使える
  - ML.Predict(...)
- デモ
BI Engine
- BigQueryでよく使われるデータをメモリに乗せて、処理高速化
- 現在DataStudioのみ対応
  - 今後サードパーティ製品にも対応予定
BQML k-meansクラスタリング
- クエリだけで、いい感じにクラスタリングしてくれる
- 参考: https://towardsdatascience.com/how-to-use-k-means-clustering-in-bigquery-ml-to-understand-and-describe-your-data-better-c972c6f5733b
BigQueryのFlat-rateが…！
- Flat-rateが、500slotから契約可能に
  - 従来は2000slot(4万ドル)〜でした
- Clustered TableがGAになりました
  - テーブルを勝手に分割してくれる
  - コスト最適化
  - あと速い
  - int型にも対応予定らしい
発表者nakamuraさんの感想
- Enterpriseが好きそうなものがいっぱい出てきた
  - Table◯uやR◯dshiftからの移行みたいな
- データ収集、前処理、結合、可視化、MLまでがノンコーディングでできる時代
- MLの民主化
- つまり、データの選別など本来力を入れるべき部分に、より多くの時間を割ける!

Auto ML夢があるなあ。

「Cloud Next’19 BigData Day」by orfeonさん

主にCloud Dataflowに関する新機能を紹介
CLoud Dataflowは、Apache Beamのマネージドサービス

Dataflow: ストリーミング分析

Dataflow は、自動スケーリングとリアルタイムのデータ処理により、レイテンシ、処理時間、費用を削減するフルマネージドストリーミング分析サービスです。

Streaming Engine & Streaming AutoScaling(GA)

Streaming Engineは、Dataflowの処理の状態管理を担うフルマネージドサービス
- Workerが状態を持たなくてよくなる
- Worker数削減
- Workerをオートスケール
- Shuffleが高速化
- データの遅延が小さくなる
- (背景)
- DataflowはGCEのWorker状で処理を実行している
- 従来はWorkerが処理処理と状態管理を担当していた
Flex RS

BigQuery Dataflow SQL

ストリーミングデータも、クエリだけでニアリアルタイムで処理が可能に

Apache Beam SQL

SQL文字列をパースして、同等の処理を実行するTransformに変換
- 基本的な関数やJOINには対応済み

Tensorflow Extended(TFX)

Dataflowとの連携強化という意味で紹介
機械学習のモデリング以外の周辺機能をサポートするコンポーネント群
TF-DataValidation, TF-Transform, TF-ModelAnalysisは、Apache Beamで動く
TF-Transform
- バッチでカテゴリカルな値や平均分散などの値を保存し、グラフに埋め込む
- 学習時にDataflowのコードを書く
- 予測時にはそのコードをTensorflowのグラフとして変換し、使いまわせる
データインポート

Python SDK

python3サポート(Alpha)
python streaming(Beta)など
Javaより遅い

Portability Framework

Beamを好きな言語で動かせるようになる
- 1つのPipelineで、複数言語で記載したTransformを動かせる
実行環境を細かく制御できる
性能上のオーバーヘッドがある
- 初期評価では、15％くらい性能オーバーヘッドとのこと
Javaで全部できる人には、メリットなし(？)

所感

久々に六本木きた pic.twitter.com/t7Bn808xhH

— nishipy (@iamnishipy) 2019年5月29日

ノーコーディングで機械学習できる時代がきたんだから、僕の仕事もノーワーキングで完結してほしい

— nishipy (@iamnishipy) 2019年5月29日

Cloud Dataflow(Apache Beam)使ったことない。これがわかりやすいらしいので、あとで見ます。https://t.co/dj7yjwDDa0

— nishipy (@iamnishipy) 2019年5月29日