[聴講メモ]Google Cloud Next Extended 2019 BigData Dayに行ってきた

GCP

はじめに

Nishipy
Google Cloud Next Extended 2019 BigData Dayに行ってきたので聴講レポートを。随時更新します。こちらに動画がアップロードされています。
Google Cloud Next Extended 2019 BigData Day (2019/05/29 19:00〜)
Google Cloud Next SF 2019 が終わり、報告会の季節がやってきました! 今年は以下のカテゴリに分かれて、4回開催されます!! * 5/15 Serverless Day (sakajunquality, kuma, sinmetal) * 5/29 BigData Day (satoru...(続く)

Introduction

  • Google Cloud Nextは、以下のサービスに関する発表が中心
    • G Suite
    • GCP
  • 開催地は、サンフランシスコと東京とロンドン
  • 今年のサンフランシスコ会場では、Nextの入場バッジを持っていると、周りの店でタダメシが食えたらしい

「Next19にいってきました。」by satoru_nakamuraさん

1日目

  • 主に発表されたもの
    • Anthos
  • データ関連は?
    • Coming Soon…と書かれているだけ

2日目

データ関連のプロダクトがいろいろ発表された。たくさんあるので抜粋して発表

  • AutoML Tables
    • データ用意するだけでOK
    • データウェアハウスとしてBigQueryで整形し、直接インプットデータにできる
    • BigQueryとGCSに対応
    • 裏側で、様々なモデルアーキテクチャを組み合わせて試してくれる
    • 処理が終わったり、エラーが出たらメールをくれる
    • 学習の中身は見られない
    • 変数の型は全てGUIでしか指定できない(?)
    • 試しに10時間学習させてみたら、10万円かかった…
  • DataFusion
    • さまざまなデータソースの結合やインポートができる
      • Excelも可能!
    • エンジニアならプログラミングなしでフローを作成できる。業務部門ではまだ厳しい。今後のUI改善に期待
    • 裏はGCEが動いているため、ちょっとお高いかも
    • 処理するにあたって、インターネットに出てしまう。日本企業は嫌うかもしれない
  • BQML Tensorflow models for Prediction
    • BigQueryに特徴量を、予め入れておく?
    • GCS上に保存されているTensorflowのモデルを読み込める
    • つまりクエリだけで機械学習が使える
      • ML.Predict(...)
    • デモ
  • BI Engine
    • BigQueryでよく使われるデータをメモリに乗せて、処理高速化
    • 現在DataStudioのみ対応
      • 今後サードパーティ製品にも対応予定
  • BQML k-meansクラスタリング
    • クエリだけで、いい感じにクラスタリングしてくれる
    • 参考: https://towardsdatascience.com/how-to-use-k-means-clustering-in-bigquery-ml-to-understand-and-describe-your-data-better-c972c6f5733b
  • BigQueryのFlat-rateが…!
    • Flat-rateが、500slotから契約可能に
      • 従来は2000slot(4万ドル)〜でした
    • Clustered TableがGAになりました
      • テーブルを勝手に分割してくれる
      • コスト最適化
      • あと速い
      • int型にも対応予定らしい
  • 発表者nakamuraさんの感想
    • Enterpriseが好きそうなものがいっぱい出てきた
      • Table◯uやR◯dshiftからの移行みたいな
    • データ収集、前処理、結合、可視化、MLまでがノンコーディングでできる時代
    • MLの民主化
    • つまり、データの選別など本来力を入れるべき部分に、より多くの時間を割ける!

Auto ML夢があるなあ。


「Cloud Next’19 BigData Day」by orfeonさん

  • 主にCloud Dataflowに関する新機能を紹介
  • CLoud Dataflowは、Apache Beamのマネージドサービス
Dataflow: ストリーミング分析
Dataflow は、自動スケーリングとリアルタイムのデータ処理によってレイテンシ、処理時間、コストを最小限に抑えるフルマネージド ストリーミング分析サービスです。

Streaming Engine & Streaming AutoScaling(GA)

  • Streaming Engineは、Dataflowの処理の状態管理を担うフルマネージドサービス
    • Workerが状態を持たなくてよくなる
    • Worker数削減
    • Workerをオートスケール
    • Shuffleが高速化
    • データの遅延が小さくなる
    • (背景)
    • DataflowはGCEのWorker状で処理を実行している
    • 従来はWorkerが処理処理と状態管理を担当していた
  • Flex RS

BigQuery Dataflow SQL

ストリーミングデータも、クエリだけでニアリアルタイムで処理が可能に

Apache Beam SQL

  • SQL文字列をパースして、同等の処理を実行するTransformに変換
    • 基本的な関数やJOINには対応済み

Tensorflow Extended(TFX)

  • Dataflowとの連携強化という意味で紹介
  • 機械学習のモデリング以外の周辺機能をサポートするコンポーネント群
  • TF-DataValidation, TF-Transform, TF-ModelAnalysisは、Apache Beamで動く
  • TF-Transform
    • バッチでカテゴリカルな値や平均分散などの値を保存し、グラフに埋め込む
    • 学習時にDataflowのコードを書く
    • 予測時にはそのコードをTensorflowのグラフとして変換し、使いまわせる
  • データインポート

Python SDK

  • python3サポート(Alpha)
  • python streaming(Beta)など
  • Javaより遅い

Portability Framework

  • Beamを好きな言語で動かせるようになる
    • 1つのPipelineで、複数言語で記載したTransformを動かせる
  • 実行環境を細かく制御できる
  • 性能上のオーバーヘッドがある
    • 初期評価では、15%くらい性能オーバーヘッドとのこと
  • Javaで全部できる人には、メリットなし(?)

所感

コメント