はじめに
Google Cloud Next Extended 2019 BigData Dayに行ってきたので聴講レポートを。随時更新します。こちらに動画がアップロードされています。
Google Cloud Next Extended 2019 BigData Day (2019/05/29 19:00〜)
Google Cloud Next SF 2019 が終わり、報告会の季節がやってきました! 今年は以下のカテゴリに分かれて、4回開催されます!! * 5/15 Serverless Day (sakajunquality, kuma, sinmetal) * 5/29 BigData Day (satoru...(続く)
Introduction
- Google Cloud Nextは、以下のサービスに関する発表が中心
- G Suite
- GCP
- 開催地は、サンフランシスコと東京とロンドン
- 今年のサンフランシスコ会場では、Nextの入場バッジを持っていると、周りの店でタダメシが食えたらしい
「Next19にいってきました。」by satoru_nakamuraさん
わしもー!
がんばってしゃべります!#bigquery #gcpug #next19extended https://t.co/VDLbfAgfHY— なかむらさとる (@satoluxx) 2019年5月29日
1日目
- 主に発表されたもの
- Anthos
- データ関連は?
- Coming Soon…と書かれているだけ
2日目
データ関連のプロダクトがいろいろ発表された。たくさんあるので抜粋して発表
- AutoML Tables
- データ用意するだけでOK
- データウェアハウスとしてBigQueryで整形し、直接インプットデータにできる
- BigQueryとGCSに対応
- 裏側で、様々なモデルアーキテクチャを組み合わせて試してくれる
- 処理が終わったり、エラーが出たらメールをくれる
- 学習の中身は見られない
- 変数の型は全てGUIでしか指定できない(?)
- 試しに10時間学習させてみたら、10万円かかった…
- DataFusion
- さまざまなデータソースの結合やインポートができる
- Excelも可能!
- エンジニアならプログラミングなしでフローを作成できる。業務部門ではまだ厳しい。今後のUI改善に期待
- 裏はGCEが動いているため、ちょっとお高いかも
- 処理するにあたって、インターネットに出てしまう。日本企業は嫌うかもしれない
- さまざまなデータソースの結合やインポートができる
- BQML Tensorflow models for Prediction
- BigQueryに特徴量を、予め入れておく?
- GCS上に保存されているTensorflowのモデルを読み込める
- つまりクエリだけで機械学習が使える
ML.Predict(...)
- デモ
- BI Engine
- BigQueryでよく使われるデータをメモリに乗せて、処理高速化
- 現在DataStudioのみ対応
- 今後サードパーティ製品にも対応予定
- BQML k-meansクラスタリング
- クエリだけで、いい感じにクラスタリングしてくれる
- 参考: https://towardsdatascience.com/how-to-use-k-means-clustering-in-bigquery-ml-to-understand-and-describe-your-data-better-c972c6f5733b
- BigQueryのFlat-rateが…!
- Flat-rateが、500slotから契約可能に
- 従来は2000slot(4万ドル)〜でした
- Clustered TableがGAになりました
- テーブルを勝手に分割してくれる
- コスト最適化
- あと速い
- int型にも対応予定らしい
- Flat-rateが、500slotから契約可能に
- 発表者nakamuraさんの感想
- Enterpriseが好きそうなものがいっぱい出てきた
- Table◯uやR◯dshiftからの移行みたいな
- データ収集、前処理、結合、可視化、MLまでがノンコーディングでできる時代
- MLの民主化
- つまり、データの選別など本来力を入れるべき部分に、より多くの時間を割ける!
- Enterpriseが好きそうなものがいっぱい出てきた
Auto ML夢があるなあ。
「Cloud Next’19 BigData Day」by orfeonさん
- 主にCloud Dataflowに関する新機能を紹介
- CLoud Dataflowは、Apache Beamのマネージドサービス
Dataflow: ストリーミング分析
Dataflow は、自動スケーリングとリアルタイムのデータ処理により、レイテンシ、処理時間、費用を削減するフルマネージド ストリーミング分析サービスです。
Streaming Engine & Streaming AutoScaling(GA)
- Streaming Engineは、Dataflowの処理の状態管理を担うフルマネージドサービス
- Workerが状態を持たなくてよくなる
- Worker数削減
- Workerをオートスケール
- Shuffleが高速化
- データの遅延が小さくなる
- (背景)
- DataflowはGCEのWorker状で処理を実行している
- 従来はWorkerが処理処理と状態管理を担当していた
- Flex RS
BigQuery Dataflow SQL
ストリーミングデータも、クエリだけでニアリアルタイムで処理が可能に
Apache Beam SQL
- SQL文字列をパースして、同等の処理を実行するTransformに変換
- 基本的な関数や
JOIN
には対応済み
- 基本的な関数や
Tensorflow Extended(TFX)
- Dataflowとの連携強化という意味で紹介
- 機械学習のモデリング以外の周辺機能をサポートするコンポーネント群
- TF-DataValidation, TF-Transform, TF-ModelAnalysisは、Apache Beamで動く
- TF-Transform
- バッチでカテゴリカルな値や平均分散などの値を保存し、グラフに埋め込む
- 学習時にDataflowのコードを書く
- 予測時にはそのコードをTensorflowのグラフとして変換し、使いまわせる
- データインポート
Python SDK
- python3サポート(Alpha)
- python streaming(Beta)など
- Javaより遅い
Portability Framework
- Beamを好きな言語で動かせるようになる
- 1つのPipelineで、複数言語で記載したTransformを動かせる
- 実行環境を細かく制御できる
- 性能上のオーバーヘッドがある
- 初期評価では、15%くらい性能オーバーヘッドとのこと
- Javaで全部できる人には、メリットなし(?)
所感
久々に六本木きた pic.twitter.com/t7Bn808xhH
— nishipy (@iamnishipy) 2019年5月29日
ノーコーディングで機械学習できる時代がきたんだから、僕の仕事もノーワーキングで完結してほしい
— nishipy (@iamnishipy) 2019年5月29日
Cloud Dataflow(Apache Beam)使ったことない。これがわかりやすいらしいので、あとで見ます。https://t.co/dj7yjwDDa0
— nishipy (@iamnishipy) 2019年5月29日
コメント