Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
データファースト開発 | PDF | Databases | Computer Software and Applications
[go: Go Back, main page]

SlideShare a Scribd company logo
データファースト開発
2015.10.14 @ Developers Summit 2015 Autumn
開発チームのためのデータ分析環境の構築と
継続的改善の仕組み
Presented By: Katsunori Kanda(@potix2)
CyberAgent Inc.
自己紹介
神田勝規(かんだかつのり)
株式会社サイバーエージェント
アドテク本部 AMoAd所属
サーバーサイドエンジニア(OS/分散システムが専門)
!
potix2@twitter/github
※1 毎月LispMeetup(shibuya.lisp)を開催してます
※2 SparkのMeetupや勉強会を開催してます
システム改善のサイクル
現状把握
改善案の策定設計・実装
今日の話はこの辺り
現状把握に何分かかるか?
• 日別・週別のアクティブユーザー数
• ユーザーの平均広告接触回数/日
• など・・・
定型的な分析であれば即時
アドホックな分析だと1週間以上かかることも・・・
時間がかかることによる弊害(1/2)
本当に困るまで調査しなくなる
「根拠のない思い込みによる誤った判断」
「古い調査結果に基づく誤った判断」
時間がかかることによる弊害(2/2)
データを見るには特異なスキルが必要だと誤認
(実際は、ステップ数が多いだけで誰でもできる)
データ抽出&分析の属人化
どの行程に時間がかかるのか?
2.ETL1.仮説立案
(対象データ選定)
3.データ抽出 4.分析
※前提:すべてのデータを分析環境に置けない
分析対象のデータサイズに依存
理想的には、
誰でも、気軽に
データ抽出&分析ができるべき
理想に向けて必要なこと
1.データへアクセスが容易
2.高い応答性(理想的には5分以内)
3.手順の再現性 最重要
やったこと
• データ分析の専用ログを出力するようにした
• データ分析基盤の構築
• 計算エンジン: BigQuery + Spark(オンプレ)
• ストレージ: Google Cloud Storage
• UI: Apache Zeppelin + Jupyter
データ分析基盤の構成
どうしてこの構成になったのか?
• 応答性を重視
• BigQueryではIndex的なものの定義が不要
• アドホック分析にはBigQueryを使うのがベスト
• 用途/データソースによって環境を使い分ける
• 機械学習を使いたいときはSparkやscikit-learn
• 分析ログに含まれないデータを調べたいときは
Spark
応答性を重視する理由
• フィーリングは重要
• 直感は、案外正しい
• 根拠がない直感はダメ
• 結果を得るのに時間がかかると
• 調査コストと得られるメリットを天 にかけてし
まい、遊びのある調査ができない
• 思いついてから10分以内には結果を見たい
データ分析環境ができ
てみて・・・
使われない・・・
何故、使われないのか?
1.使い方がわからない
2.何に使えるのかが分からない
「使い方」を共有するために
• チュートリアルを開催
• BigQueryハンズオン
• ドキュメント化
• QiitaチームにTipsを共有
• ノートブックを活用
• 他の人が分析した手順がノートブックとして残っ
ているので、参考にしやすい
Apache Zeppleinのデモ
「何に使えるのか」を共有するために
• 基礎集計の結果と手順を共有
• チーム内のチャットグループで共有
• 有用なものは、定型ジョブとして自動化
• Tableauなどを使って可視化した結果を共有
結局、エンジニアは
データ分析基盤を何に使うのか?
• 開発項目の選定
• 現状をより正確に把握
• 開発すべき根拠を導出
• システム改善の事前・事後の評価
• 改善施策の効果を客観的に評価
• 運用フローの改善
絶賛試行錯誤中
これからの課題
• データの評価/分析のレベルをあげる
• 得られた結果から何が言えるのか?読み取る力を
あげる。(統計学の基礎知識など)
• 可視化
• 可視化されることで新たな知見が得られる
• ワークフローの自動化
• 手順が複雑になるとデータ分析が属人化する
• ノートブックを定期実行ジョブ化したい
まとめ
• 速いことは正義
• BigQueryを使って人生が変わりました
• 気軽にデータ抽出できることで新たな気付き
• 誰でもデータアクセスできるといいことがある
• 開発者がリリースした機能を自分で評価できる
• 改善サイクルを回すスピードがあがる(はず)
• データを見れないことをリスクと捉えるべき

More Related Content

PDF
データにまつわるWeb業界の仕事について
Masanori Takano
 
PDF
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
 
PDF
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
Yahoo!デベロッパーネットワーク
 
PPTX
niconicoにおける継続的なデータ活用のためのHadoop運用事例
Makoto SHIMURA
 
PPTX
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Makoto SHIMURA
 
PDF
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
 
PDF
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
Yahoo!デベロッパーネットワーク
 
PDF
All about 開発本部infra部 TASKs
gree_tech
 
データにまつわるWeb業界の仕事について
Masanori Takano
 
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
 
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
Yahoo!デベロッパーネットワーク
 
niconicoにおける継続的なデータ活用のためのHadoop運用事例
Makoto SHIMURA
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Makoto SHIMURA
 
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
 
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
Yahoo!デベロッパーネットワーク
 
All about 開発本部infra部 TASKs
gree_tech
 

What's hot (20)

PDF
[Observability conference 2022/3/11] NewsPicks のプロダクト開発エンジニアが実践するスキルとしての SRE
Iida Yukako
 
PPTX
グリーにおけるAWS移行の必然性
gree_tech
 
PDF
【A-1】すべてがつながるIoT時代の共創のあり方
Developers Summit
 
PDF
【19-B-1】情シスの中のアーキテクト ~ソフトウェアアーキテクチャを超えて~
Developers Summit
 
PPTX
F.O.Xを支える技術
Yuto Suzuki
 
PDF
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
Takahiro Moteki
 
PDF
行ってみよう、やってみよう!
gree_tech
 
PDF
Google big query × Amazon redshift
Fumihide Nario
 
PPTX
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
gree_tech
 
PDF
【19-D-2】今更聞けない!?インフラ選定のケーススタディ「ベアメタルクラウド」を活用した最適な環境構築をするためのポイントはなんだ!?
Developers Summit
 
PDF
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
Yahoo!デベロッパーネットワーク
 
PPTX
第一回☆GREE AI Programming ContestでTensorFlow
gree_tech
 
PPTX
上司が信用できない会社の内部統制~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 2013年のスタンダードとは?!...
WebSig24/7
 
PPTX
リリースを支える負荷測定
gree_tech
 
PDF
グリーのセキュリティ戦略:組織改革成功の秘訣と新たな課題への取り組み
gree_tech
 
PDF
スタートアップで培ったアーキテクチャ設計ノウハウ
Masakazu Matsushita
 
PPTX
SEGA : Growth hacking by Spark ML for Mobile games
DataWorks Summit/Hadoop Summit
 
PDF
MapR Hadoop M7 in CyberAgent AdTech Studio
Ken Takao
 
PDF
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク
 
PDF
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Nagato Kasaki
 
[Observability conference 2022/3/11] NewsPicks のプロダクト開発エンジニアが実践するスキルとしての SRE
Iida Yukako
 
グリーにおけるAWS移行の必然性
gree_tech
 
【A-1】すべてがつながるIoT時代の共創のあり方
Developers Summit
 
【19-B-1】情シスの中のアーキテクト ~ソフトウェアアーキテクチャを超えて~
Developers Summit
 
F.O.Xを支える技術
Yuto Suzuki
 
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
Takahiro Moteki
 
行ってみよう、やってみよう!
gree_tech
 
Google big query × Amazon redshift
Fumihide Nario
 
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
gree_tech
 
【19-D-2】今更聞けない!?インフラ選定のケーススタディ「ベアメタルクラウド」を活用した最適な環境構築をするためのポイントはなんだ!?
Developers Summit
 
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
Yahoo!デベロッパーネットワーク
 
第一回☆GREE AI Programming ContestでTensorFlow
gree_tech
 
上司が信用できない会社の内部統制~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 2013年のスタンダードとは?!...
WebSig24/7
 
リリースを支える負荷測定
gree_tech
 
グリーのセキュリティ戦略:組織改革成功の秘訣と新たな課題への取り組み
gree_tech
 
スタートアップで培ったアーキテクチャ設計ノウハウ
Masakazu Matsushita
 
SEGA : Growth hacking by Spark ML for Mobile games
DataWorks Summit/Hadoop Summit
 
MapR Hadoop M7 in CyberAgent AdTech Studio
Ken Takao
 
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク
 
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Nagato Kasaki
 
Ad

Viewers also liked (6)

PDF
ソーシャル系Webサービスのデータを用いた社会科学 資料
Masanori Takano
 
PDF
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
Ken Takao
 
PDF
社会関係の強さに基づく社会的グルーミング戦略の適応性
Masanori Takano
 
PDF
サラリーマンのための計算社会科学
Masanori Takano
 
PDF
How Do Newcomers Blend into a Group?: Study on a Social Network Game
Masanori Takano
 
PDF
広告におけるビッグデータの分析事例
Ken Takao
 
ソーシャル系Webサービスのデータを用いた社会科学 資料
Masanori Takano
 
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
Ken Takao
 
社会関係の強さに基づく社会的グルーミング戦略の適応性
Masanori Takano
 
サラリーマンのための計算社会科学
Masanori Takano
 
How Do Newcomers Blend into a Group?: Study on a Social Network Game
Masanori Takano
 
広告におけるビッグデータの分析事例
Ken Takao
 
Ad

Similar to データファースト開発 (20)

PDF
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
 
PDF
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
 
PDF
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
yuji suzuki
 
PDF
利用者主体で行う分析のための分析基盤
Sotaro Kimura
 
PDF
「Oracle Database + Java + Linux」 環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1
Shogo Wakayama
 
PPTX
データサイエンティスト向け性能問題対応の基礎
Tetsutaro Watanabe
 
PDF
tut_pfi_2012
Preferred Networks
 
PPTX
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
 
PDF
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
 
PPTX
ビジネスに役立つデータ分析
Issei Kurahashi
 
PDF
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
PDF
サービス改善はログデータ分析から
Kenta Suzuki
 
PDF
S01 t3 data_engineer
Takeshi Akutsu
 
PDF
perfを使ったPostgreSQLの解析(前編)
Daichi Egawa
 
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
 
PDF
利益を生み出すAnalytics Teamのあり方
Recruit Lifestyle Co., Ltd.
 
PDF
New Relic University at Future Stack Tokyo 2019
New Relic
 
PDF
(道具としての)データサイエンティストのつかい方
Shohei Hido
 
PDF
Azure データサービスデザイン検討 (2015/10)
Koichiro Sasaki
 
PDF
データマイニングCROSS 第2部-機械学習・大規模分散処理
Koichi Hamada
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
 
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
yuji suzuki
 
利用者主体で行う分析のための分析基盤
Sotaro Kimura
 
「Oracle Database + Java + Linux」 環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1
Shogo Wakayama
 
データサイエンティスト向け性能問題対応の基礎
Tetsutaro Watanabe
 
tut_pfi_2012
Preferred Networks
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
 
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
 
ビジネスに役立つデータ分析
Issei Kurahashi
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
サービス改善はログデータ分析から
Kenta Suzuki
 
S01 t3 data_engineer
Takeshi Akutsu
 
perfを使ったPostgreSQLの解析(前編)
Daichi Egawa
 
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
 
利益を生み出すAnalytics Teamのあり方
Recruit Lifestyle Co., Ltd.
 
New Relic University at Future Stack Tokyo 2019
New Relic
 
(道具としての)データサイエンティストのつかい方
Shohei Hido
 
Azure データサービスデザイン検討 (2015/10)
Koichiro Sasaki
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
Koichi Hamada
 

More from Katsunori Kanda (14)

PDF
Airflow 2.0 migration ガイド
Katsunori Kanda
 
PDF
Web Privacy Survival Guide
Katsunori Kanda
 
PDF
Airflowを広告データのワークフローエンジンとして運用してみた話
Katsunori Kanda
 
PPTX
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
Katsunori Kanda
 
PDF
GCSでstatic web hosting
Katsunori Kanda
 
PDF
Dockerだけではないコンテナのはなし
Katsunori Kanda
 
PDF
RealSenseを使ってCrazyflieを自律飛行させてみた
Katsunori Kanda
 
PDF
KINECT WITH ROS
Katsunori Kanda
 
PDF
Docker超入門
Katsunori Kanda
 
PPTX
Hadoopことはじめ
Katsunori Kanda
 
PDF
Spark Summit 2015 参加報告
Katsunori Kanda
 
PDF
20150207 何故scalaを選んだのか
Katsunori Kanda
 
PDF
Discretized Streams: Fault-Tolerant Streaming Computation at Scaleの解説
Katsunori Kanda
 
KEY
自動テストのすすめ
Katsunori Kanda
 
Airflow 2.0 migration ガイド
Katsunori Kanda
 
Web Privacy Survival Guide
Katsunori Kanda
 
Airflowを広告データのワークフローエンジンとして運用してみた話
Katsunori Kanda
 
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
Katsunori Kanda
 
GCSでstatic web hosting
Katsunori Kanda
 
Dockerだけではないコンテナのはなし
Katsunori Kanda
 
RealSenseを使ってCrazyflieを自律飛行させてみた
Katsunori Kanda
 
KINECT WITH ROS
Katsunori Kanda
 
Docker超入門
Katsunori Kanda
 
Hadoopことはじめ
Katsunori Kanda
 
Spark Summit 2015 参加報告
Katsunori Kanda
 
20150207 何故scalaを選んだのか
Katsunori Kanda
 
Discretized Streams: Fault-Tolerant Streaming Computation at Scaleの解説
Katsunori Kanda
 
自動テストのすすめ
Katsunori Kanda
 

Recently uploaded (7)

PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 

データファースト開発