DWHの人気記事 87件 - はてなブックマーク

1 - 40 件 / 87件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DWHの検索結果1 - 40 件 / 87件

DWHに関するエントリは87件あります。データ、分析、データ基盤などが関連タグです。人気エントリには『データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball』などがあります。

データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 398 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- GCP
- aws
- アーキテクチャ
- データ基盤
- データ分析
- DWH
- サービス
- cloud
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
- 394 users
- speakerdeck.com/soudai
- テクノロジー
- 2025/07/08
参考資料 - https://martinfowler.com/articles/is-quality-worth-cost.html - https://speakerdeck.com/twada/agentic-software-engineering-findy-2025-07-editi…
- DB
- あとで読む
- 設計
- AI
- データベース
- 技術
- software
- 開発
- Database
Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
- 302 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2021/11/20
はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンドデータインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試みプロダクト組み込み用データサービスリアルタイム Analytics Engineer の登場各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat
- data
- あとで読む
- データ
- SQL
- architecture
- 統計
- データ基盤
- dataManagement
- ツール
- DWH
MonotaROのデータ基盤10年史（前編） - MonotaRO Tech Blog
- 239 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/10/26
おしらせ：12/23 に後編記事がでました！ tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを
- BigQuery
- あとで読む
- mysql
- データ
- データ基盤
- SQL
- 分析
- database
- 運用
- インフラ

なぜETLではなくELTが流行ってきたのか - Qiita
- 229 users
- qiita.com/hiro_koba_jp
- テクノロジー
- 2022/12/05
概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます！（みんなも参加してね）データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか？一方、「ETLではなくELT（音楽グループではない）が主流になりつつある」といったような論調も増えてきました。この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか（予想）について、私なりの見解を書いてみようと思います。一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう
- データ
- あとで読む
- BigQuery
- データ分析
- ELT
- ETL
- architecture
- SQL
- CPU
[レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
- 199 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/08
さがらです。 11月8日20時～22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。本記事はこのイベントのレポートブログとなります。イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました！たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。おまけ：当イベントの応募者数このイベントですが、なんと
dbtで見やすいER図を生成する - yasuhisa's blog
- 196 users
- www.yasuhisay.info
- テクノロジー
- 2024/02/03
背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するかどうやってER図を見やすくするかまとめ背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに
- dbt
- あとで読む
- 設計
- DB
- markdown
- UML
- database
DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog
- 190 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/07/27
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤やデータマネジメントに興味を持たれている方はDMBOKを持っている / 読んだことがあるという方も多いのではないでしょうか。このエントリではDMBOK中に紹介されているデータマネジメント成熟度アセスメント(以下、アセスメントと省略)をモノタロウでどう活用しているかについて紹介します。背景初手: 自社のデータ基盤の歴史を振り返るアセスメントの実施データ活用者 / システム提供者 / 意思決定者へのヒアリングの実施アセスメントを実施した結果最後に背景まず、モノタロウでなぜアセスメントを行なったかについて説明します。モノタロウは20年以上歴史のある企業であり、データ基盤自体も10年以上の歴史があります。単一事業ではあるものの、受注 / 売上 / 商品 / 在庫 / 顧客 / 行動履歴など、対象となるドメ
Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮
- 189 users
- bering.hatenadiary.com
- テクノロジー
- 2023/09/24
はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はテーブル仕様である Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest files
- Iceberg
- あとで読む
- DB
- apache
- DWH
- データベース
- data
- database
- データ
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 151 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- データ
- cloud
- GCP
- google
- Google Cloud
- 分析
- クラウド
- アーキテクチャ
BigQuery と Snowflake を徹底比較
- 150 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
DWHにおけるデータモデリングで大事にしている考え方
- 127 users
- stable.co.jp
- テクノロジー
- 2024/02/02
こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑（@ikki_mz）です。弊社では、クライアント社内のデータウェアハウス（DWH）におけるデータモデリングをサポート...
- dbt
- あとで読む
データウェアハウスのデータモデリングを整理してみた - Qiita
- 118 users
- qiita.com/zumax
- テクノロジー
- 2024/03/03
概要スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。スタースキーマスタースキーマを元に整理します。スタースキーマまたは星型スキーマはデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれるスノーフレークスキーマの一種モデルファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン
オラクルとAWSが「Oracle Database＠AWS」発表、AzureやGoogleに続く“分散クラウド”提携
- 112 users
- ascii.jp
- テクノロジー
- 2024/09/10
米オラクルと米Amazon Web Services（AWS）が2024年9月9日（米国時間）、戦略的パートナーシップに基づく新たなオファリング「Oracle Database＠AWS」を発表した。AWSデータセンターに配置されたインフラを用いて、オラクルが「Oracle Exadata Database Service」や「Oracle Autonomous Database」を提供する。オラクルでは、“分散クラウド／マルチクラウド戦略”に基づき、すでにMicrosoft Azure（Oracle Database＠Azure）やGoogle Cloud（Oracle Database＠Google Cloud）との間で同様のパートナーシップを実現している。 Oracle Database＠AWSの提供によって、AWSクラウドで稼働するアプリケーションからOracle Database
大規模なデータ分析基盤の構築時に待ち受ける“落とし穴”
- 109 users
- cloud.watch.impress.co.jp
- テクノロジー
- 2024/12/19
- データ統合
- あとで読む
- 調査
- 分析
- データ
- db
Microsoft Fabricの登場 - テクテク日記
- 108 users
- marshal115.hatenablog.com
- テクノロジー
- 2023/05/25
米国時間2023年5月23日から開催されたMicrosoft Buildは、歴史的な瞬間となりました。データアナリティクスの世界において世界初となるエンドツーエンド（E2E）のSaaS*1型アナリティクスサービス、Microsoft Fabric（以降「Fabric」）の登場です。Microsoft Fabricは業界の常識を覆すほどのインパクトを持ち、ビッグデータ分析、セルフサービス分析、データサイエンスプロジェクトなど、あらゆるデータニーズを満たす革新的なクラウドサービスが誕生しました。 Microsoft Power BIの製品チームに所属していることもあり、Fabricについては入社時に知るようになりました。今回のMicrosoft Buildでその瞬間に立ち会えることができ、非常に嬉しく思います。今まではPower BIを広める立場ということで他のAzureサービス*2との関わり
［速報］Google、AWSやAzureのDBやSaaSなどあらゆるデータソースをAIネイティブなデータレイクハウスに統合する「Agentic Data Cloud」発表
- 85 users
- www.publickey1.jp
- テクノロジー
- 2026/04/22
［速報］Google、AWSやAzureのDBやSaaSなどあらゆるデータソースをAIネイティブなデータレイクハウスに統合する「Agentic Data Cloud」発表 Googleは、日本時間で4月23日未明にラスベガスで開幕したイベント「Google Cloud Next 2026」で、Google CloudはもちろんAWSやMicrosoft AzureのデータベースやSaaSなどのあらゆるデータソースをAIネイティブなデータレイクハウスに統合する「Agentic Data Cloud」を発表しました。 AIエージェントを企業が構築する場合、ほぼ確実にAIエージェントによる業務データへのアクセスが求められます。Agentic Data Cloudは、そうしたAIエージェントのための包括的なデータレイクハウス、すなわち大規模データの保管と高度な分析が可能なソリューションを構築するサ
Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps
- 76 users
- speakerdeck.com/prog893
- テクノロジー
- 2021/06/29
データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する「データレイク」は今やデータ活用に欠かせないものとなりました。一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか？「データレイク向けの関連サービスとか多くてなんかよくわからない」「最初からデー…
データエージェントのためのナレッジカタログ
- 70 users
- speakerdeck.com/na0
- テクノロジー
- 2026/05/25
2026-05-25 データ利活用分科会 #33 https://jaguer.connpass.com/event/392373/
- BigQuery
- あとで読む
- AI
- データ
- google
- event
［速報］Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
- 68 users
- www.publickey1.jp
- テクノロジー
- 2022/11/30
Amazon Web Services（AWS）の年次イベント「AWS re:Invent 2022」が米ラスベガスで開催中です。 2日目の基調講演には、AWS CEOのAdam Selipsky氏が生バンドの演奏とともに登場しました。 Selipsky氏は、さまざまなデータを分析する上で多数の分析ツールのあいだでデータを転送しなければならない問題を指摘し、データ転送ツールであるETLがなくなることが同社のビジョンだと説明。新サービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表しました。 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。新サービス「Amaz
- reInvent2022
- AWS
- Redshift
- Aurora
- amazon
- あとで読む
2024年度サイバーエージェント新卒社内研修の「データモデリング」の資料公開 | CyberAgent Developers Blog
- 65 users
- developers.cyberagent.co.jp
- テクノロジー
- 2024/06/06
協業リテールメディアdivでデータエンジニアをしている千葉です。本日は、先日弊社内で実施をしたAI事業本部新人研修の一部である「データモデリング」について記載をします。同じく講師として登壇をした yassun7010 も「データベースの歴史」について、ブログとして公開をしているため、合わせて見ていただけると嬉しいです。 ※今回の記事作成に合わせて一部加筆修正をしています。基幹系と情報系今回の研修では、データモデリングを扱うシステムを基幹系情報系に分けて説明をしています。というのも基幹系と情報系では、そもそもデータの扱われ方やシステムの特性が異なります。基幹系システムではOLTPと呼ばれる処理システムになっており、オンラインでかつリアルタイムにデータを追加更新します。そのため、重要となってくるのが多くのトランザクション（処理数）を正確にさばくことです。代表例としては銀行の
[動画公開] データ分析を支える技術データモデリング再入門 #devio2022 | DevelopersIO
- 59 users
- dev.classmethod.jp
- テクノロジー
- 2022/07/25
データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。セッション概要「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH（データウェアハウス）のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、
- 分析
- あとで読む
- データ
- AWS
DWHにおけるデータモデル　定番から最新トレンドまで
- 59 users
- speakerdeck.com/ryotas_data
- テクノロジー
- 2022/12/23
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
- DWH
- あとで読む
- 分析
- 設計
- DB
- データベース
- architecture
書籍紹介：大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
- 59 users
- future-architect.github.io
- テクノロジー
- 2023/05/29
最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理（データマネジメント）という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望（新しいデータの提供、仕様の変更）の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータを
データカタログ特集　データ利活用に向けたアーキテクチャ6選 - Findy Tools
- 59 users
- findy-tools.io
- テクノロジー
- 2024/04/04
整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。株式会社10X事業内容10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫での支援を行っています。データカタログ導入の背景以前はデータ分析にデータレイクのテーブルがよく利用されており、カラムのメタデ
データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
- 57 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/14
というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。背景 / 前提データウェアハウスのテーブルを社内に広く提供したい初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともあるデータウェアハウスのバージョンを場面に応じて複数提供できると都合がよい一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい
累計参加者8,500名！ #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
- 57 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/02/24
primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/
- データ基盤
- あとで読む
BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
- 57 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2022/01/04
この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。目次この記事の概要目次宣伝実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか最後に
- BigQuery
- SQL
- データ基盤
- データ分析
- DWH
- GCP
- あとで読む
- SaaS
触ってわかるデータレイクハウス（Parquet, Iceberg, Trino）
- 56 users
- zenn.dev/loglass
- テクノロジー
- 2025/02/22
この記事は毎週必ず記事がでるテックブログ Loglass Tech Blog Sprint の79週目の記事です！ 2年間連続達成まで残り27週となりました！昨今、データエンジニアリングの重要性が高まるなか、データレイクハウスという言葉を聞く機会が増えてきました。一方で、BI、DWH、データレイクといった分野は、色のついた商用製品であったり大規模な技術スタックになったりと気軽に触りにくい印象があったりもして個人的に最近はあまり触れてこなかった分野でした(15年程前はだいぶBI製品にお世話になりましたが)。でも、実はかじってみると美味しい、単なる食わず嫌いだったかもしれません。この記事では前半にデータレイクハウスを概観しつつ後半に軽くハンズオンしてみたいと思います。チョイスは、最も使われるフォーマットである Apache Parquet 、S3 Tables の元となっている Apach
- データレイク
- Trino
- Iceberg
- Parquet
- データ
- 分析
- あとで読む
dbtを触ってみた感想 - yasuhisa's blog
- 55 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/25
データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている前職でも仕事の一部で使っていた開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較細かいノウハウ手元や本番環境での動作 Argo Workflowとの連携環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える既存
- dbt
- bigquery
- データ基盤
- データ
- SQL
- あとで読む
dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
- 54 users
- speakerdeck.com/10xinc
- テクノロジー
- 2022/04/07
DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。
- dbt
- データ
- あとで読む
- sql
- ツール
タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
- 54 users
- tech.timee.co.jp
- テクノロジー
- 2023/10/23
はじめにこんにちはokodoonですタイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います全体構成弊社のBigQueryは以下の4層にレイヤリングされていますそれぞれの役割は以下のような切り分けになっていますレイヤー名役割データレイク層複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化ステージング層複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層ソースシステムのデータ形式を分析に適した形に変換する層ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成データマート層特定用途に対して1:1で作成されたテーブル群を格納する層ダッシュボード用テーブル/Looker用テーブル/GoogleSh
- DWH
- あとで読む
- 設計
- DB
- データ
- Pocket
AI活用やデータ分析をする前に知っておきたい！エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture
- 49 users
- speakerdeck.com/tkhresk
- テクノロジー
- 2022/07/09
次のイベントの投影資料です。 https://studyco.connpass.com/event/251782/
BigQuery MLの新機能「TimesFM」を試してみた - NRIネットコムBlog
- 47 users
- tech.nri-net.com
- テクノロジー
- 2025/04/19
はじめに TimesFM とは TimesFM の一般的な利用シーン実際に使ってみた予測精度を実測値と比較してみるまとめはじめにラスベガスから帰国後、アメリカのジャンキーなご飯と色の濃い飲料が恋しい、松村です。本ブログでは、前回投稿した記事（※1）にてご紹介した BigQuery ML の新機能のうちの一つ「TimesFM」（プレビュー版）を試した内容をまとめます。具体的には、TimesFM モデルと、WEB サイトの SEO（検索エンジン最適化）をサポートする無料ツール「Google Search Console」(※2) の BigQuery にエクスポートされたデータを組み合わせて、WEB サイト全体の検索パフォーマンスを予測する方法をご紹介します。（※1）【Google Cloud Next 2025 in Las Vegas】Day 2 参加レポート ~ BigQu
- bigquery
- 機械学習
- SQL
- AI
- あとで読む
データウェアハウスをRedshiftからSnowflakeに移行するために考えたこと（１） - Uzabase for Engineers
- 47 users
- tech.uzabase.com
- テクノロジー
- 2024/12/06
この記事は NewsPicks Advent Calendar 2024 の6日目の記事です。ソーシャル経済メディア「NewsPicks」の中村です。最近はデータ基盤の開発運用、データアナリストのサポート、LLM活用等をやっています。現在、NewsPicksではデータウェアハウスとして長年利用してきたAmazon RedshiftからSnowflakeへの移行を進めています。まだ移行作業の途上ではありますが、完了の目処が立ったので、なぜデータ基盤の移行を行なっているのか、どのように移行計画を立てたか、実際に移行作業を進めてみてどうだったか等を紹介したいと思います。データ基盤を運用している方、データウェアハウスの比較検討をされている方などの参考になれば幸いです。なぜデータウェアハウスを移行するのか Redshiftのパフォーマンスとコストの問題まず、NewsPicksの従来のデータ基
- データ
- あとで読む
- aws
- Pocket
GeminiでdbtのDescriptionを自動補完したら、2,000件以上のメタデータ整備が1分以内で完了した話 - LegalOn Technologies Engineering Blog
- 45 users
- tech.legalforce.co.jp
- テクノロジー
- 2025/05/22
はじめに株式会社LegalOn Technologiesでアナリティクスエンジニアをしている鈴木です。データ活用の現場では、メタデータの品質が分析や開発の効率を大きく左右します。特に、データベースのカラム定義（description）は、データの意味や使い方を理解する上で重要な役割を果たしています。今回は、Gemini（生成AI）を活用してBigQueryのテーブルdescriptionを半自動補完する取り組みについてご紹介します。この施策により、データの可視性・可読性が向上し、チーム全体のデータ活用効率が改善されました。現在の環境現在のデータウェアハウスを取り巻く環境は以下の構成となっています。 BigQuery上のデータマートを効率的にデータモデリングするツールとしてdbtを採用している dbtにより、dl（データレイク）・dwh（データウェアハウス）・dm（データマート）の
DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
- 45 users
- tech.andpad.co.jp
- テクノロジー
- 2021/10/15
こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。データ基盤の全体像まずは、簡単にデータ基盤の全体像を紹介します。左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど
レイクハウスとはなんだったのか？
- 42 users
- speakerdeck.com/akuwano
- テクノロジー
- 2025/01/28
赤煉瓦倉庫勉強会第2回「レイクハウスって結局何なのっていいました？じゃあ真のレイクハウスをみせてやりますよ！」での発表資料です！
LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
- 41 users
- tech.layerx.co.jp
- テクノロジー
- 2024/07/04
こんにちは！LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩
- データ基盤
- あとで読む
- llm
- data
- 統計
統計ダッシュボード機能を BigQuery と BI Engine で実装する
- 41 users
- zenn.dev/team_zenn
- テクノロジー
- 2023/07/29
先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ（BigQuery）と記事データ（Cloud SQL）をどうJOINさせるかが課題外部接続でBigQueryからCloud SQLつなぐことにした統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにしたスケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめるチャートは Chart.js