Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
DWHの人気記事 87件 - はてなブックマーク
[go: Go Back, main page]

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 87件

新着順 人気順

DWHの検索結果1 - 40 件 / 87件

DWHに関するエントリは87件あります。 データ分析データ基盤 などが関連タグです。 人気エントリには 『データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball』などがあります。
  • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

    ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

      データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
    • DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所

      参考資料 - https://martinfowler.com/articles/is-quality-worth-cost.html - https://speakerdeck.com/twada/agentic-software-engineering-findy-2025-07-editi…

        DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
      • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

        はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat

          Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
        • MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog

          おしらせ:12/23 に後編記事がでました! tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。 現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。 およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。 データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。 そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを

            MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog
          • なぜETLではなくELTが流行ってきたのか - Qiita

            概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

              なぜETLではなくELTが流行ってきたのか - Qiita
            • [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO

              さがらです。 11月8日20時~22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。 本記事はこのイベントのレポートブログとなります。 イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました! たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。 今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。 おまけ:当イベントの応募者数 このイベントですが、なんと

                [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
              • dbtで見やすいER図を生成する - yasuhisa's blog

                背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

                  dbtで見やすいER図を生成する - yasuhisa's blog
                • DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog

                  こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤やデータマネジメントに興味を持たれている方はDMBOKを持っている / 読んだことがあるという方も多いのではないでしょうか。このエントリではDMBOK中に紹介されているデータマネジメント成熟度アセスメント(以下、アセスメントと省略)をモノタロウでどう活用しているかについて紹介します。 背景 初手: 自社のデータ基盤の歴史を振り返る アセスメントの実施 データ活用者 / システム提供者 / 意思決定者へのヒアリングの実施 アセスメントを実施した結果 最後に 背景 まず、モノタロウでなぜアセスメントを行なったかについて説明します。モノタロウは20年以上歴史のある企業であり、データ基盤自体も10年以上の歴史があります。単一事業ではあるものの、受注 / 売上 / 商品 / 在庫 / 顧客 / 行動履歴など、対象となるドメ

                    DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog
                  • Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮

                    はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はテーブル仕様である Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest files

                      Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮
                    • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

                      はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

                        次世代データ基盤:データレイクハウスを Google Cloud で実現する
                      • BigQuery と Snowflake を徹底比較

                        最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。

                          BigQuery と Snowflake を徹底比較
                        • DWHにおけるデータモデリングで大事にしている考え方

                          こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑(@ikki_mz)です。弊社では、クライアント社内のデータウェアハウス(DWH)におけるデータモデリングをサポート...

                            DWHにおけるデータモデリングで大事にしている考え方 
                          • データウェアハウスのデータモデリングを整理してみた - Qiita

                            概要 スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。 スタースキーマ スタースキーマを元に整理します。 スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ 唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれる スノーフレークスキーマの一種 モデル ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン

                              データウェアハウスのデータモデリングを整理してみた - Qiita
                            • オラクルとAWSが「Oracle Database@AWS」発表、AzureやGoogleに続く“分散クラウド”提携

                              米オラクルと米Amazon Web Services(AWS)が2024年9月9日(米国時間)、戦略的パートナーシップに基づく新たなオファリング「Oracle Database@AWS」を発表した。AWSデータセンターに配置されたインフラを用いて、オラクルが「Oracle Exadata Database Service」や「Oracle Autonomous Database」を提供する。 オラクルでは、“分散クラウド/マルチクラウド戦略”に基づき、すでにMicrosoft Azure(Oracle Database@Azure)やGoogle Cloud(Oracle Database@Google Cloud)との間で同様のパートナーシップを実現している。 Oracle Database@AWSの提供によって、AWSクラウドで稼働するアプリケーションからOracle Database

                                オラクルとAWSが「Oracle Database@AWS」発表、AzureやGoogleに続く“分散クラウド”提携
                              • 大規模なデータ分析基盤の構築時に待ち受ける“落とし穴”

                                  大規模なデータ分析基盤の構築時に待ち受ける“落とし穴”
                                • Microsoft Fabricの登場 - テクテク日記

                                  米国時間2023年5月23日から開催されたMicrosoft Buildは、歴史的な瞬間となりました。データアナリティクスの世界において世界初となるエンドツーエンド(E2E)のSaaS*1型アナリティクスサービス、Microsoft Fabric(以降「Fabric」)の登場です。Microsoft Fabricは業界の常識を覆すほどのインパクトを持ち、ビッグデータ分析、セルフサービス分析、データサイエンスプロジェクトなど、あらゆるデータニーズを満たす革新的なクラウドサービスが誕生しました。 Microsoft Power BIの製品チームに所属していることもあり、Fabricについては入社時に知るようになりました。今回のMicrosoft Buildでその瞬間に立ち会えることができ、非常に嬉しく思います。今まではPower BIを広める立場ということで他のAzureサービス*2との関わり

                                    Microsoft Fabricの登場 - テクテク日記
                                  • [速報]Google、AWSやAzureのDBやSaaSなどあらゆるデータソースをAIネイティブなデータレイクハウスに統合する「Agentic Data Cloud」発表

                                    [速報]Google、AWSやAzureのDBやSaaSなどあらゆるデータソースをAIネイティブなデータレイクハウスに統合する「Agentic Data Cloud」発表 Googleは、日本時間で4月23日未明にラスベガスで開幕したイベント「Google Cloud Next 2026」で、Google CloudはもちろんAWSやMicrosoft AzureのデータベースやSaaSなどのあらゆるデータソースをAIネイティブなデータレイクハウスに統合する「Agentic Data Cloud」を発表しました。 AIエージェントを企業が構築する場合、ほぼ確実にAIエージェントによる業務データへのアクセスが求められます。Agentic Data Cloudは、そうしたAIエージェントのための包括的なデータレイクハウス、すなわち大規模データの保管と高度な分析が可能なソリューションを構築するサ

                                      [速報]Google、AWSやAzureのDBやSaaSなどあらゆるデータソースをAIネイティブなデータレイクハウスに統合する「Agentic Data Cloud」発表
                                    • Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps

                                      データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する 「データレイク」は今やデータ活用に欠かせないものとなりました。 一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか? 「データレイク向けの関連サービスとか多くてなんかよくわからない」 「最初からデー…

                                        Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps
                                      • データエージェントのためのナレッジカタログ

                                        2026-05-25 データ利活用分科会 #33 https://jaguer.connpass.com/event/392373/

                                          データエージェントのためのナレッジカタログ
                                        • [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022

                                          Amazon Web Services(AWS)の年次イベント「AWS re:Invent 2022」が米ラスベガスで開催中です。 2日目の基調講演には、AWS CEOのAdam Selipsky氏が生バンドの演奏とともに登場しました。 Selipsky氏は、さまざまなデータを分析する上で多数の分析ツールのあいだでデータを転送しなければならない問題を指摘し、データ転送ツールであるETLがなくなることが同社のビジョンだと説明。 新サービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表しました。 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。 新サービス「Amaz

                                            [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
                                          • 2024年度 サイバーエージェント新卒社内研修の「データモデリング」の資料公開 | CyberAgent Developers Blog

                                            協業リテールメディアdivでデータエンジニアをしている千葉です。 本日は、先日弊社内で実施をしたAI事業本部 新人研修の一部である「データモデリング」について記載をします。 同じく講師として登壇をした yassun7010 も「データベースの歴史」について、ブログとして公開をしているため、合わせて見ていただけると嬉しいです。 ※今回の記事作成に合わせて一部加筆修正をしています。 基幹系と情報系 今回の研修では、データモデリングを扱うシステムを 基幹系 情報系 に分けて説明をしています。 というのも基幹系と情報系では、そもそもデータの扱われ方やシステムの特性が異なります。 基幹系システムではOLTPと呼ばれる処理システムになっており、オンラインでかつリアルタイムにデータを追加更新します。そのため、重要となってくるのが多くのトランザクション(処理数)を正確にさばくことです。代表例としては銀行の

                                              2024年度 サイバーエージェント新卒社内研修の「データモデリング」の資料公開 | CyberAgent Developers Blog
                                            • [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO

                                              データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術 データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。 セッション概要 「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。 データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH(データウェアハウス)のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、

                                                [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO
                                              • DWHにおけるデータモデル 定番から最新トレンドまで

                                                いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC

                                                  DWHにおけるデータモデル 定番から最新トレンドまで
                                                • 書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ

                                                  最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理(データマネジメント)という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。 かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望(新しいデータの提供、仕様の変更)の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。 クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータを

                                                    書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
                                                  • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                                                    整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 株式会社10X事業内容10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫での支援を行っています。 データカタログ導入の背景以前はデータ分析にデータレイクのテーブルがよく利用されており、カラムのメタデ

                                                      データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                                                    • データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog

                                                      というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。 背景 / 前提 データウェアハウスのテーブルを社内に広く提供したい 初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる 他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともある データウェアハウスのバージョンを場面に応じて複数提供できると都合がよい 一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい

                                                        データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
                                                      • 累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224

                                                        primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/

                                                          累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
                                                        • BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0

                                                          この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。 しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。 そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。 目次 この記事の概要 目次 宣伝 実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース 最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか 最後に

                                                            BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
                                                          • 触ってわかるデータレイクハウス(Parquet, Iceberg, Trino)

                                                            この記事は毎週必ず記事がでるテックブログ Loglass Tech Blog Sprint の79週目の記事です! 2年間連続達成まで残り27週となりました! 昨今、データエンジニアリングの重要性が高まるなか、データレイクハウスという言葉を聞く機会が増えてきました。一方で、BI、DWH、データレイクといった分野は、色のついた商用製品であったり大規模な技術スタックになったりと気軽に触りにくい印象があったりもして個人的に最近はあまり触れてこなかった分野でした(15年程前はだいぶBI製品にお世話になりましたが)。 でも、実はかじってみると美味しい、単なる食わず嫌いだったかもしれません。この記事では前半にデータレイクハウスを概観しつつ後半に軽くハンズオンしてみたいと思います。チョイスは、最も使われるフォーマットである Apache Parquet 、S3 Tables の元となっている Apach

                                                              触ってわかるデータレイクハウス(Parquet, Iceberg, Trino)
                                                            • dbtを触ってみた感想 - yasuhisa's blog

                                                              データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

                                                                dbtを触ってみた感想 - yasuhisa's blog
                                                              • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                                                                DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                                                                  dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
                                                                • タイミーデータ基盤のモデリング設計について - Timee Product Team Blog

                                                                  はじめに こんにちはokodoonです タイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います 全体構成 弊社のBigQueryは以下の4層にレイヤリングされています それぞれの役割は以下のような切り分けになっています レイヤー名 役割 データレイク層 複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化 ステージング層 複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層 ソースシステムのデータ形式を分析に適した形に変換する層 ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成 データマート層 特定用途に対して1:1で作成されたテーブル群を格納する層 ダッシュボード用テーブル/Looker用テーブル/GoogleSh

                                                                    タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
                                                                  • AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture

                                                                    次のイベントの投影資料です。 https://studyco.connpass.com/event/251782/

                                                                      AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture
                                                                    • BigQuery MLの新機能「TimesFM」を試してみた - NRIネットコムBlog

                                                                      はじめに TimesFM とは TimesFM の一般的な利用シーン 実際に使ってみた 予測精度を実測値と比較してみる まとめ はじめに ラスベガスから帰国後、アメリカのジャンキーなご飯と色の濃い飲料が恋しい、松村です。 本ブログでは、前回投稿した記事(※1)にてご紹介した BigQuery ML の新機能のうちの一つ「TimesFM」(プレビュー版)を試した内容をまとめます。具体的には、TimesFM モデルと、WEB サイトの SEO(検索エンジン最適化)をサポートする無料ツール「Google Search Console」(※2) の BigQuery にエクスポートされたデータを組み合わせて、WEB サイト全体の検索パフォーマンスを予測する方法をご紹介します。 (※1)【Google Cloud Next 2025 in Las Vegas】Day 2 参加レポート ~ BigQu

                                                                        BigQuery MLの新機能「TimesFM」を試してみた - NRIネットコムBlog
                                                                      • データウェアハウスをRedshiftからSnowflakeに移行するために考えたこと(1) - Uzabase for Engineers

                                                                        この記事は NewsPicks Advent Calendar 2024 の6日目の記事です。 ソーシャル経済メディア「NewsPicks」の中村です。最近はデータ基盤の開発運用、データアナリストのサポート、LLM活用等をやっています。 現在、NewsPicksではデータウェアハウスとして長年利用してきたAmazon RedshiftからSnowflakeへの移行を進めています。まだ移行作業の途上ではありますが、完了の目処が立ったので、なぜデータ基盤の移行を行なっているのか、どのように移行計画を立てたか、実際に移行作業を進めてみてどうだったか等を紹介したいと思います。データ基盤を運用している方、データウェアハウスの比較検討をされている方などの参考になれば幸いです。 なぜデータウェアハウスを移行するのか Redshiftのパフォーマンスとコストの問題 まず、NewsPicksの従来のデータ基

                                                                          データウェアハウスをRedshiftからSnowflakeに移行するために考えたこと(1) - Uzabase for Engineers
                                                                        • GeminiでdbtのDescriptionを自動補完したら、2,000件以上のメタデータ整備が1分以内で完了した話 - LegalOn Technologies Engineering Blog

                                                                          はじめに 株式会社LegalOn Technologiesでアナリティクスエンジニアをしている鈴木です。 データ活用の現場では、メタデータの品質が分析や開発の効率を大きく左右します。特に、データベースのカラム定義(description)は、データの意味や使い方を理解する上で重要な役割を果たしています。 今回は、Gemini(生成AI)を活用してBigQueryのテーブルdescriptionを半自動補完する取り組みについてご紹介します。この施策により、データの可視性・可読性が向上し、チーム全体のデータ活用効率が改善されました。 現在の環境 現在のデータウェアハウスを取り巻く環境は以下の構成となっています。 BigQuery上のデータマートを効率的にデータモデリングするツールとしてdbtを採用している dbtにより、dl(データレイク)・dwh(データウェアハウス)・dm(データマート)の

                                                                            GeminiでdbtのDescriptionを自動補完したら、2,000件以上のメタデータ整備が1分以内で完了した話 - LegalOn Technologies Engineering Blog
                                                                          • DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog

                                                                            こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。 今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。 データ基盤の全体像 まずは、簡単にデータ基盤の全体像を紹介します。 左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど

                                                                              DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
                                                                            • レイクハウスとはなんだったのか?

                                                                              赤煉瓦倉庫勉強会第2回「レイクハウスって結局何なのっていいました?じゃあ真のレイクハウスをみせてやりますよ!」 での発表資料です!

                                                                                レイクハウスとはなんだったのか?
                                                                              • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

                                                                                こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

                                                                                  LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
                                                                                • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

                                                                                  先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

                                                                                    統計ダッシュボード機能を BigQuery と BI Engine で実装する

                                                                                  新着記事