Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
etlの人気記事 61件 - はてなブックマーク
[go: Go Back, main page]

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 61件

新着順 人気順

etlの検索結果1 - 40 件 / 61件

etlに関するエントリは61件あります。 データawsBigQuery などが関連タグです。 人気エントリには 『なぜETLではなくELTが流行ってきたのか - Qiita』などがあります。
  • なぜETLではなくELTが流行ってきたのか - Qiita

    概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

      なぜETLではなくELTが流行ってきたのか - Qiita
    • GCPで構築する、これからの変化に対応出来るデータ分析基盤の作り方

      2020/3/31 Google Cloud Data Platform Dayでの、山田、佐伯、白鳥の講演資料になります

        GCPで構築する、これからの変化に対応出来るデータ分析基盤の作り方
      • AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog

        こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。 データ分析とETLの現状と課題 ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか?単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて

          AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog
        • 高性能分散SQLエンジン「Trino」最速ガイド - NTT docomo Business Engineers' Blog

          こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

            高性能分散SQLエンジン「Trino」最速ガイド - NTT docomo Business Engineers' Blog
          • 次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ

            ※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。 導入後の状態 Prefect導入後は、以下の構成となりました。 ポイントは以下の点です。 ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ 従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい

              次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ
            • 普通のエンジニアが、 4 年かけて個人開発の OSS で GitHub Star 2.3k を獲得するまでに考えたこと

              star-history: https://www.star-history.com/#dagu-org/dagu&Date はじめに 2022年、私は Dagu という名のワークフローエンジンを個人で開発し始めました。そして 2025 年 6 月現在、GitHub でのスターは約 2.3k を超えました。もちろん、世界的な大手OSSと比較すれば、その規模は決して大きくはありません。しかし、企業の内部ツールから個人の Raspberry Pi 上で動く趣味のプロジェクトまで、様々な用途で、そして世界中の多様な地域から、日々 Issue やフィードバックが寄せられています。 この記事は、特別なスキルを持たない、いわゆる「普通」のソフトウェアエンジニアである私が、一つの OSS を4年間諦めずに継続し、どのようにして小さなコミュニティを育んできたか、その過程で得た学びや考えを共有するものです。

                普通のエンジニアが、 4 年かけて個人開発の OSS で GitHub Star 2.3k を獲得するまでに考えたこと
              • BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG

                こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。 そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。 目次 目次 マス・セグメント配信基盤の紹介 課題 冪等化 BigQuery追記処理に関する冪等化の取り組み 冪等にならないケース INSERT 初

                  BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
                • メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526

                  Google Cloud Day: Digital ’21 の発表資料です。 https://cloudonair.withgoogle.com/events/platinum_primenumber?talk=sessionvideo -----------------------------…

                    メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526
                  • リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log

                    はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat

                      リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log
                    • サーバーレスファーストで考えるクレジットカードビジネスの最適化 / Business Optimization for Credit Card by Serverless

                      サーバーレスファーストで考えるクレジットカードビジネスの最適化 / Business Optimization for Credit Card by Serverless

                        サーバーレスファーストで考えるクレジットカードビジネスの最適化 / Business Optimization for Credit Card by Serverless
                      • 累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224

                        primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/

                          累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
                        • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                          DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                            dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
                          • Terraformとdbtを活用してデータ基盤整備の生産性が向上した話

                            はじめに 私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。 導入前の状況と課題 弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。 考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。 そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし

                              Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
                            • GitHub - PRQL/prql: PRQL is a modern language for transforming data — a simple, powerful, pipelined SQL replacement

                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                GitHub - PRQL/prql: PRQL is a modern language for transforming data — a simple, powerful, pipelined SQL replacement
                              • AI-OCRを支える非同期処理アーキテクチャ - LayerX エンジニアブログ

                                こんにちは!LayerXエンジニアの高際 @shun_tak です! この記事では、LayerX インボイスの請求書AI-OCRを支える非同期処理の仕組みについて解説したいと思います。 いきなりサマリーですが、今回お伝えしたいのは以下の2点です。 請求書は突然大量にアップロードされるので(大歓迎です!)、Amazon SQSとGoの machinery を活用して非同期処理しているよ! AI-OCRの処理は重たいけど、AWS Lambdaを活用してシステム全体の負荷を分散し、スケーラビリティと可用性を確保し、コストも抑えることができたよ! では早速ですが、前回のブログ LayerX インボイスにおける請求書AI-OCRの概要 の復習です。LayerX インボイスの請求書AI-OCRは、以下の図のように複数の処理によって構成されています。 図にするとあっさりしてますが、前処理も後処理も複数の

                                  AI-OCRを支える非同期処理アーキテクチャ - LayerX エンジニアブログ
                                • AWS Glueを使った Serverless ETL の実装パターン

                                  本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない?」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法(コーディング、テスト、デプロイ、モニタリングなど)を紹介します。

                                    AWS Glueを使った Serverless ETL の実装パターン
                                  • Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ

                                    こんにちは佐藤です。 今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。 背景 Dataformについて 導入して良かったこと 依存関係がわかりやすい クエリのテスト 工夫した点 フォルダの構成について データセット名、テーブル名について シャーディングテーブルの定義について 最後に 背景 現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。 その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい

                                      Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
                                    • BigQueryからSnowflakeへ移管して作る最強のデータ基盤 〜Data Ingestion編〜 / The Ultimate Data Platform Migration from BigQuery to Snowflake: Data Ingestion Edition

                                      『みんなの考えた最強のデータ基盤アーキテクチャ2024前半おまとめ拡大版SP!』の発表資料です。 https://datatech-jp.connpass.com/event/319827/

                                        BigQueryからSnowflakeへ移管して作る最強のデータ基盤 〜Data Ingestion編〜 / The Ultimate Data Platform Migration from BigQuery to Snowflake: Data Ingestion Edition
                                      • レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog

                                        Analytics Infra チームの@hizaです。 この記事ではメルカリの分析環境を改善した事例を紹介します。 今回は「運用に課題があってリプレースしたいが、業務への影響が大きすぎてリプレースできない」そんな板挟みな状況を解決した事例です。 また、その紹介を通じてメルカリのData Architectがどんな仕事をしているのかその一部を感じてもらえる記事をめざしました。 メルカリのデータ活用の現状 メルカリには様々な職種でデータを活用する文化があります。 AnalystやML Engineerの他にも、PdMやCustomer Supportなども業務にデータを活用しています。結果として社内のBigQueryユーザー数は月間800名を超えるほどになりました。 こういった環境ではデータが良く整備されている事が事業の成果に大きく影響しえます。例えば、使いやすいDWHがあれば多数の社員の業

                                          レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog
                                        • AWS_ETL_services_tips_202107.pdf

                                          • BigQueryエミュレータを使ったETLのインテグレーションテスト - MonotaRO Tech Blog

                                            TL;DR BigQuery Emulator と fake-gcs-server を組み合わせることでbqコマンドでCSVファイルを読み込んでETLのインテグレーションテストができた。 はじめに こんにちは。先日こちらの記事を書いたCTO-Officeの藤本です。そこでは書ききれなかったETLについて書いておきたいと思います。 ビッグデータを扱うETLのテストを行いたい場合に、DBからExtractするEの部分など、ユニットテストやモックでは担保できないところが出てきます。 そのようなインテグレーションテストに、OSSのBigQuery Emulatorを活用できる場合があります。 背景 モノタロウでは、マイクロサービスで実装したGoのロジックをApache Beam Go SDKでラップして、Cloud Dataflowで定期実行することで商品の出荷目安のデータを生成して様々なチャネル

                                              BigQueryエミュレータを使ったETLのインテグレーションテスト - MonotaRO Tech Blog
                                            • Embulkのcoreのソースコードから紐解くデータ転送のしくみ

                                              この記事は trocco Advent Calendar 2023 の6日目の記事となります。 はじめに 今回はtroccoの内部でも利用されているETLのためのOSSであるEmbulkについて、core部分のソースコードリーディングを通して、そのしくみを紐解いていきたいと思います。 おことわり Embulkの基本的な使い方などについては解説しません。 筆者はembulk-coreにコントリビュートしているわけではないので、間違いなどがあればお気軽にご指摘ください。 今回見ていくcoreの実装自体は、比較的変更が少ないとされる各種プラグインが従うべきインターフェース部分(embulk-spi)から隠蔽されているため、今後この記事の内容が正しくなくなる可能性は容易にあります。 Embulkにはguessやpreviewやresumeといった機能も含まれていますが、今回は単純なembulk r

                                                Embulkのcoreのソースコードから紐解くデータ転送のしくみ
                                              • BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog

                                                はじめに ※Timee Product - Qiita Advent Calendar 2023 - Qiitaの12月8日分の記事です。 okodooooooonです BigQueryの料金爆発。怖いですよね。 dbtでの開発が進んでたくさんのモデルを作るようになると、デイリーのビルドだけでも凄まじいお金が消えていったりします(僕はもう現職で数え切れないくらいやらかしてます)。 コストの対策として「パーティショニング」「クラスタリング」などが挙げられますが、今回は「増分更新」の観点で話せたらと思います。 「dbtのmaterialized=’incremental’って増分更新できておしゃれでかっこよくてコストもなんとなく軽くなりそう!」くらいの認識でさまざまな失敗を経てきた僕が、BigQueryにおけるincrementalの挙動を説明した上で、タイミーデータ基盤における増分更新の使い

                                                  BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog
                                                • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                                                  こんにちは、プレイドでCore Platform開発の責任者をしているエンジニアのkusappeです。 プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてブログ化しました。 この記事では、Modern Data Stackとは何か、そのメリットや特徴について解説します。また、具体的な技術要素・主要サービスや重要だと思うトレンドについても紹介します。 Modern Data Stackとは?Modern Data Stackとは、データの収集、処理、分析、可視化などデータ活用に関わる機能を、それぞれに特化したクラウドサービスやSaaSツールを組み合わせて構築するという考え方やその基盤のことを指します。 クラウドサービスやその周辺の技術要素の進化によって、従来のデータ基盤と比べると以下のメリットがあると言われています。 高いス

                                                    社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                                                  • SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由

                                                    クラウドサービスを使い、サーバーレスでプログラムコードを実行する「FaaS(ファンクション・アズ・ア・サービス)」を構築する企業が相次いでいる。AWS Lambda(ラムダ)に代表されるFaaS基盤のクラウドサービスを利用すれば、開発者は仮想マシンやコンテナなどの実行環境を構築・管理する必要がなくなり、開発のスピードアップに寄与する。コードの実行が終わると必要に応じてITリソースを解放する仕組みなので料金が比較的安く、コスト削減にもつながる。 FaaSの構築はDX(デジタル変革)に向けたシステム開発・改善のスピード向上や、クラウドコスト削減などに欠かせない。SBI生命保険はFaaSによってETL(抽出/変換/ロード)を実装しデータウエアハウス(DWH)システムを構築した。DWHプロジェクトの軌跡を見ていこう。 管理コストや作業負荷をFaaSで解消 「経営の意思決定に必要なデータや分析処理を

                                                      SBI生命がETLを「AWS Lambda」で実装、専用サービスGlueから置き換えた理由
                                                    • Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO

                                                      こんにちは、クラスメソッドの岡です。 今回Step Functionsを使って簡単なETL処理を試す機会があったので実際に作ったものを公開します。 サーバーレスでETL処理、といえばAWS Glueが浮かぶかと思いますが、今回はGlueは使わず、LambdaのPythonランタイムでPandasを使ってS3のデータとDynamoDBのデータを結合するような処理を行ってみたいと思います。 ちなみに私はデータ分析に関する知識はほぼ皆無ですが、PythonライブラリPandasを使う事で簡単にデータ処理を行えました。 シナリオ 今回はIoTデバイスから送られてくる時系列データがS3に出力されている前提として、そのファイルとDynamoDBにあるデバイスのマスタデータと結合して分析データとして別のS3バケットに出力する、といったシナリオを想定しています。 構成 サンプルコード 今回はServerl

                                                        Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO
                                                      • 【GCP】BigQueryでのETL開発 ~DataformのPJ導入と運用方法~ - Insight Edge Tech Blog

                                                        こんにちは、k-kzkです。私はInsight Edgeに参画して早2年が経ちました。 今回の記事では、私が初めて取り組んだETL開発プロジェクトと、そこで選択したツールであるDataformについてお話しします。 目次 1. はじめに 1.1 ETL 開発とは 1.2 Dataform の選定理由 2. Dataform を利用した ETL 開発のライフサイクル 2.1 リポジトリ作成 2.2 ワークスペースの使い方について 2.3 ディレクトリについて 2.4 テーブル構成 2.5 Dataform のテストについて 2.6 リリース方法について 3. その他開発における Tips 3.2 データセット作成時のエラーについて 4. まとめ 1. はじめに プロジェクトに参画するまで、データをメインに扱う開発経験がほとんどなかった私にとって、「ETL」という言葉も聞き馴染みが無いものでし

                                                          【GCP】BigQueryでのETL開発 ~DataformのPJ導入と運用方法~ - Insight Edge Tech Blog
                                                        • [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services

                                                          Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue

                                                            [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services
                                                          • Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available | Amazon Web Services

                                                            AWS News Blog Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available “Data is at the center of every application, process, and business decision,” wrote Swami Sivasubramanian, VP of Database, Analytics, and Machine Learning at AWS, and I couldn’t agree more. A common pattern customers use today is to build data pipelines to move data from Amazon Aurora to Amazon R

                                                              Amazon Aurora MySQL zero-ETL integration with Amazon Redshift is now generally available | Amazon Web Services
                                                            • dbtとは?|dbtで始めるデータパイプライン構築〜入門から実践〜

                                                                dbtとは?|dbtで始めるデータパイプライン構築〜入門から実践〜
                                                              • データ基盤再設計でレスポンス速度を 40倍高速化し、顧客体験を改善するまでの軌跡

                                                                はじめに こんにちは、ダイニーのデータチームのエンジニアをしている kawamitsu です。 ダイニーでは飲食店さま向けのデータ分析プロダクトを提供しています。 本記事では、膨大な店舗データの処理によるアプリケーションのボトルネックを、データ基盤によって解決した事例を紹介します。 先に成果を説明しますが、データ基盤の再設計によりユーザーのデータ分析においてタイムアウトのほぼ全廃と全店舗・任意期間のデータ取得を可能にしました。 この記事を通して、データエンジニアリング × アプリケーションエンジニアリング の開発に少しでも興味を持っていただけたら幸いです。 背景:飲食店におけるデータ活用の重要性 飲食店の経営において、データの活用は重要な経営判断の基盤となります。 注文履歴、決済履歴、監査目的の会計取消・修正履歴など、多岐にわたる情報を、全店舗分まとめていつでもアクセスできる環境が求められ

                                                                  データ基盤再設計でレスポンス速度を 40倍高速化し、顧客体験を改善するまでの軌跡
                                                                • 【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ | Amazon Web Services

                                                                  Amazon Web Services ブログ 【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ 2021年7月14日に、「AWS で実践!Analytics Modernization ~ETL 編~」というオンラインセミナーを開催しました。昨今、データレイクをクラウド上に作ることが一般的になりつつありますが、データレイクに溜まったデータを活用する際に重要になるのが前処理(ETL)であり、その前処理をどのようにAWS上で実現し、モダン化するかという点を解説しました。 今回このセミナーの動画と資料を公開しましたのでご紹介します。全部で3つのセッションがありますが、各セッションの中も内容単位で区切った動画にしていますので、必要なところだけ見ていただけるようになっています。 セッション1: AWSのETLソリューション紹介(アマゾン ウェブ サー

                                                                    【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~ | Amazon Web Services
                                                                  • Datastream for BigQuery でプライベートなCloudSQLをニア・リアルタイムに分析する - Assured Tech Blog

                                                                    こんにちは!エンジニアのオリバーです。最近、個人で翻訳するときに ChatGPT に英訳、和訳させてみることが多くなってきたこの頃です。 久々に少し長めの技術記事を書かせていただきました。最近のトレンドである(と思っている)多様なデータを素早く安全に Google Cloud Platform (GCP) 上で活用するための記事になっています。記事後半には Terraform のサンプルと一緒に構成の説明がありますので興味ある方は最後まで読んでいただければと思います。 直近、GCP の BigQuery にアプリケーションのデータをニア・リアルタイムで同期できる Change Data Capture (CDC)のマネージドサービス、Datastream for BigQuery を利用する機会がありました。今回使用したデータソースは外部からのアクセスを許可していない構成だったのですが、こ

                                                                      Datastream for BigQuery でプライベートなCloudSQLをニア・リアルタイムに分析する - Assured Tech Blog
                                                                    • AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開

                                                                      AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年(2023年)11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。 参考:[速報]AWS、Copilot対抗となる「Amazo

                                                                        AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
                                                                      • ペパボのデータ基盤『Bigfoot』におけるAirbyteの本番運用 - Pepabo Tech Portal

                                                                        技術部データ基盤チームに所属しているまつもとです。ペパボではGoogle Cloud Platform(以下 GCP)をメインで利用した社内データ活用基盤「Bigfoot」を開発・運用しています。BigfootはBigQueryによるデータウェアハウス・データマートを各部署へ提供することが大きな役割となっています。BigQueryへのETLはGCPのワークフローオーケストレーションサービスであるCloud Composerによって構成しています。データのExtractとLoadは基本的にEmbulkとStitchを利用していますが、対応していないデータソースについてはPythonでExtractとLoadのコードを個別に実装しています。 新たなデータソースに対応するために都度ETLを実装するのは非効率であるため、最近急速に対応データソースの数を増やしているOSSのETLシステム Airby

                                                                          ペパボのデータ基盤『Bigfoot』におけるAirbyteの本番運用 - Pepabo Tech Portal
                                                                        • What's New at AWS - Cloud Innovation & News

                                                                          AWS Glue visual ETL now supports new native Amazon Redshift capabilities AWS Glue Studio now supports new native Amazon Redshift connector capabilities: browse Amazon Redshift tables directly in Glue Studio, add native Redshift SQL, execute common operations while writing to Amazon Redshift including drop, truncate, upsert, create or merge. AWS Glue Studio offers a visual extract-transform-and-loa

                                                                            What's New at AWS - Cloud Innovation & News
                                                                          • AWSの薄い本Ⅲ データ分析基盤を作ってみよう 〜設計編〜 - 佐々木拓郎のオンライン本屋 - BOOTH

                                                                            技書博5で頒布したAWS本です。AWSの薄い本のシリーズですが、この本は内容的には心機一転データ分析基盤を扱っています。データレイクやDWHをどうつなげるかといった本をメインのテーマとしています。 ■ 本書の目的 「AWSの薄い本Ⅲ データ分析基盤を作ってみよう 〜設計編〜」を手にとっていただき、ありがとうございます。本書は「AWSの薄い本」のシリーズではありますが、前二作(IAMのマニアックな話、アカウントセキュリティのベーシックセオリー)と異なるテーマとなっています。また、AWSの薄い本と銘打っていますが、AWS成分は薄めです。データ分析基盤を作る上での設計の考え方を中心です。 ビッグデータ活用の掛け声の元でデータ分析に注目が集まり、今ではDX推進という看板にかけ替えられつつあります。どのようなお題目で呼ばれるかはさておき、いろいろな現場でデータ分析に取り組む人が増えているように思えま

                                                                              AWSの薄い本Ⅲ データ分析基盤を作ってみよう 〜設計編〜 - 佐々木拓郎のオンライン本屋 - BOOTH
                                                                            • サーバーレス ETL 処理の使い分けを教えてください | DevelopersIO

                                                                              困っていること サーバーレス ETL 処理を実装予定です。AWS ではサーバーレス ETL 処理の可能なサービスが幾つかあるのですが、どれを選択すれば良いか解りません。判断可能な基準などあれば教えてください。 どう対応すればいいの? AWS では 参考資料 [1](P9,41,42)記載の通り、軽量級タスクか、重量級タスクであるかを先ずは、サービス選択の判断ポイントにしています。 なお、今回はお困りの内容が「サーバーレス ETL 処理」の条件であるため、以下の AWS サービスが考えられます。 AWS Lambda AWS Glue(Python Shell, Apache Spark, Ray, DataBrew) (Amazon EMR) サーバーレス ETL 処理の使い分けにおいても、前途と同様に先ずはデータの規模やETL処理の中でやりたいことによって使い分けることで選定してください

                                                                                サーバーレス ETL 処理の使い分けを教えてください | DevelopersIO
                                                                              • Magical Data Engineering Workflows | Mage AI

                                                                                Build, deploy, and run data pipelines through an intuitive interface in minutes. Run at any scale instantly with Mage Pro. Build, deploy, and run data pipelines through an intuitive interface in minutes. Run at any scale instantly with Mage Pro. Build, deploy, and run data pipelines through an intuitive interface in minutes. Run at any scale instantly with Mage Pro.

                                                                                  Magical Data Engineering Workflows | Mage AI
                                                                                • 効率的なデータ運用の鍵、データオーケストレーションとは何か | gihyo.jp

                                                                                  データオーケストレーションという言葉を聞いたことがあるでしょうか?データマネジメントにおいて重要な役割を担う概念であり、Future Market Insights社によれば、世界のデータオーケストレーションツール市場は2024年には13億米ドル、2034年までに43億米ドルに成長するとも予測されています(Future Market Insights発表⁠)⁠。 本記事では、データオーケストレーションという言葉にあまり馴染みがない人に向けて、データオーケストレーションとは何か、その意義、よく課題となることについて説明し、そして実践するためのツールやサービスとその導入事例を紹介できればと思います。 データオーケストレーションとは? オーケストレーションという単語はあまり日常では耳馴染みがないかもしれません。楽団を指すオーケストラという言葉の派生語であり、さまざまな要素を組織化、編成することを

                                                                                    効率的なデータ運用の鍵、データオーケストレーションとは何か | gihyo.jp

                                                                                  新着記事