更多

    【AWS re:Invent 22】目標實現零 ETL 整合數據

    Eric Chong
    Eric Chong
    商業・科技・創業・編輯

    進行數據分析之前需要花大量功夫做整合,即擷取、轉換和載入 (ETL) 的工作。 AWS 提出「零 ETL 未來」 (Zero ETL Future) 目標,以便簡化數據分析程序。為達至目標,先推出兩項新服務: Aurora Zero-ETL integration with Redshift 和 Redshift Integrate for Apache Spark。

    AWS 年度大會 re:Invent 2022 在美國拉斯維加斯舉行,行政總裁 Adam Selipsky 在主題演講上提到 AWS 平台上的數據分析處理,提出「零 ETL 未來」。他表示, ETL 現在是執行數據分析之前的必要程序,但要從不同數據來源提取數據加以整理,需要花上大量人力物力,若省去這步驟直接執行數據分析會令工作更簡單。

    Aurora Zero-ETL integration with Redshift 提供近乎實時的 PB 規模交易數據,供數據分析或機械學習,能夠從多個 Aurora 數據庫提取數據加以整合,而且在交易數據更新時,亦自動反映在內。服務適用於分析購買、訂購或金融財務的交易數據,橫跨不同維度分析用戶行為,取得實時洞察。 Selipsky 表示,這服務採用無伺服器方式,毋須管理基建。

    Redshift Integrate for Apache Spark 將 Redshift 數據倉庫與開源大數據基建 Apache Spark 整合,方便開發人員建立應用程式,經 Redshift 直接從 Spark 提取數據作分析或機械學習處理。

    由於 AWS 在 EMR 、 Glue 、 SageMaker 多個服務支援 Spark ,甚至讓 Spark 的運行速度快 3 倍。開發人員通過悉熟的開發工具,如 Java 、 R 、 Python 等便可取得所需要的數據去分析。

    另外, AWS 推出數據管理服務 DataZone 控制企業的數據使用權,加強數據治理能力。服務引入機械學習將數據分類,方便套用相應的管理權限。 DataZone 支援不同數據來源,如 S3 、數據庫,以至 Salesforce 、 ServiceNow 等合作夥伴的系統,甚至經 API 連接至 DataBricks 、 Snowflake 、 Tableau 等。而 DataZone 亦支援 AWS 上的分析服務,如 RedShift 、 QuickSight 等。

    AWS 香港解決方案架構部主管余迪遜稱, DataZone 幫助用戶有效率提取所需要的數據;方便企業掌握數據資產的使用情況,並動態調整數據使用的策略和規範,對於擁有大量數據及不同數據來源的香港企業、跨國公司、金融機構等尤其重要。這些公司在建立數據湖泊時往往有嚴格的數據治理與合規的需求。

    您會感興趣的內容

    相關文章