分类
期权出售完全指南

資料分析策略的秘密武器

分享到微信

前往 資料準備工具- 資料分析策略的秘密武器 - CIO Taiwan

Alteryx Designer. 這個獨立資料準備工具是Alteryx Analytics及Data Science平台的一部分,意指其被視為新穎分析和BI平台中的 .

長線增長型投資者值得考慮買入Alteryx、Shopify和Splunk三股。 . Alteryx (NYSE:AYX)的股票在2017年3月14日以招股價每股14美元上市,之後大升約930.

This instructor-led, live training in 台灣(online or onsite) is aimed at data scientists who wish t.

Alteryx使用案例║Mercedes-Benz 因疫情產線停擺無法交車怎麼辦? . 幸好他們有Alteryx 的使用權 . 觀看案例影片、看台灣用戶案例. ➤免費試用30天Alter.

從最初的手寫算法,到用各種庫,現在已經出現各種客戶端AI應用。 Alteryx的賣點就是公司可以大規模縮小Data Engineer和Data Scientist的團隊規模, .

Alteryx 是分析流程自動化( Analytic Process Automation,簡稱APA™) 領域的創始領導品牌,致力改變數據處理到商業分析利用的傳統方式,讓需要大量處理資料的工作.

資料準備工具 - 資料分析策略的秘密武器 - 奧丁丁新聞 OwlNews

Zaidi表示,某些工具還內建了進階的資料品質功能,這是上一代工具無法提供的。這些資料品質功能還包括分析(profiling)、標記(tagging)、註解(annotating)、重複資料刪除(deduplication)、模糊邏輯適配(fuzzy logic matching)、鏈接(linking)、以及合併(merging)等功能。這些功能讓IT及資料管理小組得以更輕鬆地提高品質,並確保治理及法規性,以廣泛地採用和使用已就緒的資料模型。

其中,機器學習(Machine Learning, ML)是關鍵的要素之一。以ML為基礎的功能不僅可以在準備之前自動進行資料適配、聯接、分析、標記以及註解,而且某些工具可以突顯敏感性屬性、異常值與極值,並與中繼資料管理及治理工具協同合作,以預防敏感性資料被揭露。
Zaidi進一步說明,這些機器學習強化的資料準備工具,允許不同技能水準的使用者採用資料準備,同時確保治理性和法規性。

利用資料準備工具尋找什麼

  • 資料擷取及分析(Data ingestion and profiling)。尋找視覺環境,也就是讓使用者得以相互擷取、搜尋、採樣、以及準備資料資產。
  • 資料編目及基本的中繼資料管理(Data cataloging and basic metadata management)。工具應允許使用者進行新增及搜尋中繼資料。
  • 資料建模及轉換(Data modeling and transformation)。工具應支援資料相互融合與混合、資料清理、過濾、使用者定義計算、群組、以及層次結構。
  • 資料安全(Data security)資料分析策略的秘密武器 。工具應包括安全性功能,例如資料遮罩(data masking)、平台驗證(platform authentication)、及使用者/群組/角色層級別的安全性過濾。
  • 基本資料品質及管理支援(Basic data quality and governance support)。資料準備工具應與支援資料治理、管理及資料品質能力、使用者權限與資料歷程功能的工具整合。
  • 資料強化(Data enrichment)。工具應支援基本資料的加值能力,包括個體萃取與從整合資料中抓取屬性。
  • 使用者協同合作及營運化(User collaboration and operationalization)。這些工具應有助於共享查詢和資料集,包括發佈、共享、和推廣具有治理性功能的模型,例如資料集使用者評分或正式的浮水印等。
  • 資料源頭的存取/連接能力(Data source access/connectivity)。工具應具有API及標準式的連接能力,包括雲應用程式和資料源頭的原生存取,例如普及的資料庫PaaS和雲資料倉庫、內部資料源頭、關聯性及非結構化資料、以及非關聯性資料庫。
  • 資料分析策略的秘密武器
  • 機器學習(Machine learning)。工具應支援利用機器學習AI以改善、甚至自動化資料準備過程。
  • 混合及多雲部署選項(Hybrid and multi-cloud deployment options)。資料準備工具需支援雲、內部或混合整合平台設置中的部署。
  • 特定領域或垂直領域的產品或樣板(Domain- or vertical-specific offerings 資料分析策略的秘密武器 or templates)。工具應提供特定領域或垂直領域的資料及模型的封裝樣板或產品,以加速資料準備時間。

資料準備市場概況

獨立的資料準備工具(Standalone data preparation tools)。該領域的供應商擅長於實作與下游流程更緊密的整合應用,例如API存取以及支援多分析/ BI、資料科學、與資料整合工具。該領域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供應商的產品。

資料整合工具(Data integration tools)。這個類別的供應商擅長於資料整合及管理。其中包括Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供應商的產品。

新穎的分析和BI平台(Modern analytics 資料分析策略的秘密武器 and BI platforms)。這個類別的供應商擅長於資料準備,將其作為端到端分析工作流的一個部分。Zaidi表示,由於資料準備對於新穎分析和BI必不可少,使得該領域的所有供應商都將資料準備功能嵌入產品中。這個類別的供應商有Alteryx、Tableau、Cambridge Semantics、Infogix、Microsoft、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software及TMMData。

資料科學和機器學習平台(Data science and machine learning platforms)。Gartner表示,這個類別的供應商能提供資料準備功能,以作為端到端資料科學和ML流程的一個部分。代表性廠商有Alteryx、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP與SAS。

  • 資料管理/資料湖強化平台: Informatica、Talend、Unifi 及 Zaloni。
  • 資料工程平台: Infoworks。
  • 資料品質工具: Experian。
  • 資料整合專家: Alooma、Nexla、StreamSets 及 Striim。

6款主流的資料準備工具

Alteryx Designer

這個獨立資料準備工具是Alteryx Analytics及Data Science平台的一部分,意指其被視為新穎分析和BI平台中的功能,以及資料科學和機器學習平台中的功能,因而被嵌入平台中。它提供了拖放工作流分析、不需SQL語法即可進行準備及融合的資料。產品的許可授權採用年度訂閱授權模式,且依具名使用者計算授權費用。

Cambridge Semantics Anzo

Datameer Enterprise

Infogix Data3Sixty Analyze

Infogix的Data 3Sixty Analyze是一款以網路為基礎(web-based)的解決方案,其由Infogix收購Lavastorm 而誕生。跟Datameer一樣,它橫跨Gartner所劃分的四種類別。Data3Sixty利用角色定義使用者。設計人員可以新增及編輯資料流,瀏覽器則僅能執行資料流,而排程可以進行新增及修改以使其自動執行。Infogix的Data3Sixty有產品訂閱授權模式的桌上型產品,也有提供永久授權及訂閱授權模式的伺服器產品。

Talend Data Preparation

Talend提供了三款資料準備工具:Talend Data Preparation(開源桌上型版本)、Talend Data Preparation Cloud(Talend Cloud平台的商業版本)、及Talend Data Preparation的另一款版本(內部部署Talend Data Fabric的商業版本)。Talend資料準備是一款獨立工具,而Talend Cloud和Talend Data Fabric是將資料準備整合為資料整合/資料管理工具中的功能的範例。Talend使用機器學習演算法進行標準化、清理、模式識別及稽核。開源版本是免費的,商業版本則依具名使用者授權的訂閱模型計價。

Trifacta Wrangler

Trifacta Wrangle是一款獨立資料準備平台,且依支援雲及內部部署計算環境的劃分而擁有不同版本。其提供了嵌入式的ML功能,可應用於推薦與其連接的資料、推論資料結構及綱要、推薦連接、定義使用者存取權限、及自動可視化探索/資料品質。Trifacta Wrangler提供免費版本;Wrangler Pro(依計算能力及使用者數計價);Wrangler Enterprise(為內部部署版本及雲版本,依計算/處理規模和使用者數計價);及Trifacta的Google Cloud Dataprep(依計算耗用量計價)。

資料準備工具 - 資料分析策略的秘密武器

Zaidi表示,某些工具還內建了進階的資料品質功能,這是上一代工具無法提供的。這些資料品質功能還包括分析(profiling)、標記(tagging)、註解(annotating)、重複資料刪除(deduplication)、模糊邏輯適配(fuzzy logic matching)、鏈接(linking)、以及合併(merging)等功能。這些功能讓IT及資料管理小組得以更輕鬆地提高品質,並確保治理及法規性,以廣泛地採用和使用已就緒的資料模型。

其中,機器學習(Machine Learning, ML)是關鍵的要素之一。以ML為基礎的功能不僅可以在準備之前自動進行資料適配、聯接、分析、標記以及註解,而且某些工具可以突顯敏感性屬性、異常值與極值,並與中繼資料管理及治理工具協同合作,以預防敏感性資料被揭露。
Zaidi進一步說明,這些機器學習強化的資料準備工具,允許不同技能水準的使用者採用資料準備,同時確保治理性和法規性。

利用資料準備工具尋找什麼

  • 資料擷取及分析(Data ingestion and profiling)。尋找視覺環境,也就是讓使用者得以相互擷取、搜尋、採樣、以及準備資料資產。
  • 資料編目及基本的中繼資料管理(Data cataloging and basic metadata management)。工具應允許使用者進行新增及搜尋中繼資料。
  • 資料建模及轉換(Data modeling and transformation)。工具應支援資料相互融合與混合、資料清理、過濾、使用者定義計算、群組、以及層次結構。
  • 資料安全(Data security)。工具應包括安全性功能,例如資料遮罩(data masking)、平台驗證(platform authentication)、及使用者/群組/角色層級別的安全性過濾。
  • 基本資料品質及管理支援(Basic data quality and governance support)。資料準備工具應與支援資料治理、管理及資料品質能力、使用者權限與資料歷程功能的工具整合。
  • 資料強化(Data enrichment)。工具應支援基本資料的加值能力,包括個體萃取與從整合資料中抓取屬性。
  • 使用者協同合作及營運化(User collaboration and operationalization)。這些工具應有助於共享查詢和資料集,包括發佈、共享、和推廣具有治理性功能的模型,例如資料集使用者評分或正式的浮水印等。
  • 資料源頭的存取/連接能力(Data source access/connectivity)。工具應具有API及標準式的連接能力,包括雲應用程式和資料源頭的原生存取,例如普及的資料庫PaaS和雲資料倉庫、內部資料源頭、關聯性及非結構化資料、以及非關聯性資料庫。
  • 機器學習(Machine learning)。工具應支援利用機器學習AI以改善、甚至自動化資料準備過程。
  • 混合及多雲部署選項(Hybrid and multi-cloud deployment options)。資料準備工具需支援雲、內部或混合整合平台設置中的部署。
  • 特定領域或垂直領域的產品或樣板(Domain- or vertical-specific offerings or templates)。工具應提供特定領域或垂直領域的資料及模型的封裝樣板或產品,以加速資料準備時間。

資料準備市場概況

獨立的資料準備工具(Standalone data preparation tools)。該領域的供應商擅長於實作與下游流程更緊密的整合應用,例如API存取以及支援多分析/ BI、資料科學、與資料整合工具。該領域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供應商的產品。

資料整合工具(Data integration tools)。這個類別的供應商擅長於資料整合及管理。其中包括Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供應商的產品。

新穎的分析和BI平台(Modern analytics and BI platforms)。這個類別的供應商擅長於資料準備,將其作為端到端分析工作流的一個部分。Zaidi表示,由於資料準備對於新穎分析和BI必不可少,使得該領域的所有供應商都將資料準備功能嵌入產品中。這個類別的供應商有Alteryx、Tableau、Cambridge Semantics、Infogix、Microsoft、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software及TMMData。

資料科學和機器學習平台(Data science and machine learning platforms)。Gartner表示,這個類別的供應商能提供資料準備功能,以作為端到端資料科學和ML流程的一個部分。代表性廠商有Alteryx、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP與SAS。

  • 資料管理/資料湖強化平台: Informatica、Talend、Unifi 及 Zaloni。
  • 資料工程平台: Infoworks。
  • 資料品質工具: Experian。
  • 資料整合專家: Alooma、Nexla、StreamSets 及 Striim。

[加入 CIO Taiwan 官方LINE,與全球CIO同步獲取精華見解。]

6款主流的資料準備工具

Alteryx Designer

這個獨立資料準備工具是Alteryx Analytics及Data Science平台的一部分,意指其被視為新穎分析和BI平台中的功能,以及資料科學和機器學習平台中的功能,因而被嵌入平台中。它提供了拖放工作流分析、不需SQL語法即可進行準備及融合的資料。產品的許可授權採用年度訂閱授權模式,且依具名使用者計算授權費用。

Cambridge Semantics Anzo

Datameer Enterprise

Infogix Data3Sixty Analyze

Infogix的Data 3Sixty Analyze是一款以網路為基礎(web-based)的解決方案,其由Infogix收購Lavastorm 而誕生。跟Datameer一樣,它橫跨Gartner所劃分的四種類別。Data3Sixty利用角色定義使用者。設計人員可以新增及編輯資料流,瀏覽器則僅能執行資料流,而排程可以進行新增及修改以使其自動執行。Infogix的Data3Sixty有產品訂閱授權模式的桌上型產品,也有提供永久授權及訂閱授權模式的伺服器產品。

Talend Data Preparation

Talend提供了三款資料準備工具:Talend Data Preparation(開源桌上型版本)、Talend Data Preparation Cloud(Talend Cloud平台的商業版本)、及Talend Data Preparation的另一款版本(內部部署Talend Data Fabric的商業版本)。Talend資料準備是一款獨立工具,而Talend Cloud和Talend Data Fabric是將資料準備整合為資料整合/資料管理工具中的功能的範例。Talend使用機器學習演算法進行標準化、清理、模式識別及稽核。開源版本是免費的,商業版本則依具名使用者授權的訂閱模型計價。

Trifacta Wrangler

Trifacta Wrangle是一款獨立資料準備平台,且依支援雲及內部部署計算環境的劃分而擁有不同版本。其提供了嵌入式的ML功能,可應用於推薦與其連接的資料、推論資料結構及綱要、推薦連接、定義使用者存取權限、及自動可視化探索/資料品質。Trifacta Wrangler提供免費版本;Wrangler Pro(依計算能力及使用者數計價);Wrangler Enterprise(為內部部署版本及雲版本,依計算/處理規模和使用者數計價);及Trifacta的Google Cloud Dataprep(依計算耗用量計價)。

(本文授權非營利轉載,請註明出處:CIO Taiwan

資料分析策略的秘密武器

(1)独立的数据准备工具。该领域的供应商专注于实现与下游流程的更紧密集成,例如API访问以及对多个分析/商业智能、数据科学和数据集成工具的支持。该领域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供应商的产品。

(2)数据集成工具。这一类别的供应商历来注重数据集成和管理。这包括来自供应商的产品,如Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData。

(3)现代分析和商业智能平台。这些供应商专注于数据准备,将其作为端到端分析工作流的一部分。Zaidi说,由于数据准备对于现代分析和商业智能至关重要,因此该领域的所有供应商都在嵌入数据准备功能。此类别中的供应商包括Alteryx,Tableau、Cambridge Semantics、Infogix、Microsof、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software和TMMData。

(4)数据科学和机器学习平台。Gartner公司分析师表示,这些供应商提供数据准备功能,作为端到端数据科学和机器学习流程的一部分。其代表厂商包括Altery、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP和SAS。

  • 数据管理/数据湖支持平台:Informatica、Talend、Unifi和Zaloni
  • 数据工程平台:Infoworks
  • 数据质量工具:Experian
  • 数据集成专家:Alooma、Nexla、StreamSet和Striim

6种关键数据准备工具

(1)Alteryx Designer

(2)Cambridge Semantics Anzo

(3)Datameer Enterprise

Datameer Enterprise是一个数据准备和数据工程平台,完全属于Gartner公司的独立类别。它着重于使用向导引导的集成过程将分散的原始数据源聚集在一起,以创建单个数据存储。Datameer Enterprise提供了类似于电子表格的界面,可用于混合和视觉探索功能。根据计算能力或数据量向客户收费。云计算客户按小时或通过年度许可证收费。

(4)Infogix Data3Sixty Analyze

(5)Talend Data Preparation

Talend提供了三种数据准备工具:Talend Data Preparation(开源桌面版本)、Talend Data Preparation Cloud(作为Talend云平台的一部分提供的商业版本)和Talend Data Preparation的另一版本(作为内部部署的Talend Data Fabric产品)。Talend Data Preparation是一个独立的工具,而Talend Cloud和Talend Data Fabric是将数据准备集成为更广泛的数据集成/数据管理工具中功能的示例。Talend使用机器学习算法进行标准化、清理、模式识别和对账。开源版本是免费的。商业版本遵循基于命名用户许可证的订阅模型。

(6)Trifacta Wrangler

Trifacta Wrangle是一个独立的数据准备平台,提供各种版本以支持云计算和本地计算环境。它提供了嵌入式机器学习功能,用于推荐要与之连接的数据、推断数据结构和模式、推荐连接、定义用户访问以及自动化可视化以实现探索/数据质量。Trifacta Wrangler提供免费版本、Wrangler Pro(根据计算容量和用户数量收费)、Wrangler Enterprise(根据计算/处理规模和用户数量收费,同时提供内部版本和云计算版本)和Trifacta公司的Google Cloud Dataprep(根据计算消耗收费)。

分享到微信

分享到微博