Termos com a palavra ‘Data’

DataScience
Português

Explorando ‘Data’: um guia sobre termos como Data Lake, Data Mining, e Big Data.

Author

Dransfeld, N. M.

Published

June 1, 2023

Data: Uma Palavra, Muitos Significados

A ciência de dados é uma área rica e diversificada, com muitos termos e conceitos específicos. Conhecer os termos que contêm “data” é crucial por várias razões, especialmente se você está trabalhando ou planeja trabalhar no campo da ciência de dados, análise de dados, TI ou áreas relacionadas. Abaixo selecionei e descrevo de forma simplificada alguns termos importantes relacionados a palavra “data” (dados).

Termos de “data” em um fluxo de processo de Ciência de Dados.{fig-align=“center” fig-alt=“Fluxograma com a palavra”data” em um processo de Ciência de Dados”}

Gestão e Armazenamento de Dados

Big Data: Um termo que descreve volumes de dados tão grandes que os métodos tradicionais de processamento de dados não conseguem lidar. Big Data é geralmente caracterizado pelos três V’s: Volume, Velocidade e Variedade.

Data Warehouse (Depósito de Dados): Um grande repositório de dados coletados de diferentes fontes e organizados de uma maneira que facilite a análise.

Data Lake (Lago de Dados): Um repositório de armazenamento que contém uma grande quantidade de dados brutos em seu formato natural.

Data Mart (Depósito de Dados Departamental): É um subconjunto de um data warehouse que se concentra em uma área específica de negócios. Diferentemente de um data warehouse, que serve toda a organização, um data mart é mais focado e atende a uma equipe ou departamento específico.

Data Catalog (Catálogo de Dados): É um recurso organizacional que permite que as equipes de dados descubram e usem dados para encontrar insights de negócios. É um repositório para encontrar, entender e confiar em dados corporativos.

Data ingestion (ingestão de dados): É o processo de coleta e importação de dados de diversas fontes para um sistema de armazenamento ou plataforma de processamento de dados.

Master Data Management (Gestão de Dados Mestres): É um método de permitir que uma organização vincule todos os seus dados críticos a um arquivo mestre, proporcionando uma referência comum. Quando feito corretamente, os benefícios do MDM podem incluir a eliminação de dados redundantes, a melhoria da qualidade dos dados e a redução de discrepâncias e erros.

Processamento e Transformação de Dados

Data Wrangling (Manipulação de Dados): O processo de limpar, estruturar e enriquecer os dados brutos para fins de análise.

Data Cleaning (Limpeza de Dados): O processo de identificar e corrigir (ou remover) erros nos dados, como entradas incompletas, imprecisas ou irrelevantes.

Data Integration (Integração de Dados): O processo de combinar dados de várias fontes diferentes e fornecer ao usuário uma visão unificada desses dados.

Data Pipeline (Pipeline de Dados): Um data pipeline é uma série de processos de dados através dos quais os dados são movidos de um lugar para outro. Isso pode envolver várias etapas, como coleta, transformação (para converter os dados em um formato útil para análise), e carregamento em um repositório de dados (como um data warehouse ou um data lake). As pipelines de dados são fundamentais para a automação e a eficiência na ciência de dados, permitindo que grandes volumes de dados sejam processados e analisados de forma rápida e eficaz.

Streaming Data (Dados de Streaming): Refere-se a dados que são gerados continuamente por milhares de fontes de dados, que normalmente enviam os registros de dados simultaneamente em pequenos “pacotes”.

Data Virtualization (Virtualização de Dados): É a abstração, transformação e entrega de dados de qualidade para aplicações de negócios, a partir de várias e diversificadas fontes de dados, de forma on-demand e em tempo real.

Análise e Mineração de Dados

Data Mining (Mineração de Dados): O processo de descobrir padrões e conhecimentos úteis a partir de grandes conjuntos de dados.

Time-series Data (Dados de Séries Temporais): Um conjunto de pontos de dados coletados ou registrados em intervalos de tempo regulares.

Data Profiling (Perfilamento de Dados): É o processo de examinar, analisar e rever os dados disponíveis em um banco de dados existente para coletar estatísticas e informações sobre os dados.

Arquitetura e Governança de Dados

Data Architecture (Arquitetura de Dados): Refere-se à estrutura geral de um sistema de dados de uma organização, incluindo suas políticas de gerenciamento de dados, regras e padrões.

Data Governance (Governança de Dados): A gestão da disponibilidade, usabilidade, integridade, segurança e privacidade dos dados em um sistema.

Data Mesh (Malha de Dados): Data Mesh é uma abordagem arquitetônica para a gestão de dados que trata os dados como um produto. Em vez de ter todos os dados centralizados em um único data lake ou data warehouse, o Data Mesh sugere descentralizar a propriedade dos dados e delegar a responsabilidade dos dados para as equipes que os produzem e usam. Isso pode melhorar a qualidade dos dados, a velocidade de entrega e a governança. A ideia por trás do Data Mesh é mover a arquitetura de dados além do paradigma centrado em monolitos para uma estrutura mais distribuída e orientada a produtos

Data Modeling (Modelagem de Dados): O processo de desenvolver modelos de dados para sistemas de banco de dados que representam as estruturas de dados de maneira muito clara.

Estrutura dos Dados

Structured and Unstructured Data (Dados Estruturados e Não Estruturados): Dados estruturados são altamente organizados e formatados de maneira a serem facilmente pesquisáveis, enquanto dados não estruturados são o oposto.