Marcação de dados

O que é marcação de dados?

Marcação de dados é o processo de atribuir um rótulo (tag) a um dado, como uma imagem, site ou vídeo. Os rótulos associados geralmente são metadados que indicam o nome do autor, data de criação, departamento, formato do arquivo ou algum outro detalhe definidor. Esses rótulos distinguem um conjunto de dados de outros dados em um ambiente, facilitando a pesquisa.

Por que a marcação de dados é importante?

A marcação de dados fornece uma identidade aos seus dados, associando-os a metadados. Em uma organização, um ID de funcionário tem a finalidade de fornecer uma identidade única aos seus funcionários. Da mesma forma, em uma partida de futebol, o número do assento indica a localização onde você ficará sentado no estádio.

Algo comum nesses cenários é que há um objeto sendo marcado com um rótulo. Este rótulo concede uma identidade única ao objeto e fornece:

  • Identificação sem esforço

    No caso da partida de futebol, o número do assento indica um local específico no estádio, eliminando a tarefa de procurar seu lugar.

  • Categorização simples

    Os nomes dos departamentos categorizam os funcionários em grupos reconhecíveis.

  • Segurança de dados

    Um ID de funcionário fornece informações sobre ele, que podem ser usadas para fornecer e restringir o acesso aos recursos organizacionais, garantindo a segurança dos dados.

Modelos de marcação de dados

"Dados são o novo petróleo" é uma frase que ouvimos com frequência na última década, e ela continua verdadeira conforme testemunhamos organizações gastando grandes somas na aquisição de dados. Com o volume de dados que as organizações armazenam, elas precisam de uma estratégia para marcar e organizar os dados com eficiência. Aqui estão alguns modelos de marcação de dados que as organizações seguem:

  • Modelo hierárquico

    Organize os rótulos em um modelo hierárquico, com categorias mais amplas na parte superior e rótulos específicos na parte inferior. Por exemplo, em uma aplicação como o Spotify, músicas, podcasts e audiolivros estarão no topo, enquanto subcategorias para cada um deles, como gêneros, autoajuda e ficção, estarão no nível mais baixo.

  • Modelo fixo

    Em um modelo fixo, cada rótulo é igualmente importante e não há relação inerente entre eles.

  • Modelo de segmento

    Este modelo envolve a marcação de dados com base em segmentos. Por exemplo, SUV, sedã e hatchback podem ser segmentos diferentes em um showroom de automóveis.

  • Modelo de jargão

    Jargões reconhecíveis pelos funcionários de uma organização ou departamento podem ser utilizados para marcação.

Diferentes tipos de marcação de dados

A marcação de dados pode ser classificada de maneira geral em diferentes tipos com base no formato dos dados que estão sendo marcados. Isso pode variar de texto, imagem ou vídeo. Além disso, cada um desses formatos pode ser classificado com base na funcionalidade. Algumas subclassificações incluem:

Different types of data tagging
  • Reconhecimento da entidade nomeada (NER)

    O NER ajuda a identificar entidades, como nomes, lugares e objetos, em um corpo de texto.

  • Marcação de classe gramatical (POS)

    A marcação da classe gramatical (POS) envolve associar palavras em uma frase a uma parte gramatical do discurso.

  • Segmentação semântica

    O processo de marcar cada pixel individual que faz parte de uma imagem.

  • Caixa delimitadora 2D

    Isso envolve desenhar um limite ao redor do objeto desejado para torná-lo reconhecível.

Melhores práticas de marcação de dados

O objetivo principal da marcação de dados é facilitar a vida do usuário final, reduzindo o tempo necessário para realizar a tarefa entediante de pesquisar dados. Portanto, é fundamental que sua estratégia de marcação de dados seja fácil de usar. Aqui estão algumas práticas recomendadas que podem facilitar uma experiência transparente:

  •  
    Ter uma nomenclatura bem definida
    Ter convenções de nomenclatura para toda a organização ou departamento pode ajudar os funcionários a navegar e recuperar arquivos. Uma nomenclatura bem definida deve ser reconhecível pelo usuário final. Portanto, certifique-se de usar palavras-chave como departamento, projeto, gerente, equipe e outros identificadores relevantes.
  •  
    Construção do modelo
    Um modelo de marcação de dados concede a estrutura aos seus dados e contribui para a classificação dos dados. Há alguns tipos a serem selecionados que foram discutidos anteriormente nesta página.
  •  
    Realização de avaliações de usabilidade
    A realização periódica de avaliações de usabilidade pode melhorar a eficiência da marcação de dados. Os relatórios de usabilidade devem considerar fatores como facilidade de acessibilidade e tempo gasto na recuperação de arquivos.
  •  
    Automatização do processo de marcação de dados
    A marcação manual de dados consome uma quantidade excessiva de horas de trabalho e é propensa a erros humanos. Portanto, automatizar o processo de marcação de dados utilizando machine learning pode ser inestimável.

Classificação e marcação de dados

A marcação e a classificação de dados são frequentemente utilizadas de maneira intercambiável, mas são dois lados da mesma moeda, cada um com seu próprio significado.

A marcação de dados é a rotulagem de informações com base em metadados, como nome do projeto, proprietário do arquivo ou tipo de dados, e visa melhorar a acessibilidade e organização. Por outro lado, a classificação de dados é realizada com base no nível de sensibilidade do conteúdo de um arquivo, visa proteger dados sensíveis, e pode ser utilizada para sinalizar dados sensíveis utilizando ferramentas de prevenção de perda de dados. Uma estratégia de classificação e marcação de dados bem equilibrada pode garantir uma navegação e segurança de rede transparentes.

Aprenda os detalhes da classificação de dados no nosso webinar sob demanda sobre Classificação de dados: A base do DLP.

Descubra e classifique seus dados com o DataSecurity Plus

A solução oferece uma ferramenta de descoberta de dados que automatiza o processo de classificação de arquivos utilizando um sistema de rotulagem hierárquica. A ferramenta de descoberta e classificação de dados detecta, classifica e protege dados sensíveis, como informações de identificação pessoal, informações de cartões de pagamento, informações de saúde protegidas, e muito mais, garantindo a conformidade regulatória.

O DataSecurity Plus está equipado com recursos como:

  • Relatórios em tempo real sobre o tipo, volume e localização de dados sensíveis.
  • Regras de descoberta de dados personalizáveis para definir dados sensíveis específicos da organização.
  • Alertas para rastrear arquivos que contêm correspondências com as leis de proteção de dados, como o GDPR, PCI DSS, e muito mais.
  • Verificações de descoberta de dados incrementais para criar e manter um inventário dos seus dados mais confidenciais.

Experimente a classificação de dados do DataSecurity Plus com uma avaliação grátis e totalmente funcional de 30 dias.

Baixe o teste grátis de 30 dias