DataOps (operações de dados) é uma metodologia ágil e orientada a processos para desenvolver e fornecer análises. Ela reúne equipes de DevOps com engenheiros e cientistas de dados para fornecer as ferramentas, processos e estruturas organizacionais para dar suporte à empresa focada em dados. A empresa de pesquisa Gartner descreve ainda a metodologia como focada em “melhorar a comunicação, integração e automação de fluxos de dados entre gerentes de dados e consumidores de dados em uma organização”. Saiba mais sobre esse conceito nesta reportagem da CIO.com.
Metas de DataOps
De acordo com a Dataversity, o objetivo do DataOps é simplificar o design, desenvolvimento e manutenção de aplicativos baseados em dados e análise de dados. Procura melhorar a forma como os dados são geridos e os produtos são criados, e coordenar essas melhorias com os objetivos do negócio. De acordo com o Gartner, o DataOps também visa “entregar valor mais rapidamente, criando entrega previsível e gerenciamento de mudanças de dados, modelos de dados e artefatos relacionados”.
DataOps x DevOps
DevOps é uma metodologia de desenvolvimento de software que traz entrega contínua ao ciclo de vida de desenvolvimento de sistemas, combinando equipes de desenvolvimento e equipes de operações em uma única unidade responsável por um produto ou serviço. A DataOps se baseia nesse conceito adicionando especialistas em dados — analistas de dados, desenvolvedores de dados, engenheiros de dados e/ou cientistas de dados — para se concentrar no desenvolvimento colaborativo de fluxos de dados e no uso contínuo de dados em toda a organização.
A DataKitchen, especializada em software de observabilidade e automação de DataOps, afirma que DataOps não é simplesmente “DevOps para dados”. Enquanto ambas as práticas visam acelerar o desenvolvimento de software (software que aproveita a análise, no caso da DataOps), a DataOps precisa gerenciar simultaneamente as operações de dados.
Veja também essa entrevista sobre o profissional de DevOps.
Princípios de DataOps
Assim como a DevOps, a DataOps segue as dicas da metodologia ágil. A abordagem valoriza a entrega contínua de insights analíticos com o objetivo principal de satisfazer o cliente.
De acordo com a DataOps Manifesto, as equipes dessa área valorizam as análises que funcionam, medindo o desempenho das análises de dados pelos insights que fornecem. As equipes também adotam a mudança e buscam entender constantemente as necessidades dos clientes em constante evolução. Eles se auto-organizam em torno de metas e buscam reduzir o “heroísmo” em favor de equipes e processos sustentáveis e escaláveis.
As equipes de DataOps também buscam orquestrar dados, ferramentas, códigos e ambientes do começo ao fim, com o objetivo de fornecer resultados reproduzíveis. Eles tendem a ver os pipelines analíticos como análogos às linhas de manufatura enxuta e refletem regularmente sobre o feedback fornecido pelos clientes, membros da equipe e estatísticas operacionais.
Onde a DataOps se encaixa
Atualmente, as empresas estão cada vez mais utilizando machine learning em uma vasta gama de produtos e serviços, e a DataOps é uma abordagem voltada para o suporte às necessidades de ponta a ponta do machine learning.
“Por exemplo, esse estilo torna mais viável para os cientistas de dados ter o suporte da engenharia de software para fornecer o que é necessário quando os modelos são entregues às operações durante a implantação”, escrevem Ted Dunning e Ellen Friedman em seu livro Machine Learning Logistics.
“A abordagem DataOps não se limita ao machine learning”, acrescentam. “Esse estilo de organização é útil para qualquer trabalho orientado a dados, facilitando o aproveitamento dos benefícios oferecidos pela construção de uma malha de dados global”.
Eles também observam que a DataOps se adapta bem às arquiteturas de microsserviços.
DataOps na prática
Para aproveitar ao máximo a DataOps, as empresas devem desenvolver suas estratégias de gerenciamento de dados para lidar com dados em escala e em resposta a eventos do mundo real conforme eles acontecem, de acordo com Dunning e Friedman.
Como a DataOps se baseia na DevOps, equipes multifuncionais que abrangem “grupos de habilidades”. São exemplos operações, engenharia de software, arquitetura e planejamento, gerenciamento de produtos, análise de dados, desenvolvimento de dados e engenharia de dados são essenciais, e as equipes de DataOps devem ser gerenciadas em maneiras que garantam maior colaboração e comunicação entre desenvolvedores, profissionais de operações e especialistas em dados.
Os cientistas de dados também podem ser incluídos como membros-chave das equipes DataOps, de acordo com Dunning. “Acho que a coisa mais importante a fazer aqui é não ficar com a organização mais tradicional da Ivory Tower, onde os cientistas de dados vivem separados das equipes de desenvolvimento”, diz ele. “O passo mais importante que você pode dar é realmente incorporar cientistas de dados em uma equipe de DevOps. Quando vivem na mesma sala, comem as mesmas refeições, ouvem as mesmas queixas, naturalmente ganham alinhamento”.
Mas Dunning também observa que os cientistas de dados podem não precisar estar permanentemente integrados a uma equipe de DataOps.
“Normalmente, há um cientista de dados incorporado à equipe por um tempo”, diz Dunning. “Suas capacidades e sensibilidades começam a passar. Alguém da equipe assume o papel de engenheiro de dados e uma espécie de cientista de dados de baixo orçamento. O cientista de dados real incorporado à equipe segue em frente. É uma situação fluida”.
Como construir uma equipe de DataOps
A maioria das empresas baseadas em DevOps já possui o núcleo de uma equipe DataOps em mãos. Depois de identificar os projetos que precisam de desenvolvimento intensivo de dados, eles precisam apenas adicionar alguém com treinamento em dados à equipe. Muitas vezes, essa pessoa é um engenheiro de dados em vez de um cientista de dados. A DataKitchen sugere que as organizações procurem engenheiros de DataOps especializados na criação e implementação de processos que permitam o trabalho em equipe nas organizações movidas a dados. Esses indivíduos projetam as orquestrações que permitem que o trabalho flua do desenvolvimento para a produção e garantem que hardware, software, dados e outros recursos estejam disponíveis sob demanda.
Muitas equipes são formadas por indivíduos com conjuntos de habilidades sobrepostas, ou os indivíduos podem assumir várias funções em uma equipe de DataOps, dependendo do conhecimento.
De acordo com Michele Goetz, Vice-Presidente e Principal Analista da Forrester, algumas das principais áreas de especialização das equipes de DataOps incluem:
- Bancos de dados
- Integração
- Dados para processar a orquestração
- Implantação da política de dados
- Integração de dados e modelos
- Controles de segurança e privacidade de dados
Independentemente da composição, as equipes de DataOps devem compartilhar um objetivo comum: as necessidades baseadas em dados dos serviços aos quais oferecem suporte.
Papéis de DataOps
De acordo com Goetz, os membros da equipe DataOps incluem:
- Especialistas em dados, que oferecem suporte ao cenário de dados e às melhores práticas de desenvolvimento;
- Engenheiros de dados, que fornecem suporte ad hoc e de sistema para BI, análises e aplicativos de negócios;
- Engenheiros de dados principais, que são desenvolvedores que trabalham em produtos e entregáveis voltados para o cliente.
Salários de DataOps
Aqui estão alguns dos cargos mais populares relacionados a DataOps e o salário médio para cada cargo nos Estados Unidos, de acordo com dados da PayScale:
Gerente de análise: US$ 72.000 a US$ 134.000
Cientista de dados associado: US$ 61.000 a US$ 101.000
Analista de dados: US$ 46.000 a US$ 89.000
Arquiteto de dados: US$ 81.000 a US$ 162.000
Engenheiro de dados: US$ 67.000 a US$ 134.000
Cientista de dados: US$ 70 mil a US$ 137 mil
Diretor de análise: US$ 85.000 a US$ 177.000
Ferramentas DataOps
A seguir estão algumas das ferramentas DataOps mais populares:
- Census: plataforma de análise operacional especializada em ETL reverso, o processo de sincronização de dados de uma fonte confiável (como um data warehouse) para sistemas de linha de frente como CRM, plataformas de publicidade etc.;
- Databricks Lakehouse Platform: plataforma de gerenciamento de dados que unifica o armazenamento de dados e os casos de uso de IA;
- Datafold: plataforma de qualidade de dados para detectar e corrigir problemas de qualidade de dados;
- DataKitchen: plataforma de observabilidade e automação de dados que orquestra pipelines de dados multi-ambientes e multiferramentas de ponta a ponta;
- Dbt: ferramenta de transformação de dados para criar pipelines de dados;
- Tengu: plataforma de orquestração DataOps para gerenciamento de dados e pipeline.
Conteúdo publicado originalmente na CIO.
Via IT Forum.