Já ouviu falar em dados sintéticos? Pois saiba que a tendência é que você comece a ouvir muito sobre esse assunto. Segundo a consultoria Gartner, até 2024, 60% dos dados utilizados para o desenvolvimento de soluções de Inteligência Artificial (IA) e analytics serão gerados sinteticamente, contra 1% em 2021. A empresa IA Cognilytica, por sua vez, aponta que os dados sintéticos integrarão uma indústria avaliada em US$ 1,15 bilhão em 2027.
Mas, afinal, o que são dados sintéticos? Podemos definir os dados sintéticos como a utilização de uma pequena quantidade de dados reais com o objetivo de produzir uma grande quantidade de informações “fake”, mas composta por padrões demográficos e comportamentais que poderiam ser reais. Essas informações geradas artificialmente podem ser usadas no lugar de dados históricos reais para treinar modelos de IA quando os conjuntos de dados reais carecem de qualidade, volume ou variedade.
De acordo com o site The Brief, três pontos são vitais para expansão dos dados sintéticos:
- Resolve o problema da falta de dados. Isso porque os dados sintéticos permitem que centros acadêmicos e empresas utilizem amostragens de diferentes grandezas para a realização de pesquisas;
- É mais barato. Estimativas apontam que, enquanto uma imagem “real” para pesquisas pode custar até US$ 6, um registro gerado artificialmente equivale à bagatela de US$ 0,06.
- Privacidade. Como os dados usados não são gerados por uma pessoa, elimina-se a chance de que vazamentos de dados comprometam informações pessoais.
Já o site IT Forum elencou algumas formas para o uso de dados sintéticos em uma reportagem:
Modelos de treinamento quando faltam dados do mundo real: os sistemas de IA (inteligência artificial) e ML (machine learning) requerem grandes quantidades de dados. Para alguns casos de uso, simplesmente não há dados suficientes disponíveis, seja porque o caso de uso acontece com muita frequência, ou é algo novo e ainda não há muitos dados históricos disponíveis. Os dados sintéticos também podem reduzir os custos quando coletar ou comprar dados do mundo real é proibitivamente caro.
Preencher lacunas nos dados de treinamento: alguns conjuntos de dados não refletem totalmente os casos de uso de uma empresa. Por exemplo, um sistema treinado para reconhecer números de telefone pode não ter números internacionais suficientes para trabalhar. Outro problema comum é equilibrar um conjunto de dados. Por exemplo, um conjunto de dados históricos pode ser composto por 99% de transações não fraudulentas e menos de 1% fraudulentas, diz John Blankenbaker, principal cientista de dados da SSA & Co., uma empresa global de consultoria de gestão. “Muitos modelos decidirão que a política mais bem sucedida será rotular cada transação como não fraudulenta.”
Os dados sintéticos podem ajudar a equilibrar o conjunto de dados, mas tem que ser feito com muito cuidado. “Só será útil se o processo de síntese capturar o que quer que seja sobre uma transação que indique fraude”, diz Blankenbaker. “O que é improvável de ser óbvio, porque então usaríamos isso como nosso detector de fraudes.”
Casos de uso de “cauda longa”: à medida que a IA se torna onipresente nas organizações, as empresas estão ficando sem casos de uso em que os dados de treinamento necessários são abundantes e facilmente disponíveis. Depois que esses projetos mostrarem sucesso, os líderes de negócios desejarão as mesmas abordagens usadas para seus próprios casos de uso.
Acelerar o desenvolvimento de modelos: a coleta de dados de treinamento no mundo real pode exigir tempo, pois as informações são coletadas, rotuladas, processadas e passam por conformidade e outras verificações. Isso pode retardar o desenvolvimento de novos modelos de IA. Com dados sintéticos, os modelos podem ser treinados e calibrados antes que os dados do mundo real se tornem disponíveis.
Simular o futuro: quando as modas mudam, os dados históricos podem se tornar obsoletos da noite para o dia. Por exemplo, quando as pessoas mudaram de fones de ouvido com fio para sem fio, todos os dados históricos do cliente perderam seu valor preditivo. Os mecanismos de recomendação que dependem de dados antigos de treinamento ainda podem estar recomendando opções com fio. Substituir ou aumentar os dados históricos por dados sintéticos que explicam a mudança de moda pode ajudar a manter os mecanismos de recomendação relevantes.
Simular futuros alternativos: se uma mudança está chegando, e não está claro para qual direção os clientes irão, os dados simulados podem ajudar as empresas a executar simulações de cenário e estar preparadas para qualquer opção.
Simular eventos de “cisne negro”: certas situações surgem muito raramente e podem não estar presentes em dados históricos – mas se elas teriam um impacto dramático em uma organização se acontecessem, então, é necessário estar preparado. O uso de dados sintéticos para simular essas situações pode ajudar uma empresa a modelar essas respostas.
Simular o metaverso: o metaverso — simulações virtuais em 3D de ambientes de jogos, mídias sociais e de negócios — exigirá uma enorme quantidade de conteúdo. Salas, prédios, paisagens e assim por diante precisarão ser criados, e contratar artistas 3D para criar todo esse conteúdo do zero será proibitivamente caro. Dados sintéticos podem preencher algumas das lacunas para criar configurações e objetos realistas e apropriados para ambientes virtuais, eventos e interações.
Gerar imagens de marketing: os anunciantes já estão criando imagens sintéticas para mostrar seus produtos. Por exemplo, uma fotografia de uma modelo vestindo um suéter de uma cor pode ser transformada em fotos realistas do mesmo modelo usando todas as diferentes versões do mesmo suéter. Também estão disponíveis ferramentas de geração de imagens que podem até gerar rostos realistas e únicos ou exibir móveis em diferentes arranjos.
Para testes de software: usar dados reais para testar novos softwares pode criar problemas de privacidade e segurança. Dados sintéticos parecem dados reais, mas não permitem que o software seja testado em toda a gama de casos de uso sem colocar dados reais em risco.
Para criar gêmeos digitais: em casos judiciais, os advogados às vezes criam um júri paralelo para testar os argumentos. As organizações podem fazer algo semelhante usando dados sintéticos. Por exemplo, em 2019, a Administração do Trabalho e Bem-Estar da Noruega criou uma versão sintética de toda a sua população. Os dados são regenerados diariamente, diz Sicular, do Gartner, e são usados por várias organizações externas.
No lugar de dados médicos e financeiros: usar dados reais de clientes ou pacientes para treinar modelos de IA, executar simulações ou encontrar tratamentos ou correlações úteis pode ser muito arriscado do ponto de vista da conformidade. Mesmo dados apagados ou anônimos muitas vezes podem ser submetidos a engenharia reversa para recuperar os dados originais, diz Andy Thurai, Vice-Presidente e Analista Principal da Constellation Research. Os dados sintéticos não podem ser anônimos, mas ainda podem ser usados para encontrar informações valiosas.
Para vendas e marketing: quando uma equipe de vendas chama um cliente para demonstrar um produto ou serviço que ingere dados, pode ser útil usar amostras que sejam o mais próximo possível do caso de uso do cliente. Usar dados de outro cliente seria uma violação de privacidade. Dados sintéticos podem permitir que a equipe de vendas coloque o produto em prática em um caso de uso semelhante ao do cliente, sem divulgar informações confidenciais.
Para testar sistemas de IA quanto ao viés: quando os sistemas de IA discriminam com base em raça, religião ou outras considerações ilegais, isso pode criar uma responsabilidade de conformidade ou um desastre de relações públicas – ou ambos. Com sistemas de IA de “caixa preta” e novas tecnologias de IA, como redes neurais, pode ser difícil descobrir por que uma IA faz a recomendação. Testar os sistemas de IA contra conjuntos de dados sintéticos projetados para imitar a demografia do mundo real pode ajudar a descobrir esses vieses ocultos.
Com informações IT Forum e The Brief