Com as grandes melhorias na pesquisa em aprendizado de máquina (ML), muitas empresas estão implantando novas técnicas DE ML para melhorar seus processos de negócios. O desdobramento do potencial DA ML dá-lhes a adaptabilidade às mudanças de mercado rapidamente, a compreensão das expetativa dos clientes sobre seus serviços e produtos e a flexibilidade para dimensionar esses serviços e produtos. Todos esses resultados são possíveis com os dados que todos possuímos, desde resultados de exames de sangue, exames de ressonância magnética e transações de contas bancárias até curtidas no Instagram e no Twitter, e os comentários que você escreve sobre postagens e tweets de seus amigos. No mundo de hoje, os dados são o novo petróleo, e isso introduz um tópico muito interessante: A privacidade de dados. Como podemos aprimorar e até garantir a privacidade dos dados ao acessar todo o potencial da inteligência artificial?
Tradicionalmente, as empresas têm usado abordagens DE ML centradas em modelos, que têm a seguinte estrutura: Um modelo DE ML central, no servidor central, é treinado com todos os dados de treinamento disponíveis. O foco é encontrar a arquitetura de modelo mais adequada para a tarefa. Esses modelos são muito valiosos para as empresas, que querem tirar o máximo proveito de seus dados.
Com a recente tendência da AI centrada em dados, o foco da AI está mudando das abordagens centradas em dados para as centradas em modelos. A IA centrada em dados se concentra em melhorar sistematicamente os dados disponíveis, o que proporciona criação de modelos mais rápida, menor tempo de implantação e maior precisão. No entanto, essa abordagem traz seu próprio conjunto de desafios em relação à acessibilidade dos dados.
Com modelos de linguagem gigantescos, como o GPT-3 da OpenAI, vemos que a maioria dos modelos atualmente compartilham a mesma arquitetura, mas são difíceis de treinar porque exigem muita computação e enormes quantidades de dados. Com a utilização de GPUs no local, bem como em plataformas de nuvem (SageMaker, Azure, etc.), tornou-se mais fácil lidar com a sobrecarga de computação. O novo problema é ter acesso a essas enormes quantidades de dados sem causar violações de dados às empresas ou aos indivíduos.
Vamos supor que você deseja implantar um modelo para sua empresa e que você precisa de dados para treinar e validar seu modelo. Você precisa coletar o máximo de dados possível de diferentes regiões para garantir a generalização. Você pede a outras empresas, seus clientes, seus parceiros, etc. para obter mais dados. Mas e se seus dados de treinamento revelarem informações confidenciais sobre os indivíduos, como raça, nome, detalhes da conta bancária e dados médicos, e, portanto, eles não querem compartilhá-los, mesmo com diferentes ramos da mesma empresa ou hospital?
Mesmo que as informações confidenciais sejam removidas ou o conjunto de dados seja revelado sem os nomes dos indivíduos, os invasores ainda podem identificar os indivíduos com apenas uma pequena quantidade de informações. Um exemplo dessa situação é o "Prêmio Netflix". Em 2006, a Netflix, o maior serviço de aluguer de filmes online do mundo, anunciou um desafio para o seu sistema de recomendação, oferecendo 1M dólares a qualquer pessoa que pudesse melhorar o seu sistema de recomendação em 10%. A Netflix publicou um conjunto de dados com classificações de filmes anónimas dos seus 500.000 subscritores. Embora o conjunto de dados tenha sido anonimizado, os pesquisadores provaram que era possível identificar um assinante no conjunto de dados Netflix apenas por saber sobre algumas das classificações de filmes do assinante no Internet Movie Database (IMDB), que está aberto a todos.
Em resposta às crescentes preocupações com a privacidade de dados, o Google introduziu uma nova abordagem chamada aprendizado federado, que permite modelos de treinamento colaborativamente sem compartilhar dados locais brutos. Este método traz o modelo para os dados em vez de coletar os dados em um único local para o treinamento do modelo.
O princípio da aprendizagem federada é muito simples. Todos os clientes que têm dados sobre eles, como smartphones, dados de sensores de carros, agências de um banco e hospitais, treinam seus modelos individuais. Eles então enviam o modelo, não os dados, para um servidor central que os combina e envia o novo modelo combinado para cada cliente para futuras rodadas de atualização.
O servidor central possui um modelo global com parâmetros iniciais e os participantes (também chamados de clientes ou nós) mantêm seus conjuntos de dados locais sem qualquer intenção de compartilhá-los com terceiros.
Desta forma, todos os clientes têm uma palavra a dizer sobre os parâmetros do modelo atualizado. Isso nos permite ter um modelo treinado com todos os dados, mas sem ter os próprios dados. Este loop é repetido até o modelo convergir. O número de rodadas varia dependendo da distribuição de dados, poder de computação e eficiência de comunicação de cada cliente.
No entanto, a aprendizagem federada por si só não é suficiente para garantir a privacidade. Portanto, a pesquisa descreve muitas técnicas diferentes para melhorar a privacidade, como aprendizado federado com privacidade diferencial, criptografia homomórfica e computação multipartidária segura. Este post não entra nos detalhes dessas abordagens, mas se concentra na aprendizagem federada, porque a ideia subjacente é a mesma para todas as abordagens, com modificações no topo.
A localização dos conjuntos de dados pode variar de um cliente para outro. Algumas empresas preferem recursos locais (centrais), enquanto outras não querem aprofundar uma solução no local e preferem optar por soluções em nuvem para acelerar a jornada da AI. Quando se trata de mobilidade de dados, as soluções da NetApp desempenham um papel importante na área de IA. Não importa onde estão os conjuntos de dados de cada participante local, a nuvem, o local ou a borda. Um Data Fabric com tecnologia NetApp usa os dados mais fácil e rápido, onde e quando for necessário, e fecha a lacuna entre diferentes locais de dados. Ele também oferece aos usuários maior flexibilidade em mover de uma configuração para outra. Migrando da nuvem para a borda ou do local para a nuvem, o Data Fabric acelera sua jornada sem incomodar os detalhes. Essa flexibilidade é especialmente crucial na criação de um ambiente com um ambiente de aprendizado federado que precisa cuidar de diferentes empresas ou indivíduos, que provavelmente usam ambientes diferentes para armazenar seus dados.
Tal como acontece com muitos projetos baseados EM ML, os cientistas de dados que constroem o modelo central precisam determinar que tipo de modelo é adequado para o caso de uso específico. A experimentação leva a resultados melhorados em PROJETOS DE ML. Os cientistas de dados usam modelos diferentes com muitas combinações de configurações. Documentar esta jornada garante a outros cientistas de dados no projeto que todas as variáveis possíveis foram exploradas e que os resultados são reprodutíveis. É crucial criar e compartilhar as versões com colegas, seja para cooperação ou como prova. Também é importante que a empresa mantenha as versões em caso de desafio legal, o que pode ser causado pelas previsões de um modelo após uma implantação ou atualização.
Com o grande número de rodadas de atualização e arquiteturas de modelos diferentes, o controle de versão dos modelos e conjuntos de dados por meio de cópias é demorado e não dimensionável. Mesmo que o aprendizado federado distribua a carga de computação dos conjuntos de dados para diferentes dispositivos, pode haver alguns participantes com grandes conjuntos de dados (por exemplo, exames de TC 3DD, dados de RM de muitos pacientes, dados diários de sensores de carros autônomos), que precisam ser preservados e versionados do lado do cliente. Além disso, não é difícil imaginar cenários em que pequenos acidentes causam grandes problemas, como excluir o modelo atual ou experimentar a nova versão de trabalho do modelo sem capturar primeiro o estado do modelo. Esses erros custam muito tempo, porque a equipe de ciência de dados tem que recriar cada etapa, e eles podem custar muito dinheiro às corporações e institutos de pesquisa.
Além do Data Fabric, a NetApp oferece uma biblioteca de código aberto, o Toolkit DataOps do NetApp, que é a cereja no topo para PROJETOS DE ML. Independentemente do tamanho do conjunto de dados, a criação de cópias NetApp Snapshot do modelo e do conjunto de dados leva apenas alguns segundos, em vez de horas. Basta clonar o repositório e importar a função, e você está pronto para ir. A equipe de ciência de dados não precisa se preocupar com processos de cópia com horas de duração. Ela pode simplesmente adicionar duas linhas ao projeto para tirar cópias Snapshot e compartilhá-las com colegas ou armazená-las. Mesmo no pior cenário, a corrupção ou exclusão do modelo atual, a equipe de ciência de dados não precisa iniciar o projeto desde o início. Eles podem aproveitar a flexibilidade para gerenciar todo o estado da pilha de aplicativos. Eles podem reverter o aplicativo e os dados em caso de corrupção ou exclusão acidental e continuar colaborando com o lado do cliente.
O aprendizado federado é uma técnica especial de IA com muitos requisitos de infraestrutura e rede, o que pode se transformar em um incômodo de grande escala para cientistas de dados na indústria e na pesquisa. As ofertas da NetApp são um catalisador para acelerar as etapas de pesquisa e desenvolvimento com escalabilidade flexível e alta utilidade computacional. A NetApp é impulsionada com o objetivo de capacitar os cientistas de dados a agregar valor ao seu trabalho com abordagens de ponta sem se preocupar com detalhes de infraestrutura e otimização de custos de infraestrutura.
Para esse fim, estamos sempre mantendo esse lema em mente: Que a infraestrutura esteja com o NetApp, e que a IA esteja com todos os cientistas de dados!
Prêmio Netflix. K. Hafner. E se você gostou do filme, um concurso da Netflix pode recompensá-lo de forma artesanal. New York Times, 2 de outubro de 2006.
Desanonimização do Dataset Netflix. A. Narayanan, V. Shmatikov. Desanonimização robusta de grandes conjuntos de dados (como quebrar o anonimato do Dataset do Prêmio Netflix). Universidade do Texas em Austin, 5 de fevereiro de 2008.
Aprendizagem federada. B. McMahan, D. Ramage. Aprendizado federado: Aprendizado de máquina colaborativo sem dados de treinamento centralizado. Google AI Blog, 6 de abril de 2017.
Design de sistemas de Aprendizagem Federados. S. K. Loa, Q. lua, L. Zhua, H. Y. Paik, X. Xua, C. Wanga. Padrões arquitetônicos para o Projeto de sistemas de Aprendizagem Federados. Data61, CSIRO, Austrália. 18 de junho de 2021.
Como cientista de dados, a Ekin está focada na pesquisa e desenvolvimento de pipelines de aprendizado de máquina e aprendizado profundo de última geração. Depois de trabalhar em vários projetos DE ml/DL na área de saúde, ela se dedicou a sublinhar os gargalos das operações DE ML a partir da perspetiva de um cientista de dados e explicar como tornar a vida dos cientistas de dados mais fácil através de tecnologias de ponta e ferramentas MLOPS.
Atualmente, ela está cursando seu mestrado em robótica, cognição, Inteligência com especialização em IA na Universidade Técnica de Munique, Alemanha e escrevendo sua tese de mestrado sobre técnicas de aprimoramento de privacidade para Aprendizagem federada. Além de seus estudos, ela é membro ativo do TUM.ai, a maior iniciativa estudantil focada em IA da Alemanha. Como ex-chefe de equipe e mentora do departamento de Makeathon, ela foi responsável por organizar um dos maiores hackathons internacionais em Munique. Neste momento, ela auxilia os presidentes em decisões estratégicas como membro do Conselho e se concentra na construção de uma equipe de crescimento para o TUM.ai.