O desenvolvimento dos algoritmos de machine learning está a mudar a forma como as organizações operam e a ter um papel importante em ganhos de produtividade. No entanto, é preciso ter em consideração que a qualidade dos dados influencia diretamente o sucesso destas soluções.
Os algoritmos de machine learning só terão êxito se a qualidade dos dados for garantida, caso contrário os resultados não serão suficientemente fiáveis para serem aplicados no negócio. Sabia que a IBM estima que a má qualidade dos dados custe 3,1 triliões de dólares por ano às empresas norte-americanas?
Se os dados são tão importantes, porque é que têm má qualidade? Uma das possíveis justificações é que grande parte das organizações preocupa-se em criar um grande volume de dados, mas não com a sua qualidade. Assim, antes de qualquer projeto de machine learning aconselha-se investir na validação da informação recolhida à priori e na verificação da qualidade dos dados que serão usados na solução tecnológica.
Estima-se que os data scientists consomem 80% do seu tempo a encontrar, limpar e a organizar os dados e apenas 20% a explorá-los. Assim, um investimento na fase de recolha de dados irá trazer benefícios.
Como saber se os dados têm qualidade?
É possível fazer uma verificação aos padrões de qualidade dos dados e rapidamente perceber se há necessidade de agir antes de implementar uma solução de machine learning. Alguns sinais de alarme são:
– faltam variáveis nos dados e não ser possível normalizá-los de uma forma única;
– os dados existentes não são relevantes para o algoritmo que se pretende implementar;
– os dados contêm valores contraditórios, por exemplo apresentam os mesmos valores para classes opostas ou uma variação muito ampla dentro de uma classe.
Durante a avaliação aos dados de uma organização é importante ter em consideração que a limpeza dos dados não é a sua substituição ou eliminação sem qualquer justificação. Os dados que existem na base de dados da organização podem não ser necessários para a solução a implementar, mas podem ser importantes no futuro.
De uma forma geral, nos projetos de machine learning é sempre necessário alocar algum tempo para tarefas relacionadas com a limpeza (a remoção de duplicados, por exemplo), substituição e verificação de dados. Este processo é importante, porque permite o refinamento das fontes e a normalização dos dados, permitindo a otimização da base de dados.
Qual a importância da qualidade dos dados?
Atualmente os dados são utilizados em diferentes áreas da organização e com diferentes propósitos, nomeadamente:
– Ajudam na tomada de decisão: quando a qualidade dos dados é elevada, aumenta o nível de confiança sobre as informações que podemos extrair deles. Com dados de qualidade, a organização é gerida com menos riscos.
– Aumentam a produtividade: com dados de qualidade, os funcionários não precisam de gastar tempo a corrigi-los ou a validá-los, transferindo a sua atenção para as tarefas críticas do negócio.
– Ações de marketing mais eficazes: dados precisos permitem melhor segmentação e comunicações mais ajustadas ao público-alvo e, naturalmente, maior eficácia das ações.
É possível melhorar a base de dados da sua organização com algumas ações simples que têm impacto imediato na uniformidade e integridade dos dados. Estas ações são essenciais para a implementação bem-sucedida dos algoritmos de machine learning.
Qualidade sim, mas não chega
Ainda que a qualidade dos dados seja muito importante para os algoritmos de machine learning, existem algumas ações necessárias para ajudar à seleção do algoritmo e aumentar o seu sucesso. O pré-processamento dos dados e a seleção dos atributos que se prevêem mais relevantes para o objetivo da solução são os passos posteriores à análise da qualidade dos dados.
Os dados selecionados devem ser aqueles que têm uma relação mais ou menos aparente com o resultado pretendido, tendo em vista uma maior precisão dos resultados finais, bem como um tempo de cálculo mais reduzido.
Do ponto de vista legal deve-se avaliar se o processo cumpre o Regulamento Geral de Proteção de Dados, ou seja, se os dados podem e estão a ser usados para os fins a que se destinam e se está assegurada a anonimização quando aplicável. Do ponto de vista ético, deve ser avaliado se os dados são tendenciosos, isto é, se representam apenas alguns segmentos da população à qual a análise se destina e a forma como isso influencia os resultados.
Quando começar a usar machine learning?
Nos últimos anos, as organizações começaram a investir no potencial dos algoritmos de machine learning, ajudando-as a tomar decisões mais acertadas, rápidas e eficientes.
Naturalmente que o sucesso desses algoritmos é tão bom quanto a sua matéria-prima — os dados. Sem isso, qualquer sistema de machine learning irá falhar e gerar consequências imprevisíveis decorrentes da utilização incorreta de dados no negócio.
A sua organização está a tirar o máximo partido dos seus dados? Entre em contato connosco para ter uma opinião especializada sobre a implementação de iniciativas de transformação digital sustentadas em dados.