O papel da qualidade dos dados para os algoritmos de machine learning

O desenvolvimento dos algoritmos de machine learning está a mudar a forma como as organizações operam e a ter um papel importante em ganhos de produtividade. No entanto, é preciso ter em consideração que a qualidade dos dados influencia diretamente o sucesso destas soluções.

Os algoritmos de machine learning só terão êxito se a qualidade dos dados for garantida, caso contrário os resultados não serão suficientemente fiáveis para serem aplicados no negócio. Sabia que a IBM estima que a má qualidade dos dados custe 3,1 triliões de dólares por ano às empresas norte-americanas?

Se os dados são tão importantes, porque é que têm má qualidade? Uma das possíveis justificações é que grande parte das organizações preocupa-se em criar um grande volume de dados, mas não com a sua qualidade. Assim, antes de qualquer projeto de machine learning aconselha-se investir na validação da informação recolhida à priori e na verificação da qualidade dos dados que serão usados na solução tecnológica.

Estima-se que os data scientists consomem 80% do seu tempo a encontrar, limpar e a organizar os dados e apenas 20% a explorá-los. Assim, um investimento na fase de recolha de dados irá trazer benefícios.

Como saber se os dados têm qualidade?

É possível fazer uma verificação aos padrões de qualidade dos dados e rapidamente perceber se há necessidade de agir antes de implementar uma solução de machine learning. Alguns sinais de alarme são:

– faltam variáveis nos dados e não ser possível normalizá-los de uma forma única;

– os dados existentes não são relevantes para o algoritmo que se pretende implementar;

– os dados contêm valores contraditórios, por exemplo apresentam os mesmos valores para classes opostas ou uma variação muito ampla dentro de uma classe.

Durante a avaliação aos dados de uma organização é importante ter em consideração que a limpeza dos dados não é a sua substituição ou eliminação sem qualquer justificação. Os dados que existem na base de dados da organização podem não ser necessários para a solução a implementar, mas podem ser importantes no futuro.

De uma forma geral, nos projetos de machine learning é sempre necessário alocar algum tempo para tarefas relacionadas com a limpeza (a remoção de duplicados, por exemplo), substituição e verificação de dados. Este processo é importante, porque permite o refinamento das fontes e a normalização dos dados, permitindo a otimização da base de dados.

Qual a importância da qualidade dos dados?

Atualmente os dados são utilizados em diferentes áreas da organização e com diferentes propósitos, nomeadamente:

– Ajudam na tomada de decisão: quando a qualidade dos dados é elevada, aumenta o nível de confiança sobre as informações que podemos extrair deles. Com dados de qualidade, a organização é gerida com menos riscos.

– Aumentam a produtividade: com dados de qualidade, os funcionários não precisam de gastar tempo a corrigi-los ou a validá-los, transferindo a sua atenção para as tarefas críticas do negócio.

– Ações de marketing mais eficazes: dados precisos permitem melhor segmentação e comunicações mais ajustadas ao público-alvo e, naturalmente, maior eficácia das ações.

É possível melhorar a base de dados da sua organização com algumas ações simples que têm impacto imediato na uniformidade e integridade dos dados. Estas ações são essenciais para a implementação bem-sucedida dos algoritmos de machine learning.

Qualidade sim, mas não chega

Ainda que a qualidade dos dados seja muito importante para os algoritmos de machine learning, existem algumas ações necessárias para ajudar à seleção do algoritmo e aumentar o seu sucesso. O pré-processamento dos dados e a seleção dos atributos que se prevêem mais relevantes para o objetivo da solução são os passos posteriores à análise da qualidade dos dados.

Os dados selecionados devem ser aqueles que têm uma relação mais ou menos aparente com o resultado pretendido, tendo em vista uma maior precisão dos resultados finais, bem como um tempo de cálculo mais reduzido.

Do ponto de vista legal deve-se avaliar se o processo cumpre o Regulamento Geral de Proteção de Dados, ou seja, se os dados podem e estão a ser usados para os fins a que se destinam e se está assegurada a anonimização quando aplicável. Do ponto de vista ético, deve ser avaliado se os dados são tendenciosos, isto é, se representam apenas alguns segmentos da população à qual a análise se destina e a forma como isso influencia os resultados.

Quando começar a usar machine learning?

Nos últimos anos, as organizações começaram a investir no potencial dos algoritmos de machine learning, ajudando-as a tomar decisões mais acertadas, rápidas e eficientes.

Naturalmente que o sucesso desses algoritmos é tão bom quanto a sua matéria-prima — os dados. Sem isso, qualquer sistema de machine learning irá falhar e gerar consequências imprevisíveis decorrentes da utilização incorreta de dados no negócio.

A sua organização está a tirar o máximo partido dos seus dados? Entre em contato connosco para ter uma opinião especializada sobre a implementação de iniciativas de transformação digital sustentadas em dados.