- Apr 2023
-
codeberg.org codeberg.org
-
Análise de outliers (pontos fora da curva) ou detecção de desvios
Esse profissional está realizando a tarefa de pré-processamento de dados. Mais especificamente, a tarefa que o profissional de TI está realizando é a identificação de anomalias ou resultados raros na base de dados. Essa tarefa envolve a análise dos dados e a busca por valores que estejam fora do esperado ou que possam ser considerados como "outliers".
Por exemplo, se o profissional estiver trabalhando com um conjunto de dados de vendas de um determinado produto, ele pode identificar um registro com um valor de venda muito superior aos demais, que pode ser considerado uma anomalia. Nesse caso, ele pode investigar esse registro para determinar se ele é válido ou se foi inserido incorretamente na base de dados.
A identificação de anomalias ou resultados raros é importante porque esses dados podem distorcer as análises e prejudicar a tomada de decisão. Ao identificar e tratar esses dados, o profissional pode garantir que as análises posteriores sejam mais precisas e confiáveis, o que pode resultar em melhores resultados para a empresa ou organização.
-
Análise de Componentes Principais
Técnicas de redução de dados são métodos utilizados para diminuir a dimensionalidade dos dados, ou seja, reduzir o número de variáveis ou atributos de um conjunto de dados. Essas técnicas são importantes em muitos campos de análise de dados, como aprendizado de máquina, mineração de dados e análise estatística, pois ajudam a simplificar a análise, melhorar a eficiência computacional e reduzir o risco de overfitting.
As técnicas de redução de dados podem ser divididas em duas categorias principais: seleção de atributos e extração de características.
A técnica indicada para reduzir a dimensionalidade dos dados nesse caso é a Análise de Componentes Principais (PCA), que é uma técnica de redução de dados utilizada para transformar um grande número de variáveis em um número menor de variáveis chamadas de componentes principais, mantendo a maior quantidade possível de variação dos dados originais.
-
não supervisionado
O funcionário de TI deve utilizar o aprendizado de máquina não supervisionado para dividir os clientes em grupos apenas com base nas informações da base de dados. Isso porque ele não tem um conjunto de dados de treinamento com rótulos predefinidos (por exemplo, clientes que compraram determinado produto versus clientes que não compraram), o que é necessário para o aprendizado supervisionado. Em vez disso, ele deve utilizar técnicas de agrupamento, como a análise de clusters, para encontrar padrões e agrupar os clientes com base em suas características comuns.
-
dado, informação e conhecimento
O primeiro nível é o dado, que é a informação elementar, capturada e armazenada em um formato estruturado, que geralmente é representado em forma de tabelas, matrizes ou vetores.
O segundo nível é a informação, que é o processamento dos dados brutos, com a finalidade de atribuir significado e contexto aos dados. É nesse nível que se transforma o dado em informação útil para a tomada de decisões.
O terceiro nível é o conhecimento, que é a identificação de padrões compreensíveis e relevantes na informação. É nesse nível que se fazem descobertas relevantes, através da análise de grandes conjuntos de informações, identificando padrões, associações, correlações, entre outros.
-