Hadoop - Dados Grandes Visão Geral


Advertisements

"90% dos dados do mundo foi gerada nos últimos anos."

Devido ao advento das novas tecnologias, dispositivos e meios de comunicação como sites de redes sociais, a quantidade de dados produzidos pela humanidade está crescendo rapidamente a cada ano. A quantidade de dados produzidos por nós desde o início dos tempos até 2003 era de 5 mil milhões de gigabytes. Se você acumular os dados sob a forma de discos pode encher todo um campo de futebol. A mesma quantidade foi criado em cada dois dias, em 2011, e a cada dez minutos no ano 2013. Esta taxa ainda está a crescer imenso. Apesar de todas esta informações produzidas é significativa e pode ser útil quando é processado, ele está sendo negligenciado.

O que é Big Data?

Dados grandes é uma coleção de grandes conjuntos de dados que não podem ser processadas utilizando computação tradicional técnicas. Não se trata de uma técnica única ou uma ferramenta, ao contrário, envolve muitas áreas de negócios e tecnologia.

O que vem nos dados grandes?

Dados grandes envolve os dados produzidos por diferentes dispositivos e aplicações. Abaixo estão alguns dos campos que vêm sob a égide de dados grandes.

  • Dados da caixa preta: é um componente do helicóptero, aviões e jatos, etc. Ele capta vozes da tripulação de voo, as gravações de microfones e fones de ouvido, e as informações sobre o desempenho da aeronave.

  • Mídias Sociais os dados: mídias sociais, tais como o Facebook e o Twitter manter as informações e as opiniões postadas por milhões de pessoas em todo o mundo.

  • Os dados: Bolsa de Valores bolsa de valores dos dados contém informações sobre a 'comprar' e 'vender' as decisões feitas sobre uma quota de empresas diferentes feitos pelos clientes.

  • Grade de Energia dados: a grade de energia dados contém informações consumidas por um determinado nó no que diz respeito a uma estação de base.

  • Transporte de dados: Transporte de dados inclui modelo, a capacidade, a distância e disponibilidade de um veículo.

  • Motor de busca os dados: motores de busca recuperar muitos dados de diferentes bancos de dados.

grande dados

Assim Dados grandes inclui grande volume e alta velocidade, e extensível grande variedade de dados. Os dados, que serão de três tipos.

  • Estruturada de dados: os dados relacionais.

  • Entrevistas semi-estruturadas dos dados: os dados em XML.

  • Dados Não Estruturados: Word, PDF, texto, Media Os Logs.

Os benefícios dos dados grandes

  • Usando as informações mantidas em a rede social, como o Facebook, as agências de marketing estão aprendendo sobre a resposta para as suas campanhas, promoções, publicidade e outros meios.

  • Usando as informações da mídia social como preferências e produto percepção de seus consumidores, empresas de produtos e organizações de varejo estão a planear a sua produção.

  • Usando os dados sobre a história médica pregressa dos pacientes, os hospitais estão oferecendo um melhor e rápido atendimento.

Dados grandes tecnologias

Dados grandes tecnologias são importantes para a análise mais acurada, o que pode levar a mais concreta tomada de decisões que resultem em maior eficiência operacional, redução de custos e redução dos riscos para o negócio.

Para aproveitar o poder das grandes dados, você exigiria uma infra-estrutura que pode gerenciar e processar grandes volumes de dados estruturados e não estruturados em tempo real e pode proteger a privacidade dos dados e a segurança.

Há diversas tecnologias no mercado de diferentes fornecedores, incluindo Amazon, IBM, Microsoft, etc., para lidar com dados grandes. Ao olhar para as tecnologias que lidam com dados grandes, examinamos as seguintes duas classes de tecnologia:

Grandes dados operacionais

Estes incluem sistemas como MongoDB que fornecem capacidades operacionais em tempo real e cargas interativa onde os dados são principalmente capturados e armazenados.

Grandes sistemas de armazenamento de dados NoSQL são projetados para tirar proveito das novas arquiteturas de computação em nuvem que surgiram ao longo da última década para permitir grandes computações para ser executado barata e eficiente. Isso torna dados grandes cargas operacionais muito mais fácil de gerenciar, mais barato e mais rápido de implementar.

Alguns sistemas NoSQL podem fornecer insights sobre padrões e tendências com base em dados em tempo real com codificação mínima e sem a necessidade de dados os cientistas e infra-estrutura adicional.

Grandes dados analíticos

Estes incluem sistemas como Massively Parallel Processing (MPP) sistemas de bancos de dados e MapReduce que fornecem capacidades analíticas para retrospectiva e análise complexa que pode tocar a maioria ou todos os dados.

MapReduce fornece um novo método de análise de dados que é complementar os recursos fornecidos pelo SQL e um sistema baseado em MapReduce que pode ser ajustada para cima de servidores únicos para milhares de alto e baixo efeito máquinas.

Estes dois tipos de tecnologias são complementares e freqüentemente utilizados em conjunto.

Sistemas contra Analíticos Operacionais

Operacional Análise
Latência 1 MS - 100 ms 1 Min - 100 min.
Simultaneidade 1000 - 100,000 habitantes 1 - 10
Padrão de Acesso Grava e lê
Consultas Seletivos Unselective
Dados Operacional Estudo retrospectivo
Usuário Final O Cliente Os dados Cientista
Tecnologia NoSQL MapReduce, MPP Database

Grandes Desafios de Dados

Os principais desafios associados com dados grandes são as seguintes:

  • Captura de dados
  • Curadoria
  • Para Bagagem
  • Pesquisar
  • Compartilhar
  • Transferência
  • Análise
  • Apresentação

Para cumprir os desafios, as organizações normalmente ter a ajuda de servidores empresariais.

Advertisements