"90% dos dados do mundo foi gerada nos últimos anos."
Devido ao advento das novas tecnologias, dispositivos e meios de comunicação como sites de redes sociais, a quantidade de dados produzidos pela humanidade está crescendo rapidamente a cada ano. A quantidade de dados produzidos por nós desde o início dos tempos até 2003 era de 5 mil milhões de gigabytes. Se você acumular os dados sob a forma de discos pode encher todo um campo de futebol. A mesma quantidade foi criado em cada dois dias, em 2011, e a cada dez minutos no ano 2013. Esta taxa ainda está a crescer imenso. Apesar de todas esta informações produzidas é significativa e pode ser útil quando é processado, ele está sendo negligenciado.
Dados grandes é uma coleção de grandes conjuntos de dados que não podem ser processadas utilizando computação tradicional técnicas. Não se trata de uma técnica única ou uma ferramenta, ao contrário, envolve muitas áreas de negócios e tecnologia.
Dados grandes envolve os dados produzidos por diferentes dispositivos e aplicações. Abaixo estão alguns dos campos que vêm sob a égide de dados grandes.
Dados da caixa preta: é um componente do helicóptero, aviões e jatos, etc. Ele capta vozes da tripulação de voo, as gravações de microfones e fones de ouvido, e as informações sobre o desempenho da aeronave.
Mídias Sociais os dados: mídias sociais, tais como o Facebook e o Twitter manter as informações e as opiniões postadas por milhões de pessoas em todo o mundo.
Os dados: Bolsa de Valores bolsa de valores dos dados contém informações sobre a 'comprar' e 'vender' as decisões feitas sobre uma quota de empresas diferentes feitos pelos clientes.
Grade de Energia dados: a grade de energia dados contém informações consumidas por um determinado nó no que diz respeito a uma estação de base.
Transporte de dados: Transporte de dados inclui modelo, a capacidade, a distância e disponibilidade de um veículo.
Motor de busca os dados: motores de busca recuperar muitos dados de diferentes bancos de dados.
Assim Dados grandes inclui grande volume e alta velocidade, e extensível grande variedade de dados. Os dados, que serão de três tipos.
Estruturada de dados: os dados relacionais.
Entrevistas semi-estruturadas dos dados: os dados em XML.
Dados Não Estruturados: Word, PDF, texto, Media Os Logs.
Usando as informações mantidas em a rede social, como o Facebook, as agências de marketing estão aprendendo sobre a resposta para as suas campanhas, promoções, publicidade e outros meios.
Usando as informações da mídia social como preferências e produto percepção de seus consumidores, empresas de produtos e organizações de varejo estão a planear a sua produção.
Usando os dados sobre a história médica pregressa dos pacientes, os hospitais estão oferecendo um melhor e rápido atendimento.
Dados grandes tecnologias são importantes para a análise mais acurada, o que pode levar a mais concreta tomada de decisões que resultem em maior eficiência operacional, redução de custos e redução dos riscos para o negócio.
Para aproveitar o poder das grandes dados, você exigiria uma infra-estrutura que pode gerenciar e processar grandes volumes de dados estruturados e não estruturados em tempo real e pode proteger a privacidade dos dados e a segurança.
Há diversas tecnologias no mercado de diferentes fornecedores, incluindo Amazon, IBM, Microsoft, etc., para lidar com dados grandes. Ao olhar para as tecnologias que lidam com dados grandes, examinamos as seguintes duas classes de tecnologia:
Estes incluem sistemas como MongoDB que fornecem capacidades operacionais em tempo real e cargas interativa onde os dados são principalmente capturados e armazenados.
Grandes sistemas de armazenamento de dados NoSQL são projetados para tirar proveito das novas arquiteturas de computação em nuvem que surgiram ao longo da última década para permitir grandes computações para ser executado barata e eficiente. Isso torna dados grandes cargas operacionais muito mais fácil de gerenciar, mais barato e mais rápido de implementar.
Alguns sistemas NoSQL podem fornecer insights sobre padrões e tendências com base em dados em tempo real com codificação mínima e sem a necessidade de dados os cientistas e infra-estrutura adicional.
Estes incluem sistemas como Massively Parallel Processing (MPP) sistemas de bancos de dados e MapReduce que fornecem capacidades analíticas para retrospectiva e análise complexa que pode tocar a maioria ou todos os dados.
MapReduce fornece um novo método de análise de dados que é complementar os recursos fornecidos pelo SQL e um sistema baseado em MapReduce que pode ser ajustada para cima de servidores únicos para milhares de alto e baixo efeito máquinas.
Estes dois tipos de tecnologias são complementares e freqüentemente utilizados em conjunto.
Operacional | Análise | |
---|---|---|
Latência | 1 MS - 100 ms | 1 Min - 100 min. |
Simultaneidade | 1000 - 100,000 habitantes | 1 - 10 |
Padrão de Acesso | Grava e lê | Lê |
Consultas | Seletivos | Unselective |
Dados | Operacional | Estudo retrospectivo |
Usuário Final | O Cliente | Os dados Cientista |
Tecnologia | NoSQL | MapReduce, MPP Database |
Os principais desafios associados com dados grandes são as seguintes:
Para cumprir os desafios, as organizações normalmente ter a ajuda de servidores empresariais.