Hadoop – o poder do elefante
No geral, Williams achou que o projeto era ambicioso, mas havia ido de maneira rápida e bem, e que a equipe foi capaz de usar o Hadoop e o HBASE para construir uma experiência de pesquisa significativamente melhorada.
O eBay prepara a pesquisa da próxima geração construída com Hadoop e HBase
O eBay apresentou uma palestra no Hadoop World, descrevendo a arquitetura de seu mecanismo de busca completamente reconstruído, Cassini, programado para ir ao vivo em 2012. Ele indexa todo o conteúdo e os metadados do usuário para produzir melhores classificações e atualizar os índices de hora em hora. Ele é construído usando Apache Hadoop para atualizações de índices horários e Apache HBASE para fornecer acesso aleatório às informações do item. Hugh e. Williams, o vice-presidente de busca, experiência e plataformas dos mercados do eBay entregou a palestra, onde descreveu a escala, as tecnologias usadas e as experiências de um esforço de 18 meses de mais de 100 engenheiros para reconstruir completamente a pesquisa de site principal do eBay. A nova plataforma, Cassini, apoiará:
- 97 milhões de compradores e vendedores ativos
- 250 milhões de consultas por dia
- 200 milhões de itens vivem em mais de 50.000 categorias
O eBay já armazena 9 PB de dados nos clusters Hadoop e Teradata para análise, mas este será o seu primeiro aplicativo de produção que os usuários usam diretamente. O novo sistema será mais extenso que o atual (Galileu):
Sistema antigo: Galileu | Novo sistema: Cassini |
---|---|
10 dos fatores usados para classificar | 100 dos fatores usados para classificar |
Match somente de título por padrão | Use todos os dados para corresponder por padrão |
Intervenção manual para lançamento, monitoramento, remediação | lançamento automatizado, monitoramento, remediação |
Cassini manterá 90 dias de dados históricos online – atualmente 1 bilhão de itens e incluirá dados de usuário e comportamento para classificação. A maior parte do trabalho necessária para apoiar o sistema de pesquisa é feita em trabalhos de lotes por hora que são executados no Hadoop. Diferentes tipos de índices serão gerados no mesmo cluster (uma melhoria em relação a Galileu, que tinha aglomerados diferentes para cada tipo de indexação). O ambiente Hadoop permite que o eBay restaure ou reclassifique todo o inventário do site à medida que as melhorias são criadas.
Os itens são armazenados no HBASE e normalmente são digitalizados durante as atualizações de índice por hora. Quando um novo item estiver listado, ele será pesquisado no HBase e adicionado ao índice ao vivo em minutos. O HBase também permite granel e gravações de itens incrementais e leituras e gravações de itens rápidos para anotação de itens.
Williams indicou que a equipe estava familiarizada com a corrida do Hadoop e funcionou de maneira confiável com poucos problemas. Por outro lado, ele indicou o “passeio até agora com o hbase tem sido acidentado.”Williams observou que o eBay permanece comprometido com a tecnologia, tem contribuído com correções para os problemas que eles encontraram, estão aprendendo rapidamente e que as duas últimas semanas foram tranquilas sem problemas. A equipe de engenharia era nova no uso do HBase e encontrou alguns problemas ao testar em escala, como:
- Configuração do cluster de produção para suas cargas de trabalho
- problemas de hardware
- Estabilidade: servidores de região instáveis, mestre instável, regiões presas na transição
- Monitorando a saúde da HBase: muitas vezes os problemas não foram detectados até que eles afetem o serviço ao vivo – a equipe está adicionando muito monitoramento
- Gerenciando empregos de MapReduce em várias etapas
No geral, Williams achou que o projeto era ambicioso, mas havia ido de maneira rápida e bem, e que a equipe foi capaz de usar o Hadoop e o HBASE para construir uma experiência de pesquisa significativamente melhorada.
Hadoop – o poder do elefante
Em um post anterior, Junling discutiu a mineração de dados e nossa necessidade de processar petabytes de dados para obter insights com informações. Usamos várias ferramentas e sistemas para nos ajudar com esta tarefa; O que discutirei aqui é Apache Hadoop.
Criado por Doug Cutting em 2006, que o nomeou em homenagem ao elefante amarelo recheado de seu filho e, com base no papel MapReduce do Google em 2004, o Hadoop é uma estrutura de código aberto para computação tolerante a falhas, escalável e distribuída em hardware de commodity.
MapReduce é um modelo de programação flexível para processamento de grandes conjuntos de dados:
Mapa pega pares de chave/valor como entrada e gera uma saída intermediária de outro tipo de pares de chave/valor, enquanto Reduzir leva as chaves produzidas na etapa do mapa, juntamente com uma lista de valores associados à mesma chave para produzir a saída final de pares de chave/valor.
Mapa (Key1, Value1) -> List (Key2, Value2)
Reduzir (Key2, List (Value2)) -> List (Key3, Value3)
Ecossistema
Athena, nosso primeiro grande cluster foi usado no início deste ano.
Vejamos a pilha de baixo para cima:
- Essencial – O tempo de execução do Hadoop, alguns utilitários comuns e o sistema de arquivos distribuído do Hadoop (HDFS). O sistema de arquivos é otimizado para ler e escrever grandes blocos de dados (128 MB a 256 MB).
- MapReduce – fornece as APIs e componentes para desenvolver e executar empregos.
- Acesso de dados – As estruturas de acesso a dados mais proeminentes hoje são hbase, porco e colméia.
- Hbase -Banco de dados espacial multidimensional orientado a colunas inspirado no bigtable do Google. O HBASE fornece acesso de dados classificados mantendo partições ou regiões de dados. O armazenamento subjacente é HDFS.
- Porco (Latim) – Uma linguagem processual que fornece recursos para carregar, filtrar, transformar, extrair, agregar, unir e agrupar dados. Desenvolver
Questões:
- O que é Apache Hadoop?
- O que é MapReduce?
- Como é chamado o novo mecanismo de pesquisa do eBay?
- Quais tecnologias são usadas no mecanismo de pesquisa do eBay?
- Quais são as melhorias no novo mecanismo de pesquisa em comparação com o sistema antigo?
- Como os dados são armazenados no novo mecanismo de pesquisa?
- Quais são alguns desafios que o eBay enfrentou ao usar o HBASE?
- Quanta dados o eBay atualmente armazena em clusters Hadoop e Teradata?
- O que é hbase?
- O que é porco?
- Qual é o objetivo do HDFS?
- Qual é o propósito de Athena?
- Quanto tempo levou a equipe do eBay para reconstruir sua pesquisa de site principal?
- Qual é a escala do novo mecanismo de pesquisa do eBay?
- Quais melhorias o Hadoop traz para o sistema de pesquisa do eBay?
Apache Hadoop é uma estrutura de código aberto para computação tolerante a falhas, escalável e distribuída em hardware de commodity. Foi criado por Doug Cutting em 2006 com base no papel MapReduce do Google.
MapReduce é um modelo de programação flexível para processamento de grandes conjuntos de dados. Ele leva pares de chave/valor como entrada na etapa do mapa e gera uma saída intermediária de outro tipo de chave/valores Tipo. A etapa de redução leva as chaves produzidas na etapa do mapa, juntamente com uma lista de valores associados à mesma chave para produzir a saída final de pares de chave/valor.
O novo mecanismo de pesquisa do eBay é chamado Cassini.
O mecanismo de pesquisa do eBay usa o Apache Hadoop para atualizações de índices horários e Apache HBASE para fornecer acesso aleatório às informações do item.
O novo mecanismo de pesquisa (Cassini) usa 100 dos fatores para classificação em comparação com o sistema antigo (Galileu), que usou 10s de fatores. Ele também usa todos os dados disponíveis para corresponder por padrão, suporta lançamento automatizado, monitoramento e remediação e inclui 90 dias de dados históricos online.
Os itens são armazenados no HBase, que permite leituras e gravações de itens rápidos para anotação de itens.
O eBay enfrentou desafios como configuração de cluster de produção, problemas de hardware, estabilidade dos servidores da região e mestre e monitoramento da saúde da HBase. Eles estão trabalhando ativamente para resolver esses problemas.
Atualmente, o eBay armazena 9 PB de dados em clusters Hadoop e Teradata.
O HBASE é um banco de dados espacial multidimensional orientado a colunas inspirado no BigTable do Google. Ele fornece acesso aos dados classificados, mantendo partições ou regiões de dados.
Pig é uma linguagem processual que fornece recursos para carregar, filtrar, transformar, extrair, agregar, unir e usar dados.
HDFS (sistema de arquivos distribuído Hadoop) é o armazenamento subjacente para o Hadoop. É otimizado para ler e escrever grandes blocos de dados.
Athena é um grande cluster usado pelo eBay para processamento de dados. Faz parte do ecossistema Hadoop do eBay.
Levou a equipe do eBay 18 meses para reconstruir completamente sua pesquisa de site principal.
O novo mecanismo de pesquisa do eBay, Cassini, suportará 97 milhões de compradores e vendedores ativos, lidará com 250 milhões de consultas por dia e terá 200 milhões de itens vivendo em mais de 50.000 categorias.
O Hadoop permite que o eBay gere diferentes tipos de índices no mesmo cluster, restaurar ou reclassificar todo o inventário do site e executar trabalhos de lote de hora para apoiar o sistema de pesquisa.
Hadoop – o poder do elefante
No geral, Williams achou que o projeto era ambicioso, mas havia ido de maneira rápida e bem, e que a equipe foi capaz de usar o Hadoop e o HBASE para construir uma experiência de pesquisa significativamente melhorada.
O eBay prepara a pesquisa da próxima geração construída com Hadoop e HBase
O eBay apresentou uma palestra no Hadoop World, descrevendo a arquitetura de seu mecanismo de busca completamente reconstruído, Cassini, programado para ir ao vivo em 2012. Ele indexa todo o conteúdo e os metadados do usuário para produzir melhores classificações e atualizar os índices de hora em hora. Ele é construído usando Apache Hadoop para atualizações de índices horários e Apache HBASE para fornecer acesso aleatório às informações do item. Hugh e. Williams, a Pesquisa, Experiência e Plataformas do VP para os mercados do eBay, entregou a palestra, onde descreveu a escala, as tecnologias usadas e as experiências de um esforço de 18 meses de mais de 100 engenheiros para reconstruir completamente a pesquisa de sites principais do eBay. A nova plataforma, Cassini, apoiará:
- 97 milhões de compradores e vendedores ativos
- 250 milhões de consultas por dia
- 200 milhões de itens vivem em mais de 50.000 categorias
O eBay já armazena 9 PB de dados nos clusters Hadoop e Teradata para análise, mas este será o seu primeiro aplicativo de produção que os usuários usam diretamente. O novo sistema será mais extenso que o atual (Galileu):
Sistema antigo: Galileu | Novo sistema: Cassini |
---|---|
10 dos fatores usados para classificar | 100 dos fatores usados para classificar |
Match somente de título por padrão | Use todos os dados para corresponder por padrão |
Intervenção manual para lançamento, monitoramento, remediação | lançamento automatizado, monitoramento, remediação |
Cassini manterá 90 dias de dados históricos online – atualmente 1 bilhão de itens e incluirá dados de usuário e comportamento para classificação. A maior parte do trabalho necessária para apoiar o sistema de pesquisa é feita em trabalhos de lotes por hora que são executados no Hadoop. Diferentes tipos de índices serão gerados no mesmo cluster (uma melhoria em relação a Galileu, que tinha aglomerados diferentes para cada tipo de indexação). O ambiente Hadoop permite que o eBay restaure ou reclassifique todo o inventário do site à medida que as melhorias são criadas.
Os itens são armazenados no HBASE e normalmente são digitalizados durante as atualizações de índice por hora. Quando um novo item estiver listado, ele será pesquisado no HBase e adicionado ao índice ao vivo em minutos. O HBase também permite granel e gravações de itens incrementais e leituras e gravações de itens rápidos para anotação de itens.
Williams indicou que a equipe estava familiarizada com a corrida do Hadoop e funcionou de maneira confiável com poucos problemas. Por outro.”Williams observou que o eBay permanece comprometido com a tecnologia, tem contribuído com correções para os problemas que eles encontraram, estão aprendendo rapidamente e que as duas últimas semanas foram tranquilas sem problemas. A equipe de engenharia era nova no uso do HBase e encontrou alguns problemas ao testar em escala, como:
* Configuração do cluster de produção para suas cargas de trabalho
* problemas de hardware
* Estabilidade: servidores de região instáveis, mestre instável, regiões presas na transição
* Monitorando a saúde da HBASE: Muitas vezes, os problemas não foram detectados até afetar o serviço ao vivo – a equipe está adicionando muito monitoramento
* Gerenciando empregos em várias etapas
No geral, Williams achou que o projeto era ambicioso, mas havia ido de maneira rápida e bem, e que a equipe foi capaz de usar o Hadoop e o HBASE para construir uma experiência de pesquisa significativamente melhorada.
Hadoop – o poder do elefante
Em um post anterior, Junling discutiu a mineração de dados e nossa necessidade de processar petabytes de dados para obter insights com informações. Usamos várias ferramentas e sistemas para nos ajudar com esta tarefa; o que eu’Discutirei aqui é Apache Hadoop.
Criado por Doug Cutting em 2006, que o nomeou em homenagem a seu filho’é o elefante amarelo recheado e com base no Google’S MapReduce Paper em 2004, o Hadoop é uma estrutura de código aberto para computação tolerante a falhas, escalável e distribuída no hardware de commodities.
MapReduce é um modelo de programação flexível para processamento de grandes conjuntos de dados:
Mapa pega pares de chave/valor como entrada e gera uma saída intermediária de outro tipo de pares de chave/valor, enquanto Reduzir leva as chaves produzidas na etapa do mapa, juntamente com uma lista de valores associados à mesma chave para produzir a saída final de pares de chave/valor.
Mapa (Key1, Value1) -> List (Key2, Value2)
Reduzir (Key2, List (Value2)) -> List (Key3, Value3)
Ecossistema
Athena, nosso primeiro grande cluster foi usado no início deste ano.
Deixar’s Olhe para a pilha de baixo para cima:
- Essencial – O tempo de execução do Hadoop, alguns utilitários comuns e o sistema de arquivos distribuído do Hadoop (HDFS). O sistema de arquivos é otimizado para ler e escrever grandes blocos de dados (128 MB a 256 MB).
- MapReduce – fornece as APIs e componentes para desenvolver e executar empregos.
- Acesso de dados – As estruturas de acesso a dados mais proeminentes hoje são hbase, porco e colméia.
- Hbase – Banco de dados espacial multidimensional orientado a colunas inspirado no Google’s bigtable. O HBASE fornece acesso de dados classificados mantendo partições ou regiões de dados. O armazenamento subjacente é HDFS.
- Porco(Latim) – Uma linguagem processual que fornece recursos para carregar, filtrar, transformar, extrair, agregar, unir e unir dados. Os desenvolvedores usam porco para criar dutos de dados e fábricas.
- Hive – Uma linguagem declarativa com a sintaxe SQL usada para construir o data warehouse. A interface SQL faz da Hive uma escolha atraente para os desenvolvedores validarem rapidamente dados, para gerentes de produto e analistas.
A infraestrutura
Nossos servidores corporativos executam Redhat Linux de 64 bits.
- Namenode O servidor mestre é responsável por gerenciar o HDFS.
- Jobtracker é responsável pela coordenação dos empregos e tarefas associadas aos empregos.
- HBASEMASTER Armazra o armazenamento de raiz para HBase e facilita a coordenação com blocos ou regiões de armazenamento.
- Funcionário do zoológico é um coordenador de bloqueio distribuído que fornece consistência para hbase.
Os nós de armazenamento e computação são 1U unidades executando o sistema operacional com 2 máquinas quad core e espaço de armazenamento de 12 a 24 TB. Nós embalamos nossos racks com 38 a 42 dessas unidades para ter uma grade altamente densa.
No lado da rede, usamos o topo dos interruptores de rack com uma largura de banda de nó de 1 Gbps. O rack interrompe o uplink para os principais interruptores com uma taxa de linha de 40 GPBs para suportar a alta largura de banda necessária para que os dados sejam arrastados em torno.
Agendamento
Nosso cluster é usado por muitas equipes no eBay, para produção e também em empregos únicos. Nós usamos o Hadoop’S Agendador justo para gerenciar alocações, definir pools de empregos para equipes, atribuir pesos, limitar empregos simultâneos por usuário e equipe, definir tempo limite de preempção e agendar atrasado.
Fornecimento de dados
Diariamente, ingerimos cerca de 8 a 10 TB de novos dados.
Estrada à frente
Aqui estão alguns dos desafios em que estamos trabalhando enquanto construímos nossa infraestrutura:
- Escalabilidade
Em sua encarnação atual, o namenode do servidor mestre tem problemas de escalabilidade. À medida que o sistema de arquivos do cluster cresce, o mesmo acontece com a pegada de memória, pois mantém todos os metadados na memória. Para 1 pb de armazenamento, é necessário aproximadamente 1 GB de memória. As soluções possíveis são o espaço de nome de nome hierárquico ou alavancando o Zookeeper em conjunto com o HBASE para gerenciamento de metadados. - Disponibilidade
Namenode’A disponibilidade é crítica para cargas de trabalho de produção. A comunidade de código aberto está trabalhando em várias opções de espera frio, quente e quente, como ponto de verificação e nós de backup; Nós de avatar troca de avatar do namenode secundário; Técnicas de replicação de metadados do diário. Estamos avaliando -os para construir nossos clusters de produção. - Descoberta de dados
Suporte a administração de dados, descoberta e gerenciamento de esquema em cima de um sistema que inerentemente não suporta estrutura. Um novo projeto está propondo combinar a colméia’S Metadata Store and Owl em um novo sistema, chamado Howl. Nosso esforço é vincular isso à nossa plataforma de análise para que nossos usuários possam descobrir facilmente dados nos diferentes sistemas de dados. - Movimento de dados
Estamos trabalhando em ferramentas de movimento de dados de publicação/assinatura para suportar cópias e reconciliação de dados em nossos diferentes subsistemas, como o Data Warehouse e o HDFS. - Políticas
Ativar boas políticas de retenção, arquivo e backup com gerenciamento de capacidade de armazenamento por meio de cotas (as cotas atuais do Hadoop precisam de algum trabalho). Estamos trabalhando para defini -los em nossos diferentes clusters com base na carga de trabalho e nas características dos clusters. - Métricas, métricas, métricas
Estamos construindo ferramentas robustas que geram métricas para fornecimento de dados, consumo, orçamento e utilização. As métricas existentes expostas por alguns dos servidores corporativos Hadoop não são suficientes ou transitórios que dificultam os padrões de uso de cluster.
O eBay está mudando como ele coleta, transforma e usa dados para gerar inteligência de negócios. Nós’está contratando, e nós’D Adoro ter você venha ajudar.
Anil Madan
Diretor de Engenharia, Analytics Platform DevelopmentComo o eBay usa big data e aprendizado de máquina para gerar valor comercial
A transformação digital, embora não seja nova, mudou tremendamente com o advento de novas tecnologias para análise de big data e aprendizado de máquina. A chave para a maioria dos esforços de transformação digital da empresa é aproveitar as idéias de vários tipos de dados no momento certo. Felizmente, as organizações agora têm acesso a uma ampla gama de soluções para atingir esse objetivo.
Como os líderes estão no espaço que se aproximam do problema hoje? Recentemente, tive uma discussão com Seshu Adunuthula, diretor sênior de infraestrutura de análise no eBay, para discutir esse assunto. O eBay sempre foi um negócio digital, mas mesmo os líderes de empresas que nasceram, pois as empresas digitais estão adotando as mais recentes tecnologias digitais para aprimorar seus processos existentes e criar novas experiências. Segundo Adunuthula, “os dados são o ativo mais importante do eBay.”O eBay está gerenciando aproximadamente 1 bilhão de listagens ao vivo e 164 milhões de compradores ativos diariamente. Destes, o eBay recebe 10 milhões de novas listagens via celular toda semana . Claramente, a empresa como grande volume de dados, mas a chave para seu sucesso futuro será a rapidez com que pode transformar dados em uma experiência personalizada que impulsiona as vendas.
Projetando e atualizando uma estratégia técnica
O primeiro desafio com o eBay lutado foi encontrar uma plataforma, além de seu data warehouse tradicional, capaz de armazenar uma enorme quantidade de dados que variaram por tipo. Adunuthula afirmou que o tipo de dados, a estrutura dos dados e a velocidade necessária da análise significavam que a empresa precisava evoluir de uma estrutura tradicional de armazém de dados para o que chama de dados de lagos de dados. Por exemplo, a empresa precisa manter cerca de nove quartos dos dados de tendências históricas para fornecer informações sobre itens como crescimento ano a ano. Ele também precisa analisar dados em tempo real para ajudar os compradores durante todo o ciclo de venda.
A capacidade de apoiar dados na escala de uma empresa de internet foi uma consideração importante na seleção de tecnologias e parceiros. A empresa optou por trabalhar com o produto Hadoop da Hortonwork porque ofereceu uma plataforma de código aberto altamente escalável e o fornecedor estava disposto a trabalhar com o eBay para projetar aprimoramentos de produtos. Com uma base de Hadoop e Hortonworks, os outros dois componentes da estratégia da plataforma de dados do eBay são o que chama de fluxos e serviços.
Um grande desafio técnico para o eBay e todos os negócios intensivos em dados é implantar um sistema que possa analisar e agir rapidamente nos dados à medida que chega aos sistemas da organização (chamados de dados de streaming). Existem muitos métodos em rápida evolução para apoiar a análise de dados de streaming. O eBay está atualmente trabalhando com várias ferramentas, incluindo Apache Spark, Storm, Kafka e Hortonworks HDF. A camada de serviços de dados de sua estratégia fornece funções que permitem à empresa acessar e consultar dados. Ele permite que os analistas de dados da empresa pesquisem tags de informações que foram associadas aos dados (chamados metadados) e o torne consumível para o maior número possível de pessoas com o nível certo de segurança e permissões (chamado de governança de dados). Também está usando um mecanismo de consulta interativo no Hadoop chamado Presto. A empresa está na vanguarda do uso de soluções de big data e contribui ativamente seu conhecimento de volta à comunidade de código aberto.
A estratégia atual de big data do eBay representa algumas das possíveis combinações e opções disponíveis para empresas que buscam processar um grande volume de dados que não são semelhantes em formato e combinações de dados que podem precisar ser analisados em tempo real ou armazenados para análise posterior. Obviamente, a seleção de soluções de big data depende do que você está tentando realizar como uma empresa.
Usando uma plataforma de big data e aprendizado de máquina para gerar valor comercial
No caso do eBay, a empresa está usando soluções de big data e aprendizado de máquina para abordar casos de uso como personalização, merchandising e testes de A/B para novos recursos para melhorar a experiência do usuário. Por exemplo, o eBay modela a personalização em cinco quartos de estruturado (e.g. Um bilhão de listagens, compras, etc.) e não estruturado (sinopse da atividade comportamental, nuvens de palavras, crachás etc.) dados. Merchandising melhorou usando a análise e o aprendizado de máquina para ajudar a recomendar itens semelhantes em posicionamentos de chave no local e no celular. Itens, como a descoberta de negócios, usa o aprendizado de máquina para encontrar padrões em dados estruturados. O eBay também está criando modelos preditivos de aprendizado de máquina para detecção de fraude, realização de contas e previsão de risco para comprador/vendedor. Claramente, o eBay passou um enorme tempo e recursos atingindo esse nível de experiência em processamento de dados e aprimoramento do fluxo de trabalho de negócios. Para o eBay e muitos outros, a jornada está longe de ser. A empresa deseja continuar otimizando a análise de streaming e aprimorando a governança de dados.
O que você deve fazer a seguir?
Para as empresas que estão começando, Adunuthula ofereceu algumas palavras de conselho sábio. O maior desafio é a governança de dados e impedi -lo de se tornar o oeste selvagem. Uma empresa não pode simplesmente despejar tudo em um sistema e se preocupar com a governança mais tarde. Se você estiver construindo uma estratégia de dados hoje, comece com a governança.
Exemplos disso podem incluir a definição do processo para permitir o acesso a pessoas diferentes e como ativar a conformidade com PCI nos conjuntos de dados para varejistas. A estratégia deve delinear como tornar os dados descobertos e como evoluir o processo. Ele observou que existem novas soluções, como Atlas e Navigator, emergindo hoje. No entanto, a paisagem muda continuamente. Se você estiver começando a jornada hoje, uma empresa pode implementar a governança de dados antes de construir conjuntos de dados enormes, data warehouses e lagos de dados. É mais fácil adicionar governança de dados no início do processo.
Das discussões com meus clientes, aprendi que existem várias etapas importantes na construção de uma estratégia de big data que inclui:
- Definindo uma vitória rápida e um caso de uso de longo prazo. Construir um caso de uso bem escopo é essencial para adquirir financiamento e demonstrar valor imediato de seus esforços de estratégia de dados. Por exemplo, muitas empresas definem um caso de uso que envolve conectar e analisar novas fontes de dados para entender os comportamentos de compra. A seleção de um caso de uso estreito permite que os analistas de dados testem novas tecnologias e forneçam novas idéias para o negócio.
- Avaliando o que você precisa em um parceiro de dados. O eBay tem uma equipe sofisticada de engenharia e sabe o que estava tentando alcançar. A empresa estava procurando um parceiro para ajudar a fornecer escala e assistência para melhorar as soluções de código aberto. Uma empresa também pode precisar de seu parceiro para fornecer mais treinamento, serviços de consultoria e arquiteturas de referência com base na indústria.
- Construindo o ecossistema certo. Não há uma solução de armazenamento de dados e análise que resolverá todos os casos de uso de uma empresa. Em algumas áreas, as soluções de data warehouse existentes de uma empresa funcionam perfeitamente. Em outros casos, você precisará de análise de streaming. Da mesma forma, não há uma única ferramenta ou fornecedor que forneça tudo o que você precisa. O mundo de análise de dados de hoje requer um ecossistema de ferramentas e parceiros. Procure parcerias entre fornecedores que aliviarão os desafios de integração.
- Procurando novos casos de uso. Em vez de replicar o que você tem, uma empresa deve procurar maneiras pelas quais novos dados podem ser adquiridos e analisados para melhorar seus processos de negócios. Parte do benefício desses novos dados e ferramentas de análise está descobrindo padrões, anomalias e novas idéias que não existiam em seu sistema de análise de dados herdados. Os líderes empresariais devem trabalhar com ele para procurar maneiras pelas quais novas soluções de armazenamento de dados e análise podem responder a perguntas que não eram fáceis de responder no passado.
O eBay usa o Hadoop?
- Os CIOs assumem a adaptabilidade organizacional, os CIOs de resiliência e outros executivos de tecnologia estão preparando suas organizações fazem o que é preciso para permanecer flexível em um período de imprevisível .
- A FTC examina a concorrência em computação em nuvem A Comissão Federal de Comércio está examinando o impacto de um punhado de grandes empresas de tecnologia como Amazon, Microsoft e Google .
- você.S. A crise da dívida pode atingir os contratados do governo, os contratados do governo devem se preparar agora para o U.S. para inadimplência em sua dívida, o que resultaria em pagamentos interrompidos entre outros .
- Fechando o livro na conferência RSA 2023 IA, Cloud Security, Soc Modernização e Hygiene e Gerenciamento de postura foram todos tópicos quentes no RSAC em San Francisco .
- O Firmware Chinese APT explora TP-Link Router via Technologies de software de ponto de verificação de implante disse que o implante malicioso, que atribuiu ao chinês Apt “Camaro Dragon”, era firmware .
- Proteger contra ameaças atuais e futuras com ameaças cibernéticas atuais e futuras, como ransomware, IA generativa, computação quântica e um aumento na vigilância, são .
- O Sonic Nos enfrenta desafios que se encaixam com o Gartner convencional estima que menos de 200 empresas têm Sonic na produção, de um potencial mercado de data center de 100.000. Um.
- 12 Protocolos de rede comuns e suas funções explicaram que a rede faz com que a Internet funcione, mas nenhum deles pode ter sucesso sem protocolos. Protocolos de rede comuns e suas funções são .
- Interpretador Python vs. IDE: O que os engenheiros de rede devem saber ao usar o Python para automação de rede, os engenheiros de rede geralmente trabalham com intérpretes e ambiente de desenvolvimento integrado .
- Torne as operações de mainframe eficiente com essas estratégias, os mainframes afetam os resultados organizacionais. Um especialista descreve algumas estratégias importantes para manter a confiabilidade enquanto mantém .
- Como usar o ChatGPT para gerenciamento de aplicativos de mainframe chatgpt pode ajudar os administradores a gerenciar aplicativos de mainframe convertendo, otimizando e melhorando o código. Além disso, pode criar .
- Explore o impacto da computação quântica na criptografia quando os computadores quânticos estiverem disponíveis, muitos tipos de criptografia serão vulneráveis. Saiba o porquê e o que está sendo pesquisado, para .
- Qlik completa a compra do Talend, Boosts Integration Suite com a aquisição, o fornecedor de análise de longa data adiciona uma abordagem de tecido de dados e uma melhor qualidade de dados e proezas de governança .
- Bancos de dados de mainframe ensinam a um velho cão novos truques de sobrevivência há muito previstos para desaparecer em favor de arquiteturas mais modernas, os mainframes ainda desempenham um papel integral na TI corporativa .
- Malha de dados vs. Outras opções de gerenciamento de dados malha de dados adota uma abordagem descentralizada para o gerenciamento de dados e derivando valor de dados. Ele compartilha semelhanças com dados .