Hadoop – moc słonia
Ogólnie Williams uważał, że projekt był ambitny, ale poszedł szybko i dobrze, a zespół był w stanie wykorzystać Hadoop i HBase, aby zbudować znacznie ulepszone wrażenia wyszukiwania.
eBay przygotowuje wyszukiwanie nowej generacji zbudowane z Hadoop i HBase
eBay przedstawił przemówienie w Hadoop World, opisując architekturę jego całkowicie przebudowanej wyszukiwarki, Cassini, która ma się uruchomić w 2012 roku. Indeksuje wszystkie metadane treści i użytkowników, aby uzyskać lepsze rankingi i odświeża indeksy Co godzinę. Jest zbudowany za pomocą Apache Hadoop dla aktualizacji indeksu godzinowych i Apache HBase, aby zapewnić losowy dostęp do informacji o pozycji. Hugh e. Williams, VP Search, Experience i Platforms dla rynku eBay, w którym przedstawił kluczową skalę, wykorzystane technologie i doświadczenia z 18-miesięcznego wysiłku ponad 100 inżynierów, aby całkowicie odbudować podstawowe wyszukiwanie strony w serwisie eBay. Nowa platforma, Cassini, będzie obsługiwać:
- 97 milionów aktywnych nabywców i sprzedawców
- 250 milionów zapytań dziennie
- 200 milionów pozycji żyje w ponad 50 000 kategorii
eBay przechowuje już 9 pb danych w klastrach Hadoop i Teradata do analizy, ale będzie to ich pierwsza aplikacja produkcyjna, z której użytkownicy używają bezpośrednio. Nowy system będzie szerszy niż obecny (Galileo):
Stary system: Galileusz | Nowy system: Cassini |
---|---|
10 czynników używanych do rankingu | 100 czynników używanych do rankingu |
Domyślnie mecz tylko do tytułu | Użyj wszystkich danych, aby domyślnie pasować |
Ręczna interwencja do wdrażania, monitorowania, naprawy | Zautomatyzowane wdrażanie, monitorowanie, naprawa |
Cassini zatrzyma 90 dni danych historycznych online – obecnie 1 miliard pozycji i obejmuje dane użytkownika i behawioralne do rankingu. Większość prac wymaganych do obsługi systemu wyszukiwania odbywa się w godzinowych pracach, które działają w Hadoop. Wszystkie rodzaje indeksów zostaną wygenerowane w tym samym klastrze (poprawa w stosunku do Galileo, która miała różne klastry dla każdego rodzaju indeksowania). Środowisko Hadoop umożliwia eBay przywrócenie lub przeklasyfikowanie całego zapasu witryny w miarę tworzenia ulepszeń.
Elementy są przechowywane w HBase i są zwykle skanowane podczas aktualizacji indeksu godzinowego. Po liście nowego elementu, zostanie on sprawdzony w HBase i dodany do indeksu na żywo w ciągu kilku minut. HBASE pozwala również na zapisywanie elementów zbiorczych i przyrostowych oraz szybkie odczyty i zapisy do adnotacji przedmiotów.
Williams wskazał, że zespół był zaznajomiony z bieganiem Hadoopa i niezawodnie zadziałał z niewielkimi problemami. Natomiast wskazał, że „jazda do tej pory z HBase była wyboista.„Williams zauważył, że eBay pozostaje zaangażowany w technologię, przyczynia się do poprawek do znalezionych problemów, uczą się szybko i że ostatnie dwa tygodnie przeszły sprawnie. Zespół inżynierski był nowy w korzystaniu z HBASE i napotkał pewne problemy podczas testowania na skalę, takich jak:
- Konfiguracja klastra produkcyjnego dla ich obciążeń
- problemy ze sprzętem
- Stabilność: niestabilne serwery regionu, niestabilny mistrz, regiony utknięte w przejściu
- Monitorowanie zdrowia HBase: Często problemy nie były wykryte, dopóki nie wpłyną na obsługę na żywo – zespół dodaje wiele monitorowania
- Zarządzanie wieloetapowymi pracami MapReduce
Ogólnie Williams uważał, że projekt był ambitny, ale poszedł szybko i dobrze, a zespół był w stanie wykorzystać Hadoop i HBase, aby zbudować znacznie ulepszone wrażenia wyszukiwania.
Hadoop – moc słonia
W poprzednim poście Junling omówił eksplorację danych i naszą potrzebę przetwarzania petabajtów danych w celu uzyskania informacji na podstawie informacji. Używamy kilku narzędzi i systemów, aby pomóc nam w tym zadaniu; Tym, o którym tutaj omówię, to Apache Hadoop.
Stworzony przez Douga Cutta w 2006 roku, który nazwał go od nadziewanego żółtego słonia syna, a na podstawie papieru Mapreduce Google w 2004 r.
MapReduce to elastyczny model programowania do przetwarzania dużych zestawów danych:
Mapa bierze pary klucza/wartości jako dane wejściowe i generuje pośrednie wyjście innego rodzaju par kluczy/wartości, a Zmniejszyć bierze klawisze wyprodukowane w kroku mapy wraz z listą wartości powiązanych z tym samym kluczem w celu wytworzenia ostatecznego wyjścia par klawiszu/wartości.
Mapa (Key1, wartość1) -> Lista (key2, wartość2)
Zmniejszyć (key2, lista (wartość2)) -> lista (key3, wartość3)
Ekosystem
Atena, nasza pierwsza duża klaster, została użyta na początku tego roku.
Spójrzmy na stos od dołu do góry:
- Rdzeń – Hadoop Runtime, niektóre wspólne narzędzia i system plików rozproszony Hadoop (HDFS). System plików jest zoptymalizowany do odczytu i zapisywania dużych bloków danych (128 MB do 256 MB).
- MapReduce – Zapewnia interfejsy API i komponenty do opracowywania i wykonywania zadań.
- Dostęp do danych – Najbardziej znane ramy dostępu do danych to HBASE, PIG i HIVE.
- Hbase -Zorientowana na kolumnę wielowymiarową bazę danych przestrzenną inspirowaną BigTable Google. HBASE zapewnia sortowany dostęp do danych, utrzymując partycje lub regiony danych. Podstawową pamięcią jest HDFS.
- Świnia (Łacińska) – język proceduralny, który zapewnia możliwości ładowania, filtrowania, transformacji, wyodrębniania, agregowania, łączenia i grupowania. Rozwijać
Pytania:
- Co to jest Apache Hadoop?
- Co to jest MapReduce?
- Co nazywa się nowa wyszukiwarka eBay?
- Jakie technologie są używane w wyszukiwarce eBay?
- Jakie są ulepszenia nowej wyszukiwarki w porównaniu do starego systemu?
- W jaki sposób dane są przechowywane w nowej wyszukiwarce?
- Jakie są wyzwania, przed którymi stoi eBay podczas korzystania z HBase?
- Ile danych przechowuje obecnie w klastrach Hadoop i Teradata?
- Co to jest HBase?
- Co to jest świnia?
- Jaki jest cel HDFS?
- Jaki jest cel Ateny?
- Jak długo zajęło zespół eBay, aby odbudować ich podstawowe wyszukiwanie witryny?
- Jaka jest skala nowego wyszukiwarki eBay?
- Jakie ulepszenia Hadoop wnosi do systemu wyszukiwania eBay?
Apache Hadoop to open source framework tolerancyjny na usterki, skalowalny, rozproszony obliczenia na sprzęcie towarowym. Został stworzony przez Douga Cutting w 2006 roku w oparciu o papier Mapreduce Google.
MapReduce to elastyczny model programowania do przetwarzania dużych zestawów danych. Występuje pary klucza/wartości jako wejście na etapie mapy i generuje pośrednie wyjście innego typu pary klucza/wartości. Krok zmniejszony przenosi klawisze wytwarzane w kroku mapy wraz z listą wartości powiązanych z tym samym kluczem w celu uzyskania ostatecznego wyjścia par kluczy/wartości.
Nowa wyszukiwarka eBay nazywa się Cassini.
Wyszukiwarka eBay używa Apache Hadoop do aktualizacji indeksu godzinowych i Apache HBase, aby zapewnić losowy dostęp do informacji o pozycji.
Nowa wyszukiwarka (Cassini) wykorzystuje 100 czynników do rankingu w porównaniu do starego systemu (Galileo), który wykorzystywał 10 czynników. Używa również wszystkich dostępnych danych, aby domyślnie pasuje, obsługuje zautomatyzowane wdrażanie, monitorowanie i remediację oraz zawiera 90 dni danych historycznych online.
Elementy są przechowywane w HBase, co pozwala na szybkie odczyty przedmiotów i zapisy do adnotacji przedmiotów.
Wyzwania w serwisie eBay, takie jak konfiguracja klastra produkcji, problemy ze sprzętem, stabilność serwerów regionu i master oraz monitorowanie HBase Health. Aktywnie pracują nad rozwiązaniem tych problemów.
eBay przechowuje obecnie 9 pb danych w klastrach Hadoop i Teradata.
HBASE to zorientowana na kolumnę wielowymiarową bazę danych przestrzenną inspirowaną dużym wyjazdem Google. Zapewnia posortowany dostęp do danych, utrzymując partycje lub regiony danych.
Pig to język proceduralny, który zapewnia możliwości ładowania, filtrowania, transformacji, wyodrębniania, agregowania, łączenia i grupowania danych.
HDFS (Hadoop rozproszony system plików) to podstawowa pamięć dla Hadoop. Jest zoptymalizowany do czytania i pisania dużych bloków danych.
Athena to duży klaster używany przez eBay do przetwarzania danych. Jest to część ekosystemu hadoop eBay.
Zespół eBay zajęła 18 miesięcy, aby całkowicie odbudować ich podstawowe wyszukiwanie witryny.
Nowa wyszukiwarka eBay, Cassini, będzie obsługiwać 97 milionów aktywnych nabywców i sprzedawców, obsługuje 250 milionów zapytań dziennie i ma 200 milionów przedmiotów w ponad 50 000 kategorii.
Hadoop umożliwia eBay generowanie różnych rodzajów indeksów w tym samym klastrze, przywracanie lub przeklasyfikowanie całego zapasu witryny i wykonywanie godzinowych zadań wsadowych w celu obsługi systemu wyszukiwania.
Hadoop – moc słonia
Ogólnie Williams uważał, że projekt był ambitny, ale poszedł szybko i dobrze, a zespół był w stanie wykorzystać Hadoop i HBase, aby zbudować znacznie ulepszone wrażenia wyszukiwania.
eBay przygotowuje wyszukiwanie nowej generacji zbudowane z Hadoop i HBase
eBay przedstawił przemówienie w Hadoop World, opisując architekturę jego całkowicie przebudowanej wyszukiwarki, Cassini, która ma się uruchomić w 2012 roku. Indeksuje wszystkie metadane treści i użytkowników, aby uzyskać lepsze rankingi i odświeża indeksy Co godzinę. Jest zbudowany za pomocą Apache Hadoop dla aktualizacji indeksu godzinowych i Apache HBase, aby zapewnić losowy dostęp do informacji o pozycji. Hugh e. Williams The VP Search, Experience i Platforms for eBay Marketplaces dostarczył klucz. Nowa platforma, Cassini, będzie obsługiwać:
- 97 milionów aktywnych nabywców i sprzedawców
- 250 milionów zapytań dziennie
- 200 milionów pozycji żyje w ponad 50 000 kategorii
eBay przechowuje już 9 pb danych w klastrach Hadoop i Teradata do analizy, ale będzie to ich pierwsza aplikacja produkcyjna, z której użytkownicy używają bezpośrednio. Nowy system będzie szerszy niż obecny (Galileo):
Stary system: Galileusz | Nowy system: Cassini |
---|---|
10 czynników używanych do rankingu | 100 czynników używanych do rankingu |
Domyślnie mecz tylko do tytułu | Użyj wszystkich danych, aby domyślnie pasować |
Ręczna interwencja do wdrażania, monitorowania, naprawy | Zautomatyzowane wdrażanie, monitorowanie, naprawa |
Cassini zatrzyma 90 dni danych historycznych online – obecnie 1 miliard pozycji i obejmuje dane użytkownika i behawioralne do rankingu. Większość prac wymaganych do obsługi systemu wyszukiwania odbywa się w godzinowych pracach, które działają w Hadoop. Wszystkie rodzaje indeksów zostaną wygenerowane w tym samym klastrze (poprawa w stosunku do Galileo, która miała różne klastry dla każdego rodzaju indeksowania). Środowisko Hadoop umożliwia eBay przywrócenie lub przeklasyfikowanie całego zapasu witryny w miarę tworzenia ulepszeń.
Elementy są przechowywane w HBase i są zwykle skanowane podczas aktualizacji indeksu godzinowego. Po liście nowego elementu, zostanie on sprawdzony w HBase i dodany do indeksu na żywo w ciągu kilku minut. HBASE pozwala również na zapisywanie elementów zbiorczych i przyrostowych oraz szybkie odczyty i zapisy do adnotacji przedmiotów.
Williams wskazał, że zespół był zaznajomiony z bieganiem Hadoopa i niezawodnie zadziałał z niewielkimi problemami. Natomiast wskazał, że „jazda do tej pory z HBase była wyboista.„Williams zauważył, że eBay pozostaje zaangażowany w technologię, przyczynia się do poprawek do znalezionych problemów, uczą się szybko i że ostatnie dwa tygodnie przeszły sprawnie. Zespół inżynierski był nowy w korzystaniu z HBASE i napotkał pewne problemy podczas testowania na skalę, takich jak:
* Konfiguracja klastra produkcyjnego dla ich obciążeń
* Problemy ze sprzętem
* Stabilność: niestabilne serwery regionu, niestabilny mistrz, regiony utknięte w przejściu
* Monitorowanie zdrowia HBase: Często problemy nie były wykryte, dopóki nie wpłyną na obsługę na żywo – zespół dodaje wiele monitorowania
* Zarządzanie wieloetapowymi pracami MapReduce
Ogólnie Williams uważał, że projekt był ambitny, ale poszedł szybko i dobrze, a zespół był w stanie wykorzystać Hadoop i HBase, aby zbudować znacznie ulepszone wrażenia wyszukiwania.
Hadoop – moc słonia
W poprzednim poście Junling omówił eksplorację danych i naszą potrzebę przetwarzania petabajtów danych w celu uzyskania informacji na podstawie informacji. Używamy kilku narzędzi i systemów, aby pomóc nam w tym zadaniu; ten ja’omówić tutaj Apache Hadoop.
Stworzony przez Douga Cutta w 2006 roku, który nazwał go od swojego syna’Składany żółty słonia i na podstawie Google’S Papie MapReduce W 2004 r.
MapReduce to elastyczny model programowania do przetwarzania dużych zestawów danych:
Mapa bierze pary klucza/wartości jako dane wejściowe i generuje pośrednie wyjście innego rodzaju par kluczy/wartości, a Zmniejszyć bierze klawisze wyprodukowane w kroku mapy wraz z listą wartości powiązanych z tym samym kluczem w celu wytworzenia ostatecznego wyjścia par klawiszu/wartości.
Mapa (Key1, wartość1) -> Lista (key2, wartość2)
Zmniejszyć (key2, lista (wartość2)) -> lista (key3, wartość3)
Ekosystem
Atena, nasza pierwsza duża klaster, została użyta na początku tego roku.
Pozwalać’S Spójrz na stos od dołu do góry:
- Rdzeń – Hadoop Runtime, niektóre wspólne narzędzia i system plików rozproszony Hadoop (HDFS). System plików jest zoptymalizowany do odczytu i zapisywania dużych bloków danych (128 MB do 256 MB).
- MapReduce – Zapewnia interfejsy API i komponenty do opracowywania i wykonywania zadań.
- Dostęp do danych – Najbardziej znane ramy dostępu do danych to HBASE, PIG i HIVE.
- Hbase – zorientowana na kolumnę wielowymiarową przestrzenną bazę danych inspirowaną Google’S Bigtable. HBASE zapewnia sortowany dostęp do danych, utrzymując partycje lub regiony danych. Podstawową pamięcią jest HDFS.
- Świnia(Łacina) – Język proceduralny, który zapewnia możliwości ładowania, filtrowania, transformacji, wyodrębniania, agregowania, łączenia i grupowania danych. Deweloperzy używają świni do budowania rurociągów danych i fabryk.
- Ul – Deklarujący język z składnią SQL używaną do budowy hurtowni danych. Interfejs SQL sprawia, że Hive jest atrakcyjnym wyborem dla programistów do szybkiej walidacji danych, menedżerów produktów i analityków.
Infrastruktura
Nasze serwery korporacyjne uruchamiają 64-bitowy Redhat Linux.
- Namenode Czy serwer główny jest odpowiedzialny za zarządzanie HDFS.
- Jobtracker jest odpowiedzialny za koordynację miejsc pracy i zadań związanych z pracą.
- Hbasemaster Przechowuje przechowywanie korzeni dla HBase i ułatwia koordynację z blokami lub obszarami pamięci.
- Zookeeper jest rozproszonym koordynatorem blokady zapewniającego spójność dla HBase.
Węzły przechowywania i obliczeniowe to jednostki 1U z Cent OS z 2 czterordzeniowymi maszynami i przestrzenią pamięci od 12 do 24 TB. Pakujemy nasze stojaki z 38 do 42 z tych jednostek, aby mieć bardzo gęstą sieć.
Po stronie sieci używamy górnej części przełączników stojaka z przepustowością węzła 1 Gb / s. Przełącza łącze w górę do przełączników podstawowych z prędkością linii 40 gpbs, aby obsługiwać wysoką przepustowość niezbędną do przesyłania danych.
Planowanie
Nasz klaster jest używany przez wiele zespołów w serwisie eBay, do produkcji, a także jednorazowej pracy. Używamy Hadoop’S Fair Scheduler do zarządzania alokacją, definiowania pul zadań dla zespołów, przypisywania wag, ograniczania jednoczesnych zadań na użytkownika i zespołu, ustal czas na pretony i opóźnione planowanie.
Pozyskiwanie danych
Codziennie spożywamy około 8 do 10 tb nowych danych.
Droga naprzód
Oto niektóre z wyzwań, nad którymi pracujemy, gdy budujemy naszą infrastrukturę:
- Skalowalność
W obecnym wcieleniu nazwa serwera głównego ma problemy z skalowanicznymi. W miarę wzrostu systemu plików klastra, podobnie jak powierzchnia pamięci, ponieważ utrzymuje całe metadane w pamięci. Dla 1 pb pamięci jest potrzebne około 1 GB pamięci. Możliwe rozwiązania to hierarchiczne partycjonowanie przestrzeni nazwy lub wykorzystanie Zookeeper w połączeniu z HBase do zarządzania metadanych. - Dostępność
Namenode’Dostępność S ma kluczowe znaczenie dla obciążeń produkcyjnych. Społeczność open source pracuje nad kilkoma zimnymi, ciepłymi i gorącymi opcjami gotowości, takimi jak punkt kontrolny i węzły zapasowe; Węzły awatarowe przełączające awatar z wtórnego nazwy; Techniki replikacji metadanych dziennika. Oceniamy je, aby zbudować nasze klastry produkcyjne. - Odkrycie danych
Wspieraj zarządzanie danymi, odkrywanie i zarządzanie schematami oprócz systemu, który z natury nie obsługuje struktury. Nowy projekt proponuje połączenie Hive’S Metadata Store and Owl w nowy system, o nazwie Howl. Naszym wysiłkiem jest powiązanie tego z naszą platformą analityczną, aby nasi użytkownicy mogli łatwo odkryć dane w różnych systemach danych. - Ruch danych
Pracujemy nad narzędziami do ruchu danych/subskrypcji w celu obsługi kopii danych i uzgadniania w naszych różnych podsystemach, takich jak magazyn danych i HDFS. - Zasady
Włącz dobre zatrzymywanie, archiwal i zasady tworzenia kopii zapasowych z zarządzaniem pojemnością przechowywania za pośrednictwem kwot (aktualne kwoty Hadoop potrzebują trochę pracy). Pracujemy nad definiowaniem ich w naszych różnych klastrach na podstawie obciążenia pracą i cechami klastrów. - Wskaźniki, wskaźniki, wskaźniki
Budujemy solidne narzędzia, które generują wskaźniki pozyskiwania danych, konsumpcji, budżetowania i wykorzystania. Istniejące wskaźniki ujawnione przez niektóre serwery Hadoop Enterprise są albo niewystarczające, albo przejściowe, które sprawiają, że wzorce zużycia klastrów trudne do zobaczenia.
eBay zmienia sposób, w jaki gromadzi, przekształca i wykorzystuje dane do generowania wywiadu biznesowego. My’Zatrudniamy, a my’Dam uwielbiam, że przyszedłeś pomóc.
Anil Madan
Dyrektor ds. Inżynierii, Analytics Platform DevelopmentJak eBay wykorzystuje duże dane i uczenie maszynowe do zwiększania wartości biznesowej
Cyfrowa transformacja, choć nie nowa, ogromnie zmieniła się wraz z pojawieniem się nowych technologii analizy dużych zbiorów danych i uczenia maszynowego. Kluczem do cyfrowej transformacji większości firmy jest wykorzystanie spostrzeżeń z różnych rodzajów danych we właściwym czasie. Na szczęście organizacje mają teraz dostęp do szerokiej gamy rozwiązań, aby osiągnąć ten cel.
Jak liderzy w przestrzeni zbliżają się do problemu? Niedawno przeprowadziłem dyskusję z Seshu Adetuthula, starszym dyrektorem infrastruktury analitycznej w serwisie eBay, aby omówić tę sprawę. eBay był zawsze działalnością cyfrową, ale nawet liderzy IT, które urodziły się, ponieważ firmy cyfrowe obejmują najnowsze technologie cyfrowe w celu ulepszenia istniejących procesów i budowania nowych doświadczeń. Według Adetuthula „Data jest najważniejszym zasobem eBay.„eBay zarządza około 1 miliardem list na żywo i 164 miliony aktywnych nabywców dziennie. Spośród nich eBay co tydzień otrzymuje 10 milionów nowych ofert za pośrednictwem telefonu komórkowego . Oczywiście firma jako duża ilość danych, ale kluczem do jej przyszłego sukcesu będzie to, jak szybko może przekształcić dane w spersonalizowane doświadczenie, które napędza sprzedaż.
Projektowanie i aktualizacja strategii technicznej
Pierwszym wyzwaniem, z którym zmaga się eBay, było znalezienie platformy, oprócz tradycyjnego magazynu danych, który był w stanie przechowywać ogromną ilość danych, które różniły się w zależności od typu. Adunuthula stwierdził, że rodzaj danych, struktura danych i wymagana prędkość analizy oznaczały, że firma musiała ewoluować z tradycyjnej struktury hurtowni danych do tego, co nazywa jeziorami danych. Na przykład firma musi przechowywać około dziewięć czwartych danych trendów historycznych, aby zapewnić wgląd w pozycje takie jak wzrost z roku na rok. Musi także przeanalizować dane w czasie rzeczywistym, aby pomóc kupującym w całym cyklu sprzedaży.
Możliwość wspierania danych na skalę firmy internetowej była kluczowa w wyborze technologii i partnerów. Firma postanowiła współpracować z produktem Hortonwork Hadoop, ponieważ oferowała platformę open source, która była wysoce skalowalna, a sprzedawca był gotów współpracować z eBay w celu projektowania ulepszeń produktów. Z fundamentem Hadoop i HortonWorks, pozostałe dwa elementy strategii platformy danych eBay są tym, co nazywa strumieniami i usługami.
Dużym wyzwaniem technicznym dla eBay i każdej firmy intensywnie wymagającej danych jest wdrożenie systemu, który może szybko analizować i działać na temat danych, gdy pojawia się w systemach organizacji (zwane danymi strumieniowymi). Istnieje wiele szybko ewoluujących metod obsługi analizy danych streamingowych. eBay pracuje obecnie z kilkoma narzędziami, w tym Apache Spark, Storm, Kafka i Hortonworks HDF. Warstwa usług danych strategii zapewnia funkcje, które umożliwiają firmie dostęp do danych. Pozwala analitykom danych firmy na wyszukiwanie tagów informacyjnych, które zostały powiązane z danymi (o nazwie Metadata) i sprawia, że możliwe jest to, że jak najwięcej osób z odpowiednim poziomem bezpieczeństwa i uprawnień (zwany zarządzaniem danymi) (zwany zarządzaniem danymi). Używa również interaktywnego silnika zapytania na Hadoop o nazwie Presto. Firma była na czele korzystania z rozwiązań Big Data i aktywnie wnosi swoją wiedzę z powrotem do społeczności open source.
Obecna strategia dużych zbiorów danych eBay reprezentuje kilka potencjalnych kombinacji i opcji, które są dostępne dla firm, które chcą przetworzyć dużą ilość danych, które nie są podobne w formacie i kombinacjach danych, które mogą wymagać analizy w czasie rzeczywistym lub przechowywane do analizy w późniejszym terminie. Oczywiście wybór rozwiązań Big Data zależy od tego, co próbujesz osiągnąć jako biznes.
Korzystanie z platformy dużych zbiorów danych i uczenia maszynowego do dostarczania wartości biznesowej
W przypadku eBay firma korzysta z dużych zbiorów danych i rozwiązań uczenia maszynowego w celu rozwiązania przypadków użycia, takich jak personalizacja, merchandising i testowanie A/B dla nowych funkcji w celu poprawy wrażenia użytkownika. Na przykład personalizacja eBay modeluje na pięć czwartych struktury (e.G. Jeden miliard ofert, zakupów itp.) i nieustrukturyzowane (streszczenie aktywności behawioralnej, chmury słów, odznaki itp.) dane. Merchandising ulepszony za pomocą analityki i uczenia maszynowego, aby pomóc zalecić podobne elementy na kluczowych lokalizacjach na stronie i telefonie komórkowym. Elementy, takie jak Deal Discovery, wykorzystuje uczenie maszynowe w celu znalezienia wzorców w strukturalnych danych. EBAY tworzy również predykcyjne modele uczenia maszynowego do wykrywania oszustw, przejęcia konta i umożliwiającego prognozowanie ryzyka kupującego/sprzedawcy. Oczywiście eBay spędził ogromny czas i zasoby na osiągnięcie tego poziomu wiedzy specjalistycznej w zakresie przetwarzania danych i poprawy przepływu pracy. Dla eBay i wielu innych podróży jest daleka od końca. Firma chce nadal optymalizować analizy strumieniowe i zwiększyć zarządzanie danymi.
Co powinieneś zrobić dalej?
Dla tych firm, które zaczynają się, Adetuthula zaoferowała kilka słów mędrca. Największym wyzwaniem jest zarządzanie danymi i zapobieganie, aby stać się dzikim Zachodem. Firma nie może po prostu zrzucić wszystkiego do systemu i martwić się późniejszym zarządzaniem. Jeśli dziś budujesz strategię danych, zacznij od zarządzania.
Przykłady tego mogą obejmować zdefiniowanie procesu umożliwiania dostępu do różnych osób i sposobu włączenia zgodności z PCI w zestawach danych dla sprzedawców detalicznych. Strategia powinna nakreślić sposób, w jaki dane można wykryć i jak rozwinąć proces. Zauważył, że istnieją nowe rozwiązania, takie jak Atlas i Navigator, pojawiające się dzisiaj. Jednak krajobraz nieustannie się zmienia. Jeśli dzisiaj zaczynasz podróż, firma może wprowadzić zarządzanie danymi przed budowaniem masowych zestawów danych, hurtowni danych i jezior danych. Łatwiej jest dodać zarządzanie danymi na początku procesu.
Od dyskusji z moimi klientami dowiedziałem się, że istnieje kilka ważnych kroków w budowaniu strategii dużych zbiorów danych, która obejmuje:
- Definiowanie szybkiej wygranej i długoterminowego przypadku użycia. Budowanie ciasno rozstrzygniętego przypadku użycia jest niezbędne do uzyskania finansowania i wykazania natychmiastowej wartości w stosunku do strategii danych. Na przykład wiele firm definiuje przypadek użycia, który obejmuje połączenie i analizę nowych źródeł danych w celu zrozumienia zachowań zakupowych. Wybór wąskiego przypadku użycia pozwala analitykom danych testować nowe technologie i dostarczać nowe informacje.
- Ocena, czego potrzebujesz u partnera danych. eBay ma wyrafinowany zespół inżynierski i wie, co próbował osiągnąć. Firma szukała partnera, który pomoże zapewnić skalę i pomoc w poprawie rozwiązań open source. Firma może również potrzebować swojego partnera, aby zapewnić więcej szkoleń, usług konsultingowych i architektur referencyjnych opartych na branży.
- Budowanie odpowiedniego ekosystemu. Nie ma jednego rozwiązania do przechowywania danych i analizy, które rozwiąże wszystkie przypadki użycia firmy. W niektórych obszarach istniejące rozwiązania firmy w magazynie danych działają idealnie. W innych przypadkach będziesz potrzebować analizy przesyłania strumieniowego. Podobnie nie ma jednego narzędzia ani dostawcy, które zapewni wszystko, czego potrzebujesz. Dzisiejszy świat analizy danych wymaga ekosystemu narzędzi i partnerów. Poszukaj partnerstwa między dostawcami, które złagodzą wyzwania związane z integracją.
- Szukam nowych przypadków użycia. Zamiast replikować to, co masz, firma powinna szukać sposobów nabycia i analizy nowych danych w celu ulepszenia procesów biznesowych. Częścią korzyści z tych nowych narzędzi danych i analizy jest odkrycie wzorców, anomalii i nowych spostrzeżeń, które nie istniały w systemie analizy danych starszych. Liderzy biznesu powinni z nim współpracować, aby poszukać sposobów, w jakie nowe rozwiązania do przechowywania danych i analizy mogą odpowiedzieć na pytania, na które w przeszłości nie było łatwe.
Czy eBay używa hadoop?
- CIO przyjmują zdolność adaptacyjną organizacyjną, odporność IT i inni dyrektorzy technologiczni przygotowują swoje organizacje, robią to, co potrzeba, aby zachować elastyczność w okresie nieprzewidywalnych .
- FTC analizuje konkurencję w zakresie przetwarzania w chmurze Federalna Komisja Handlu Bada wpływ garstki dużych firm technologicznych, takich jak Amazon, Microsoft i Google .
- U.S. Kryzys zadłużenia mógłby uderzyć w kontrahentów rządowych Twardości wykonawcy rządowi powinni teraz przygotować się na U.S. do niewykonania zobowiązania do długu, co spowodowałoby zatrzymanie płatności między innymi .
- Zamknięcie książki o konferencji RSA 2023 AI, Cloud Security, SOC Modernization i Higiena Security Management i zarządzanie postawą były gorącymi tematami w RSAC w San Francisco .
- Chińskie Apt Exploits TP-Link Router oprogramowania za pośrednictwem Implant Chect Point Software Technologies powiedział, że złośliwy implant, który przypisał chińskiej apt „Camaro Dragon”, był oprogramowaniem układowym .
- Chronić przed bieżącymi i przyszłymi zagrożeniami z obecnością szyfrowania i przyszłych zagrożeń cyber .
- Sonic NOS stoi w obliczu wyzwań związanych z głównym nurtem Gartner szacuje, że mniej niż 200 przedsiębiorstw ma Sonic w produkcji, z potencjalnego rynku centrum danych wynoszących 100 000. Jeden.
- 12 wspólnych protokołów sieciowych i ich funkcje wyjaśnione sieci sprawia, że Internet działa, ale żaden z nich nie może odnieść sukcesu bez protokołów. Wspólne protokoły sieciowe i ich funkcje to .
- Python Interpreter vs. IDE: Co inżynierowie sieci powinni wiedzieć, korzystając z Pythona do automatyzacji sieci, inżynierowie sieci często pracują z tłumaczami i zintegrowanym środowiskiem programistycznym .
- Spraw, aby operacje mainframe były wydajne z tymi strategiami komputerów mainframe wpływają na wyniki organizacji. Ekspert określa niektóre kluczowe strategie utrzymania niezawodności przy zachowaniu zachowania .
- Jak korzystać z ChatGPT do zarządzania aplikacjami mainframe CHATGPT może pomóc administratorom zarządzać aplikacjami mainframe poprzez konwersję, optymalizację i ulepszanie kodu. Może także tworzyć .
- Przeglądaj wpływ obliczeń kwantowych na kryptografię, gdy dostępne komputery kwantowe, wiele rodzajów szyfrowania będzie wrażliwych. Dowiedz się, dlaczego i co jest badane, aby .
- Qlik kończy zakup talend, wzmacnia pakiet integracji z akwizycją, długoletni dostawca analityki dodaje podejście do tkaniny danych i ulepszona jakość danych i sprawność zarządzania .
- Bazy danych mainframe uczą starego psa nowych sztuczek przetrwania, które od dawna przewidują, że znikną na korzyść bardziej nowoczesnych architektur, mainframe nadal odgrywają integralną rolę w korporacyjnym IT .
- Siatka danych vs. Inne opcje zarządzania danymi Siatka danych przyjmuje zdecentralizowane podejście do zarządzania danymi i wynikającą wartość z danych. Dzieli podobieństwa z danymi .