하프 – 코끼리의 힘

전반적으로 Williams는 프로젝트가 야심적 이었지만 빠르고 잘 진행되었으며 팀은 Hadoop 및 HBase를 사용하여 검색 경험을 크게 향상시킬 수 있다고 생각했습니다.

eBay Readies 차세대 검색 Hadoop 및 HBase와 함께 구축되었습니다

eBay는 Hadoop World에서 기조 연설을 발표하여 완전히 재건 된 검색 엔진 인 Cassini의 아키텍처를 설명했습니다. 그것은 모든 컨텐츠와 사용자 메타 데이터를 색인화하여 더 나은 순위를 생성하고 시간당 인덱스를 새로 고칩니다. 항목 정보에 대한 임의의 액세스를 제공하기 위해 시간당 인덱스 업데이트 및 Apache HBase 용 Apache Hadoop을 사용하여 구축되었습니다. 휴 E. eBay Marketplaces의 VP 검색, 경험 및 플랫폼 인 Williams는 기조 연설을 제공하여 100 명 이상의 엔지니어가 eBay의 핵심 사이트 검색을 완전히 재건하기 위해 18 개월 이상의 노력으로 규모, 기술 및 경험을 설명했습니다. 새로운 플랫폼 인 Cassini는 다음을 지원합니다

  • 9,700 만 명의 활동적인 구매자 및 판매자
  • 하루에 2 억 5 천만 쿼리
  • 2 억 항목은 5 만 개가 넘는 카테고리에 살고 있습니다

eBay는 이미 분석을 위해 Hadoop 및 Teradata 클러스터에 9 PB의 데이터를 저장하지만 사용자가 직접 사용하는 첫 번째 프로덕션 응용 프로그램입니다. 새로운 시스템은 현재 시스템 (갈릴레오)보다 더 광범위 할 것입니다

오래된 시스템 : 갈릴레오 새로운 시스템 : 카시니
순위에 사용되는 요인 10 순위에 사용되는 100 가지 요인
기본적으로 제목 전용 일치 기본적으로 일치하는 모든 데이터를 사용하십시오
롤아웃, 모니터링, 개선을위한 수동 중재 자동화 된 롤아웃, 모니터링, 개선

Cassini는 90 일의 과거 데이터를 온라인으로 유지합니다 – 현재 10 억 항목, 순위에 대한 사용자 및 행동 데이터를 포함합니다. 검색 시스템을 지원하는 데 필요한 대부분의 작업은 Hadoop에서 실행되는 시간당 배치 작업에서 수행됩니다. 다른 종류의 인덱스는 모두 동일한 클러스터에서 생성됩니다 (갈릴레오에 대한 개선, 각 종류의 인덱싱에 대해 다른 클러스터가 있습니다). Hadoop 환경을 통해 Ebay는 개선이 생성됨에 따라 전체 사이트 인벤토리를 복원하거나 재 분류 할 수 있습니다.

항목은 HBase에 저장되며 일반적으로 시간당 인덱스 업데이트 중에 스캔됩니다. 새 항목이 나열되면 HBase에서 찾아서 몇 분 안에 라이브 인덱스에 추가됩니다. HBase는 또한 대량 및 증분 항목 쓰기를 허용하고 빠른 항목은 항목 주석에 대한 읽기 및 쓰기를 허용합니다.

Williams는 팀이 Hadoop 달리기에 익숙했으며 몇 가지 문제로 안정적으로 일했다고 지적했습니다. 대조적으로, 그는 “지금까지 HBase와 함께 타는 것은 울퉁불퉁했다.. 엔지니어링 팀은 HBASE를 사용하는 데 새로운 것이었고 규모로 테스트 할 때 다음과 같은 몇 가지 문제를 해결했습니다

  • 워크로드에 대한 프로덕션 클러스터 구성
  • 하드웨어 문제
  • 안정성 : 불안정한 지역 서버, 불안정한 마스터, 지역이 전환에 갇혀 있습니다
  • HBASE 건강 모니터링 : 라이브 서비스에 영향을 미치기 전까지는 종종 문제가 감지되지 않았습니다. 팀은 많은 모니터링을 추가하고 있습니다
  • 다단계 Mapreduce 작업 관리

전반적으로 Williams는 프로젝트가 야심적 이었지만 빠르고 잘 진행되었으며 팀은 Hadoop 및 HBase를 사용하여 검색 경험을 크게 향상시킬 수 있다고 생각했습니다.

하프 – 코끼리의 힘

. 우리는이 작업에 도움이되는 여러 도구와 시스템을 사용합니다. 여기서 논의 할 것은 Apache Hadoop입니다.

.

MapReduce는 큰 데이터 세트를 처리하기위한 유연한 프로그래밍 모델입니다
지도 키/값 쌍을 입력으로 취하고 다른 유형의 키/값 쌍의 중간 출력을 생성하는 동안 줄이다 키/값 쌍의 최종 출력을 생성하기 위해 동일한 키와 관련된 값 목록과 함께 맵 단계에서 생성 된 키를 가져옵니다.

지도 (key1, value1) -> list (key2, value2)
(key2, list (value2)) -> list (key3, value3)

생태계

하프 스택

Athena, 우리의 첫 번째 대형 클러스터는 올해 초에 사용되었습니다.
아래에서 맨 위로 스택을 살펴 보겠습니다

  • 핵심 . 파일 시스템은 큰 데이터 블록 (128MB ~ 256MB)을 읽고 쓰는 데 최적화되었습니다.
  • Mapreduce – 작업을 개발하고 실행하기위한 API 및 구성 요소를 제공합니다.
  • 데이터 접근 .
    • -Google의 Bigtable에서 영감을 얻은 열 지향 다차원 공간 데이터베이스. HBase는 파티션 또는 데이터 영역을 유지하여 정렬 된 데이터 액세스를 제공합니다. 기본 스토리지는 HDF입니다.
    • 돼지 (라틴) -로드, 필터, 변환, 추출, 집계, 조인 및 그룹 데이터에 대한 기능을 제공하는 절차 적 언어. 개발하다

질문:

  1. Apache Hadoop이란 무엇입니까??
  2. Apache Hadoop. Google의 Mapreduce Paper를 기반으로 2006 년 Doug Cutting에 의해 만들어졌습니다.

  3. mapreduce는 무엇입니까??
  4. MapReduce는 큰 데이터 세트를 처리하기위한 유연한 프로그래밍 모델입니다. 맵 단계의 입력으로 키/값 쌍이 필요하고 다른 키/값 쌍 유형의 중간 출력을 생성합니다. 감소 단계는 맵 단계에서 생성 된 키를 동일한 키와 관련된 값 목록과 함께 키/값 쌍의 최종 출력을 생성합니다.

  5. eBay의 새로운 검색 엔진은 무엇입니까??
  6. .

  7. ?
  8. eBay의 검색 엔진은 Apache Hadoop을 사용하여 시간당 인덱스 업데이트 및 Apache HBase를 사용하여 항목 정보에 대한 무작위 액세스를 제공합니다.

  9. 이전 시스템에 비해 새로운 검색 엔진의 개선은 무엇입니까??
  10. 새로운 검색 엔진 (Cassini)은 10의 요소를 사용한 기존 시스템 (Galileo)과 비교하여 순위 100의 요소를 사용합니다. 또한 사용 가능한 모든 데이터를 기본적으로 일치시키고 자동화 된 롤아웃, 모니터링 및 치료를 지원하며 90 일의 과거 데이터를 온라인으로 포함합니다.

  11. 새로운 검색 엔진에 데이터가 저장되는 방법?
  12. 항목은 HBase에 저장되며 빠른 항목 읽기 및 항목 주석에 대한 쓸 수 있습니다.

  13. HBase를 사용할 때 eBay가 직면 한 몇 가지 과제는 무엇입니까??
  14. . 그들은 이러한 문제를 해결하기 위해 적극적으로 노력하고 있습니다.

  15. eBay가 현재 Hadoop 및 Teradata 클러스터에 저장하는 데이터는 얼마입니까??
  16. .

  17. HBASE 란 무엇입니까??
  18. HBase는 Google의 Bigtable에서 영감을 얻은 열 지향 다차원 공간 데이터베이스입니다. 파티션 또는 데이터 영역을 유지하여 정렬 된 데이터 액세스를 제공합니다.

  19. 돼지 란 뭐야?
  20. 돼지는로드, 필터, 변환, 추출, 집계, 조인 및 그룹 데이터를 제공하는 기능을 제공하는 절차 적 언어입니다.

  21. HDF의 목적은 무엇입니까??
  22. HDFS (Hadoop 분산 파일 시스템)는 Hadoop의 기본 스토리지입니다. 큰 데이터 블록을 읽고 쓰는 데 최적화됩니다.

  23. 아테나의 목적은 무엇입니까??
  24. Athena는 데이터 처리를 위해 eBay에서 사용하는 큰 클러스터입니다. eBay의 Hadoop 생태계의 일부입니다.

  25. eBay의 팀이 핵심 사이트 검색을 재건하는 데 얼마나 걸렸습니까??
  26. 핵심 사이트 검색을 완전히 재건하는 데 eBay의 팀이 18 개월이 걸렸습니다.

  27. eBay의 새로운 검색 엔진의 규모는 얼마입니까??
  28. eBay의 새로운 검색 엔진 인 Cassini는 9,700 만 명의 활성 구매자 및 판매자를 지원하고 하루에 2 억 5 천만 개 쿼리를 처리하며 5 만 개가 넘는 범주에 2 억 품목이 있습니다.

  29. Hadoop이 Ebay의 검색 시스템에 가져 오는 개선 사항?
  30. Hadoop은 Ebay가 동일한 클러스터에서 다양한 종류의 인덱스를 생성하고 전체 사이트 인벤토리를 복원 또는 재 분류하며 검색 시스템을 지원하기 위해 시간당 배치 작업을 수행 할 수 있습니다.

하프 – 코끼리의 힘

전반적으로 Williams는 프로젝트가 야심적 이었지만 빠르고 잘 진행되었으며 팀은 Hadoop 및 HBase를 사용하여 검색 경험을 크게 향상시킬 수 있다고 생각했습니다.

eBay Readies 차세대 검색 Hadoop 및 HBase와 함께 구축되었습니다

eBay는 Hadoop World에서 기조 연설을 발표하여 완전히 재건 된 검색 엔진 인 Cassini의 아키텍처를 설명했습니다. 그것은 모든 컨텐츠와 사용자 메타 데이터를 색인화하여 더 나은 순위를 생성하고 시간당 인덱스를 새로 고칩니다. . 휴 E. Williams eBay Marketplaces의 VP 검색, 경험 및 플랫폼은 기조 연설을 전달했으며, 100 명 이상의 엔지니어가 eBay의 핵심 사이트 검색을 완전히 재건하기 위해 18 개월 이상의 엔지니어의 규모, 기술 및 경험을 설명했습니다. 새로운 플랫폼 인 Cassini는 다음을 지원합니다

  • 9,700 만 명의 활동적인 구매자 및 판매자
  • 하루에 2 억 5 천만 쿼리
  • 2 억 항목은 5 만 개가 넘는 카테고리에 살고 있습니다

eBay는 이미 분석을 위해 Hadoop 및 Teradata 클러스터에 9 PB의 데이터를 저장하지만 사용자가 직접 사용하는 첫 번째 프로덕션 응용 프로그램입니다. 새로운 시스템은 현재 시스템 (갈릴레오)보다 더 광범위 할 것입니다

오래된 시스템 : 갈릴레오 새로운 시스템 : 카시니
순위에 사용되는 요인 10 순위에 사용되는 100 가지 요인
기본적으로 제목 전용 일치 기본적으로 일치하는 모든 데이터를 사용하십시오
롤아웃, 모니터링, 개선을위한 수동 중재 자동화 된 롤아웃, 모니터링, 개선

. 검색 시스템을 지원하는 데 필요한 대부분의 작업은 Hadoop에서 실행되는 시간당 배치 작업에서 수행됩니다. 다른 종류의 인덱스는 모두 동일한 클러스터에서 생성됩니다 (갈릴레오에 대한 개선, 각 종류의 인덱싱에 대해 다른 클러스터가 있습니다). Hadoop 환경을 통해 Ebay는 개선이 생성됨에 따라 전체 사이트 인벤토리를 복원하거나 재 분류 할 수 있습니다.

항목은 HBase에 저장되며 일반적으로 시간당 인덱스 업데이트 중에 스캔됩니다. 새 항목이 나열되면 HBase에서 찾아서 몇 분 안에 라이브 인덱스에 추가됩니다. HBase는 또한 대량 및 증분 항목 쓰기를 허용하고 빠른 항목은 항목 주석에 대한 읽기 및 쓰기를 허용합니다.

Williams는 팀이 Hadoop 달리기에 익숙했으며 몇 가지 문제로 안정적으로 일했다고 지적했습니다. 대조적으로 그는 “지금까지 HBase와 함께 타는 것은 울퉁불퉁했다.”Williams는 eBay가 기술에 전념하고 있으며, 발견 된 문제에 대한 수정을 기여하고 있으며, 빠르게 학습하고 있으며 지난 2 주가 순조롭게 진행되었다고 지적했습니다. 엔지니어링 팀은 HBASE를 사용하는 데 새로운 것이었고 규모로 테스트 할 때 다음과 같은 몇 가지 문제를 해결했습니다

* 워크로드에 대한 생산 클러스터 구성

* 하드웨어 문제

* 안정성 : 불안정한 지역 서버, 불안정한 마스터, 지역이 전환중인 지역

* HBASE 건강 모니터링 : 라이브 서비스에 영향을 미치기 전까지는 종종 문제가 감지되지 않았습니다. 팀은 많은 모니터링을 추가하고 있습니다

* 다중 단계 MapReduce 작업 관리

전반적으로 Williams는 프로젝트가 야심적 이었지만 빠르고 잘 진행되었으며 팀은 Hadoop 및 HBase를 사용하여 검색 경험을 크게 향상시킬 수 있다고 생각했습니다.

. 우리는이 작업에 도움이되는 여러 도구와 시스템을 사용합니다. 하나 I’여기서 논의는 Apache Hadoop입니다.

2006 년 Doug Cutting이 그의 아들의 이름을 따서 명명했습니다’S는 노란 코끼리를 채워서 Google을 기반으로합니다’S Mapreduce Paper 2004 년 Hadoop은 상품 하드웨어에 대한 내결함성, 확장 가능한 분산 컴퓨팅을위한 오픈 소스 프레임 워크입니다.

MapReduce는 큰 데이터 세트를 처리하기위한 유연한 프로그래밍 모델입니다
지도 키/값 쌍을 입력으로 취하고 다른 유형의 키/값 쌍의 중간 출력을 생성하는 동안 키/값 쌍의 최종 출력을 생성하기 위해 동일한 키와 관련된 값 목록과 함께 맵 단계에서 생성 된 키를 가져옵니다.

지도 (key1, value1) -> list (key2, value2)
줄이다 (key2, list (value2)) -> list (key3, value3)

생태계

하프 스택

Athena, 우리의 첫 번째 대형 클러스터는 올해 초에 사용되었습니다.
허락하다’s 스택을 아래에서 상단으로보십시오

  • 핵심 – Hadoop 런타임, 일부 공통 유틸리티 및 Hadoop 분산 파일 시스템 (HDFS). 파일 시스템은 큰 데이터 블록 (128MB ~ 256MB)을 읽고 쓰는 데 최적화되었습니다.
  • Mapreduce – 작업을 개발하고 실행하기위한 API 및 구성 요소를 제공합니다.
  • 데이터 접근 – 오늘날 가장 두드러진 데이터 액세스 프레임 워크는 HBASE, PIG 및 HIVE입니다.
    • HBASE – Google에서 영감을 얻은 칼럼 방향 다차원 공간 데이터베이스’s bigtable. HBase는 파티션 또는 데이터 영역을 유지하여 정렬 된 데이터 액세스를 제공합니다. 기본 스토리지는 HDF입니다.
    • 돼지(라틴어) -로드, 필터, 변환, 추출, 집계, 조인 및 그룹 데이터를 제공하는 기능을 제공하는 절차 적 언어. .
    • 하이브 – 데이터웨어 하우스 구축에 사용되는 SQL 구문이있는 선언적 언어. SQL 인터페이스는 개발자가 데이터를 신속하게 검증, 제품 관리자 및 분석가를위한 매력적인 선택으로 만듭니다.

    하부 구조

    엔터프라이즈 서버는 64 비트 Redhat Linux를 실행합니다.

    • 나 메노 노드 HDFS 관리를 담당하는 마스터 서버입니다.
    • JobTracker .
    • HBASEMASTER HBASE 용 루트 저장소를 저장하고 블록 또는 저장 영역과의 조정을 용이하게합니다.
    • 동물원 키퍼 HBase에 일관성을 제공하는 분산 잠금 코디네이터입니다.

    스토리지 및 컴퓨팅 노드는 2 개의 쿼드 코어 머신과 12 ~ 24TB의 저장 공간이있는 센트 OS를 실행하는 1U 장치입니다. 우리는 매우 밀도가 높은 그리드를 갖기 위해이 유닛 중 38 ~ 42 개로 랙을 포장합니다.

    . 랙은 40GPB의 라인 속도로 코어 스위치로 업 링크를 전환하여 데이터를 뒤섞는 데 필요한 높은 대역폭을 지원합니다.

    일정

    우리의 클러스터는 eBay 내의 많은 팀에서 생산 및 일회성 작업에 사용됩니다. 우리는 Hadoop을 사용합니다’할당을 관리하고, 팀의 작업 풀을 정의하고, 가중치를 할당하고, 사용자 및 팀당 동시 작업을 제한하고, 선점 시간 초과 및 지연된 일정을 설정하는 공정한 스케줄러.

    데이터 소싱

    데이터 소싱

    매일 우리는 약 8-10TB의 새로운 데이터를 섭취합니다.

    앞으로 도로

    우리가 인프라를 구축 할 때 우리가 작업하고있는 몇 가지 과제는 다음과 같습니다

    • 확장 성
      현재 화신에서 마스터 서버 나 메노 노드에는 확장 성 문제가 있습니다. 클러스터의 파일 시스템이 커짐에 따라 전체 메타 데이터를 메모리에 유지함에 따라 메모리 풋 프린트도 증가합니다. 1 PB의 저장 용은 약 1GB의 메모리가 필요합니다. 가능한 솔루션은 계층 적 네임 스페이스 파티셔닝 또는 메타 데이터 관리를 위해 HBase와 함께 Zookeeper를 활용합니다.
    • 유효성
      나 메노 노드’. 오픈 소스 커뮤니티는 체크 포인트 및 백업 노드와 같은 차갑고 따뜻하며 핫 대기 옵션을 연구하고 있습니다. 아바타 노드는 2 차 나메 노드에서 아바타를 전환합니다. 저널 메타 데이터 복제 기술. .
    • 데이터 발견
      본질적으로 구조를 지원하지 않는 시스템 위의 데이터 관리, 발견 및 스키마 관리 지원. 새로운 프로젝트는 Hive를 결합 할 것을 제안하고 있습니다’s 메타 데이터 저장소와 올빼미는 Howl이라는 새로운 시스템으로. 우리의 노력은 사용자가 다른 데이터 시스템에서 데이터를 쉽게 발견 할 수 있도록 분석 플랫폼에이를 연결하는 것입니다.
    • 데이터 이동
      우리는 Data Warehouse 및 HDFS와 같은 다른 하위 시스템의 데이터 사본 및 조정을 지원하기 위해 게시/구독 데이터 이동 도구를 연구하고 있습니다.
    • 정책
      할당량을 통해 스토리지 용량 관리를 통해 좋은 유지, 보관 및 백업 정책을 활성화합니다 (현재 Hadoop 할당량에는 일부 작업이 필요합니다). 우리는 워크로드와 클러스터의 특성을 기반으로 다른 클러스터에서이를 정의하기 위해 노력하고 있습니다.
    • 메트릭, 메트릭, 메트릭
      우리는 데이터 소싱, 소비, 예산 및 활용에 대한 메트릭을 생성하는 강력한 도구를 구축하고 있습니다. 일부 Hadoop Enterprise 서버에서 노출 된 기존 메트릭은 충분하지 않거나 클러스터 사용 패턴을보기가 어렵습니다.

    eBay는 수집, 변환 및 데이터를 사용하여 비즈니스 인텔리전스를 생성하는 방식을 바꾸고 있습니다. 우리’다시 고용, 그리고 우리’D 도와주는 것을 좋아합니다.

    Anil Madan
    분석 플랫폼 개발 이사

    eBay가 빅 데이터 및 머신 러닝을 사용하여 비즈니스 가치를 높이는 방법

    디지털 혁신은 새로운 것이 아니지만 빅 데이터 분석 및 기계 학습을위한 새로운 기술의 출현으로 엄청나게 변화했습니다. 대부분의 회사의 디지털 혁신 노력의 핵심은 적시에 다양한 유형의 데이터에서 통찰력을 활용하는 것입니다. 다행히도 조직은 이제이 목표를 달성하기 위해 광범위한 솔루션에 액세스 할 수 있습니다.

    우주의 지도자들이 오늘날 문제에 어떻게 접근하고 있습니까?? 나는 최근 eBay의 Analytics Infrastructure 수석 이사 인 Seshu Adunuthula와 논의 하여이 문제에 대해 논의했습니다. eBay는 항상 디지털 비즈니스 였지만 디지털 비즈니스로 태어난 회사의 리더조차도 최신 디지털 기술을 수용하여 기존 프로세스를 향상시키고 새로운 경험을 구축하고 있습니다. Adunuthula에 따르면 “데이터는 eBay의 가장 중요한 자산입니다.”eBay는 약 10 억 개의 라이브 리스팅과 1 억 6 천 6 백만 명의 활성 구매자를 관리하고 있습니다. 이 중 eBay는 매주 모바일을 통해 1 천만 개의 새로운 목록을받습니다 . 분명히, 회사는 대량의 데이터 인 회사는 미래의 성공의 핵심은 데이터가 판매를 유도하는 개인화 된 경험으로 데이터를 얼마나 빨리 전환 할 수 있는지입니다.

    기술 전략 설계 및 업데이트

    eBay가 씨름 한 첫 번째 과제는 기존 데이터웨어 하우스 외에도 플랫폼을 찾는 것이 었습니다. Adunuthula는 데이터 유형, 데이터 구조 및 필요한 분석 속도가 회사가 전통적인 데이터웨어 하우스 구조에서 데이터 호수라고하는 것까지 진화해야한다고 말했습니다. 예를 들어, 회사는 약 9/4 분기의 역사적 트렌드 데이터를 유지해야합니다. 또한 판매주기 동안 쇼핑객을 지원하기 위해 실시간으로 데이터를 분석해야합니다.

    인터넷 회사의 규모로 데이터를 지원하는 능력은 기술 및 파트너 선택에서 중요한 고려 사항이었습니다. 이 회사는 Hortonwork의 Hadoop 제품과 협력하기로 결정했습니다. 확장 가능성이 높은 오픈 소스 플랫폼을 제공했으며 공급 업체는 eBay와 협력하여 제품 향상을 설계했습니다. Hadoop과 Hortonworks의 기초를 통해 Ebay의 데이터 플랫폼 전략의 다른 두 구성 요소는 스트림 및 서비스라고 부릅니다.

    eBay와 모든 데이터 집약적 인 비즈니스에 대한 큰 기술적 과제는 조직의 시스템 (스트리밍 데이터라고 함)에 도달 할 때 데이터를 신속하게 분석하고 행동 할 수있는 시스템을 배포하는 것입니다. 스트리밍 데이터 분석을 지원하기위한 빠르게 진화하는 많은 방법이 있습니다. eBay는 현재 Apache Spark, Storm, Kafka 및 Hortonworks HDF를 포함한 여러 도구로 작업하고 있습니다. 전략의 데이터 서비스 계층은 회사가 데이터에 액세스하고 쿼리 할 수있는 기능을 제공합니다. 회사의 데이터 분석가는 데이터 (메타 데이터라고 함)와 관련된 정보 태그를 검색하고 올바른 수준의 보안 및 권한 (데이터 거버넌스라고 함)으로 가능한 많은 사람들에게 소비 할 수 있도록합니다. 또한 Presto라는 Hadoop에서 대화식 쿼리 엔진을 사용하고 있습니다. .

    eBay의 현재 빅 데이터 전략은 나중에 실시간으로 분석하거나 분석하기 위해 저장해야 할 데이터의 형식 및 조합에서 유사하지 않은 대량의 데이터를 처리하려는 회사에서 사용할 수있는 잠재적 조합 및 옵션 중 일부를 나타냅니다. 물론, 빅 데이터 솔루션의 선택은 비즈니스로서 달성하려는 것에 달려 있습니다.

    비즈니스 가치를 제공하기 위해 빅 데이터 및 머신 러닝 플랫폼 사용

    eBay의 경우, 회사는 빅 데이터 및 머신 러닝 솔루션을 사용하여 개인화, 상품화 및 A/B 테스트와 같은 사용 사례를 해결하여 사용자의 경험을 향상시킵니다. 예를 들어, eBay 모델은 5/4의 구조화 된 개인화 (E.g. 10 억 리스팅, 구매 등.) 및 비 구조화 (행동 활동 개요, 단어 구름, 배지 등.) 데이터. 분석 및 머신 러닝을 사용하여 상품을 개선하여 현장 및 모바일의 주요 배치에서 유사한 항목을 추천합니다. Deal Discovery와 같은 항목은 기계 학습을 사용하여 구조화 된 데이터에서 패턴을 찾습니다. eBay는 또한 사기 탐지, 계정 인수 및 구매자/판매자 위험 예측 가능에 대한 예측 머신 러닝 모델을 만들었습니다. 분명히, eBay는 데이터 처리 및 비즈니스 워크 플로 향상에 대한 이러한 수준의 전문 지식을 달성하는 데 엄청난 시간과 리소스를 보냈습니다. eBay와 다른 많은 사람들에게는 여정이 끝나지 않습니다. 회사는 스트리밍 분석을 계속 최적화하고 데이터 거버넌스 향상을 원합니다.

    다음에 무엇을해야합니까??

    시작한 회사들에게 Adunuthula는 Sage Advice의 몇 마디를 제공했습니다. 가장 큰 과제는 데이터 거버넌스와 Wild West가되는 것을 방지하는 것입니다. 비즈니스는 모든 것을 시스템에 버릴 수 없으며 나중에 거버넌스에 대해 걱정할 수 없습니다. 오늘 데이터 전략을 구축하는 경우 거버넌스부터 시작하십시오.

    이것의 예에는 다른 사람들에 대한 액세스를위한 프로세스 정의와 소매 업체의 데이터 세트에서 PCI 준수를 가능하게하는 방법이 포함될 수 있습니다. 전략은 데이터를 발견 할 수있는 방법과 프로세스를 발전시키는 방법을 설명해야합니다. 그는 오늘날 Atlas 및 Navigator와 같은 새로운 솔루션이 있다고 언급했습니다. 그러나 풍경은 지속적으로 변합니다. . 프로세스 시작시 데이터 거버넌스를 추가하는 것이 더 쉽습니다.

    고객과의 토론에서, 나는 다음을 포함하는 빅 데이터 전략을 구축하는 데 몇 가지 중요한 단계가 있다는 것을 알게되었습니다

    • 빠른 승리 및 장기 사용 사례 정의. 자금을 확보하고 데이터 전략 노력에서 즉각적인 가치를 보여주기 위해서는 엄격하게 범위가 늘어난 사용 사례를 구축하는 것이 필수적입니다. 예를 들어, 많은 회사는 구매 행동을 이해하기 위해 새로운 데이터 소스를 연결하고 분석하는 사용 사례를 정의합니다. 좁은 사용 사례를 선택하면 데이터 분석가는 새로운 기술을 테스트하고 비즈니스에 새로운 통찰력을 제공 할 수 있습니다.
    • 데이터 파트너에서 필요한 것을 평가합니다. eBay는 정교한 엔지니어링 팀을 보유하고 있으며 달성하려는 것을 알고 있습니다. . 회사는 또한 업계를 기반으로 더 많은 교육, 컨설팅 서비스 및 참조 아키텍처를 제공하기 위해 파트너가 필요할 수 있습니다.
    • 올바른 생태계 구축. 회사의 모든 사용 사례를 해결할 데이터 저장 및 분석 솔루션은 하나 없습니다. 일부 지역에서는 회사의 기존 데이터웨어 하우스 솔루션이 완벽하게 작동합니다. 다른 경우 스트리밍 분석이 필요합니다. 마찬가지로 필요한 모든 것을 제공하는 단일 도구 나 공급 업체가 없습니다. 오늘날의 데이터 분석 세계에는 도구와 파트너의 생태계가 필요합니다. 통합 문제를 완화 할 수있는 공급 업체 간의 파트너십을 찾으십시오.
    • 새로운 사용 사례를 찾고 있습니다. . 이러한 새로운 데이터 및 분석 도구의 이점 중 일부는 레거시 데이터 분석 시스템에 존재하지 않는 패턴, 이상 및 새로운 통찰력을 발견하는 것입니다. 비즈니스 리더는 새로운 데이터 스토리지 및 분석 솔루션이 과거에 대답하기 쉽지 않은 질문에 대답 할 수있는 방법을 찾기 위해 협력해야합니다.

    eBay는 Hadoop을 사용합니다?

    • CIO는 조직의 적응성, 탄력성 CIO 및 기타 기술 경영진이 조직이 예측할 수있는 예측 가능한 기간 동안 유연하게 유지하는 데 필요한 일을하는 일을하고 있습니다 .
    • FTC는 클라우드 컴퓨팅 경쟁을 조사합니다. 연방 무역위원회는 Amazon, Microsoft 및 Google과 같은 소수의 대기업의 영향을 조사하고 있습니다 .
    • 유.에스. 부채 위기는 정부 계약자를 때릴 수 있습니다. 하드 정부 계약자는 지금 U를 위해 준비해야합니다.에스. 부채를 기본으로하기 위해, 이로 인해 다른 것들 사이에서 지불이 중단됩니다 .
    • RSA 컨퍼런스 2023 AI, 클라우드 보안, SOC 현대화 및 보안 위생 및 자세 관리에 관한 책을 닫는 것은 샌프란시스코의 RSAC에서 모두 뜨거운 주제였습니다 .
    • 임플란트 체크 포인트 소프트웨어 기술을 통해 중국의 Apt Exploits TP-Link 라우터 펌웨어는 중국의 “Camaro Dragon”으로 인한 악의적 인 임플란트가 펌웨어였습니다 .
    • 암호화 현재 및 미래의 사이버 위협 (예 : 랜섬웨어, 생성 AI, 양자 컴퓨팅 및 감시 증가)으로 현재 및 미래의 위협으로부터 보호합니다 .
    • Sonic NOS는 주류 Gartner와 함께 적합한 과제에 직면하고 있습니다. Gartner는 200 개 미만의 기업이 생산에 소닉을 보유하고 있으며, 잠재적 인 데이터 센터 시장에서 10 만 명으로 구성되어 있습니다. 하나.
    • 12 개의 일반적인 네트워크 프로토콜과 그 기능이 네트워킹을 설명했다고 설명하면 인터넷이 작동하지만 프로토콜 없이는 성공할 수 없습니다. 일반적인 네트워크 프로토콜과 그 기능은 다음과 같습니다 .
    • Python 통역사 대. IDE : 네트워크 엔지니어는 네트워크 자동화를 위해 Python을 사용할 때 네트워크 엔지니어가 알아야 할 사항, 네트워크 엔지니어는 종종 통역사 및 통합 개발 환경과 협력합니다 .
    • 이러한 전략으로 메인 프레임 운영을 효율적으로 만듭니다. 메인 프레임은 조직의 수익에 영향을 미칩니다. 전문가는 유지하면서 신뢰성을 유지하기위한 몇 가지 주요 전략을 간략하게 설명합니다 .
    • 메인 프레임 응용 프로그램 관리에 chatgpt를 사용하는 방법 chatgpt는 Admins가 코드를 변환, 최적화 및 개선하여 메인 프레임 애플리케이션을 관리하는 데 도움이 될 수 있습니다. 또한 생성 할 수 있습니다 .
    • 양자 컴퓨팅이 양자 컴퓨터를 사용할 수있게되면 양자 컴퓨팅의 영향을 탐색하면 많은 암호화 유형이 취약 해집니다. 왜 그리고 무엇을 연구하고 있는지 배우십시오 .
    • Qlik은 Talend 구매를 완료하고, 인수로 통합 제품군을 향상 시켰으며, 오랜 분석 벤더는 데이터 패브릭 접근 방식과 개선 된 데이터 품질 및 거버넌스 능력을 추가합니다 .
    • 메인 프레임 데이터베이스는 오래된 개 새로운 생존 속임수를 가르치고 더 현대적인 아키텍처에 유리하게 사라질 것으로 예상되는 새로운 생존 트릭 .
    • 데이터 메쉬 대. 기타 데이터 관리 옵션 데이터 메시는 데이터 관리에 대한 분산 된 접근 방식을 취하고 데이터에서 값을 도출합니다. 데이터와 유사성을 공유합니다 .