[AWS Data

데이터 소비자~이다 데이터에 액세스해야 하는 조직의 사람 또는 애플리케이션다음과 같이 정의할 수 있습니다.

데이터 엔지니어가 하는 모든 일은 데이터 소비자가 데이터 세트를 유용하고 액세스할 수 있도록 만드는 것입니다. 다시 말해서, 올바른 도구를 사용하여 적시에 올바른 데이터 소비자에게 올바른 데이터 제공이는 기업이 정보에 입각한 결정을 내릴 수 있도록 하기 위한 것입니다.

이 장에서는 다음 항목을 다룹니다.

  1. 데이터 민주화의 영향 이해
  2. 데이터 시각화는 비즈니스 사용자의 요구 사항을 충족합니다.
  3. 구조화된 보고는 데이터 분석가의 요구 사항을 충족합니다.
  4. 데이터 과학자 및 ML 모델의 요구 사항 충족


1. 데이터 민주화의 영향 이해

데이터 민주화점점 더 많은 사용자를 위해 시기적절하고 비용 효율적인 방식으로 데이터 접근성 개선이는 대부분의 조직에서 일반적인 기대 사항이 되었으며, 오늘날의 다양한 데이터 소비자는 선택한 도구를 사용하여 올바른 데이터에 빠르게 액세스할 수 있기를 기대합니다.

실제로 데이터세트의 양과 속도가 증가함에 따라 그만큼 중력은 더 많은 애플리케이션과 소비자를 끌어들일 것입니다. 데이터 중력은 데이터에 질량이 있음을 나타냅니다. 다시 말해서, 데이터 세트가 클수록 더 많은 사용자를 유치하고 이동하기가 더 어려워집니다.

대량의 데이터 세트에 얽매이지 않으려면 최신 데이터 파이프라인이 필요합니다. 사용자가 기존 데이터와 상호 작용하도록 허용 스토리지 솔루션~와 연관되다~에서 데이터 이동과 관련하여 작업량 및 대기 시간 최소화당신은해야합니다. 그리고 데이터의 민주화와 데이터 중력의 존재로 인해 분석 팀과 비즈니스 사용자 모두 경쟁력을 유지하기 위해 점점 더 다양한 데이터에 점점 더 빠른 속도로 액세스해야 합니다.

증가하는 데이터 소비

  • 오늘날의 현대 조직에서는 전통적인 비즈니스 사용자 및 데이터 분석가에서 데이터 과학자, M2M 애플리케이션 및 새로운 유형의 비즈니스 사용자에 이르기까지 데이터 소비자를 찾을 수 있습니다.
  • 비즈니스 사용자는 이제 대시보드가 ​​거의 실시간 데이터로 업데이트되기를 기대합니다. 또한 위치에 관계없이 많은 모바일 장치에서 이러한 대시보드에 액세스할 수 있기를 원합니다.
  • 데이터 소비자는 더 이상 개인이나 팀에 국한되지 않습니다.
  • 데이터 과학자의 가용성과 중요성은 많은 회사에서 점점 더 필요하고 성장하는 역할을 합니다.


2. 데이터 시각화는 비즈니스 사용자의 요구를 충족합니다.

데이터 분석가 조직 내의 일부는 데이터에 쉽게 액세스할 수 있었습니다. 이것들은 실용적이다 데이터 게이트 가디언 역할을 수행하고 사용자 지정 데이터 요구 사항이 있습니다. “일반” 비즈니스 사용자데이터 게이트키퍼를 통과해야 했습니다.

그러나 빅 데이터의 부상으로 비즈니스 사용자 사이에서 개인화된 데이터에 대한 갈망과 필요성이 증가했습니다.

비즈니스 사용자는 결정을 내리는 데 필요한 데이터에 액세스하기 위해 길고 공식적인 프로세스를 거치는 대신 다양한 데이터에 더 쉽고 빠르게 액세스할 것을 요구하고 있습니다.

경쟁력을 유지하려면 모든 의사 결정권자가 관련 데이터에 쉽고 직접적으로 액세스할 수 있습니다. 동시에 조직 적절한 데이터 관리 확립하다 데이터 소비자는 필요한 데이터에만 액세스합니다.할 수 있어야. 데이터 엔지니어는 이를 실현하는 데 매우 중요합니다.

비즈니스 사용자를 위한 AWS 도구

비즈니스 사용자Excel 사용자는 피벗 테이블 개념에 익숙하며 시각화를 통해 대시보드에 쉽게 액세스하기를 원합니다. 관리에 의해 다양한 능력을 갖추고 있습니다. 데이터 엔지니어 다양한 비즈니스 사용자의 요구를 충족하는 솔루션 제공당신은 할 수 있어야합니다.

AWS 내 비즈니스 사용자가 사용하는 기본 도구는 클라우드 기반 BI 애플리케이션입니다. 아마존 퀵사이트보지마. 퀵사이트 접근 가능한 시각화고급 사용자가 만들 수 있을 뿐만 아니라 강력한 보안 및 거버넌스 제어, 또한 데이터를 더 깊이 파고들 수 있는 기능을 제공합니다. Amazon QuickSight는 클라우드 기반이며 조직의 수백 또는 수천 명의 사용자에게 쉽게 배포할 수 있습니다.

Amazon QuickSight에 대한 간략한 개요

Amazon QuickSight는 비즈니스 사용자에게 데이터에 대한 액세스를 제공합니다. 대화형 액세스, 다양한 유형과 스타일을 지원합니다. 대시보드는 여러 데이터 소스의 데이터를 표시할 수 있으며 사용자는 데이터를 필터링 및 정렬하고 데이터 세트의 특정 측면으로 드릴다운할 수도 있습니다.

QuickSight는 스프레드시트와 동일한 기능을 제공하지만 훨씬 사용하기 쉽습니다.

또한 사용자가 임시 스프레드시트를 공유할 때 불가능한 보안, 거버넌스 및 감사 가능성을 제공합니다.

데이터는 S3 기반 데이터 레이크, 데이터베이스, SaaS 애플리케이션 및 기타 여러 소스에서 직접 사용할 수 있습니다.


QuickSight 대시보드 예시

데이터 엔지니어는 QuickSight를 설정하고 다양한 데이터 소스에 대한 액세스를 구성하는 데 도움이 필요할 수 있습니다.

적절한 액세스 권한이 있는 QuickSight 사용자는 서로 다른 데이터 소스를 직접 결합할 수 있습니다. 기존 데이터 게이트키퍼를 거치지 않고 비즈니스에 필요한 시각화 구축당신은 할 수 있습니다. 그러나 QuickSight 사용자가 데이터 세트 자체를 결합하고 변환하지 않고도 필요한 데이터에 액세스할 수 있도록 데이터 레이크 또는 데이터 웨어하우스에 새 데이터 세트를 생성해야 할 수 있습니다.


3. 구조화된 보고는 데이터 분석가의 요구 사항을 충족합니다.

데이터 분석가의 업무는 데이터 세트를 분석하고 회사에 대한 인사이트 도출하는 것입니다.

“최근 2주 동안 한 번에 10분 이상 5회 이상 전자상거래 매장을 방문하고 구매를 하지 않은 고객의 비율은 몇 퍼센트입니까?”종종 특정 비즈니스 질문에 답하기 위해 복잡한 데이터 분석이 필요합니다.

데이터 분석가를 위한 일반 기술

  • 임시 데이터 원본으로 작업하는 경우 데이터 정리 및 데이터 품질 보증.
  • 사업의 특정 부분좋은 이해의 발달(조직의 해당 부분에 대한 도메인 전문가는 조직의 해당 부분에 어떤 데이터가 중요한지, 어떤 메트릭이 중요한지 등을 이해합니다.)
  • 데이터를 해석하여 조직 통찰력(동향 식별, 관심 영역 강조 표시 및 데이터의 통계 분석 수행) 데이터 분석가는 수집한 정보와 결론을 회사 경영진에게 제시할 책임도 있습니다.
  • 다른 비즈니스 사용자 상호 작용이것은 강력한 BI 소프트웨어로 가능합니다. 시각화 만들기.
  • SQL과 같은 구조화된 쿼리 언어 사용 임시 데이터 분석하다.

데이터 분쇄기는 공식 데이터 엔지니어링 파이프라인을 이미 통과한 데이터 레이크의 데이터를 사용할 수 있습니다. 경우에 따라 새로운 원시 데이터를 수집해야 할 수도 있습니다. 이 경우 데이터 정리, 삭제 및 품질 확인을 담당할 수 있습니다.

데이터 분석가를 위한 AWS 도구

데이터 분석가는 다양한 데이터 세트로 작업하므로 다양한 도구를 마음대로 사용할 수 있습니다.

데이터 분석가가 사용하는 도구는 다음과 같습니다. SQLRedshift와 같은 데이터 웨어하우스에서 데이터를 검색하거나 . 또한, 파이썬 또는 R와 같은 다양한 고급 도구를 사용하여 데이터를 볼 수도 있습니다. 공식적인 데이터 엔지니어링 파이프라인을 거치지 않은 임시 데이터 원본으로 작업할 때 데이터를 정리하고 준비합니다. 시각적 변환 도구또한 사용할 수 있습니다.

① 아마존 아테나

아마존 아테나 사용자다양한 데이터 소스에 대해 복잡합니다. SQL 쿼리실행할 수 있는 서비스입니다. 이 기능을 사용 일시적으로 데이터 탐색데이터 및 다른 쿼리 테스트당신은 할 수 있습니다. 아테나와 함께 서로 다른 데이터 원본의 여러 테이블에서 데이터를 결합하는 쿼리 실행당신은 할 수 있습니다.

② AWS Glue DataBrew

데이터 분석가는 새로운 질문에 답하기 위해 데이터 세트에서 데이터 변환을 수행해야 할 수 있습니다. AWS 접착제 DataBrew를 사용하면 데이터 분석가가 이를 수행할 수 있습니다. 서로 다른 테이블의 데이터를 변환하고 병합하여 새 데이터 소스를 쉽게 정리하고 새 데이터 세트를 만듭니다.당신은 할 수 있습니다. 따라서 데이터 분석가가 코드를 작성할 필요가 없습니다. 시각적 인터페이스로 이 모든 작업을 수행할 수 있습니다.


AWS Glue DataBrew 시각적 변환 디자이너

③ AWS에서 Python 또는 R 실행

파이썬 다음을 포함하여 AWS의 여러 서비스에 대해 코드를 실행할 수 있습니다.

  • AWS 람다: 서버리스 환경에서 최대 15분 동안 Python 코드 실행
  • AWS Glue 파이썬 셸: 서버리스 환경에서 Python 코드를 무기한 실행
  • 아마존 EC2: 파이썬을 설치하고 파이썬 코드를 실행할 수 있는 컴퓨팅 서비스

알스튜디오AWS에서 여러 서비스로 실행할 수도 있습니다.

  • 알스튜디오 아마존 EC2 컴퓨팅 인스턴스에서 실행할 수 있으므로 데이터 분석가는 데이터 분석을 위한 R 기반 프로젝트를 만들 수 있습니다.
  • 대규모 데이터 세트를 사용하는 경우 여러 컴퓨팅 노드를 사용하여 대규모 데이터 세트를 처리하는 것이 좋습니다. 아마존 EMR에서 RStudio를 다운로드할 수도 있습니다.


4. 데이터 과학자 및 ML 모델의 요구 사항 충족

오늘날 대부분의 대규모 조직에는 조직의 목표 달성을 돕기 위해 ML 기술을 사용하는 데이터 과학 팀이 있습니다.

데이터 과학자는 고급 수학적 개념을 사용하여 다양한 방식으로 사용할 수 있는 ML 모델을 개발합니다. 예:

데이터에서 모호한 패턴 식별

– 혈액 검사 결과에 따르면 이 환자가 특정 유형의 암에 걸렸을 가능성은 얼마나 됩니까?

과거 데이터를 기반으로 향후 결과 예측

– 이러한 특정 특성을 가진 이 소비자는 채무 불이행 가능성이 있습니까?

비정형 데이터에서 메타데이터 추출

– 이 인물 사진에서 당신은 웃고 있습니까? 선글라스를 착용합니까? 당신은 수염이 있습니까

많은 유형의 ML 접근 방식에는 기계 학습 모델을 교육하기 위해 많은 양의 원시 데이터가 필요합니다.

따라서 데이터 과학자는 현대 조직에서 중요한 데이터 소비자가 될 수 있습니다.

데이터 과학자가 데이터 작업에 사용하는 AWS 도구

데이터 과학자는 ML 모델을 개발하기 위한 도구, 모델을 미세 조정하기 위한 도구, ML 모델 교육을 위해 데이터를 준비하기 위한 도구 등 다양한 목적을 위해 다양한 도구를 사용합니다.

아마존 세이지메이커

데이터 과학자와 개발자가 ML 모델을 구축, 교육 및 배포하는 데 필요한 다양한 단계를 수행하는 데 도움이 되는 도구 모음입니다.

SageMaker Ground Truth

고유한 ML 모델을 사용하여 레코드에 자동으로 레이블을 지정할 수 있으며 확실하게 레이블을 지정할 수 없는 데이터를 발견한 경우 수동 레이블 지정을 위해 해당 데이터를 인간 데이터 레이블러 팀에 전달할 수 있습니다.

SageMaker 데이터 랭글러 : 원시 데이터를 직접 수집하고 처리할 수 있습니다.

세이지메이커 스튜디오 : 인터페이스를 사용하여 300개 이상의 기본 제공 데이터 변환 라이브러리에서 선택하여 데이터를 변환할 수 있습니다.

SageMaker 지우기 : 잠재적 편향을 식별하기 위해 원시 데이터를 검사하는 도구인 ML 모델을 교육하는 데 사용되는 데이터입니다.


「Data Engineering with AWS」라는 책을 번역하고 요약했습니다.

AWS를 사용한 데이터 엔지니어링: AWS를 사용한 클라우드 기반 데이터 변환 파이프라인 설계 및 구축 방법 알아보기: 9781800560413: Com

Gareth는 25년 이상 IT 업계에서 일해 왔으며 남아프리카에서 시작하여 수년 동안 영국에 거주했으며 현재는 미국에 있습니다. 2017년에 Gareth는 Amazon Web Services(AWS)에서 Solution Architect로 일하기 시작했습니다.

www.amazon.com