일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 해외UAM
- 우버 매각
- 6G
- 김래아
- UAM
- 우버자율주행
- CES2021
- Starlink
- 월마트드론
- 완전자율주행
- 아마존자율주행
- 자율주행차량
- 오로라자율주행
- 에어택시
- smart_city
- 코로나백신대상
- 코로나백신피해야할대상
- 드론배송시작
- 자율주행택시
- 로보택시
- 코로나백신
- 로봇택시
- 오로라이노베이션
- CES2021LG
- 자율주행오로라
- 스마트시티
- 기술경영
- UAM사례
- UAMT
- 자율주행
- Today
- Total
RDX 공식블로그
유럽 해사 통합 빅데이터 플랫폼 구축을 위한 'Big Data Ocean' : 빅데이터 기술 현황(3/3) 본문
유럽 해사 통합 빅데이터 플랫폼 구축을 위한 'Big Data Ocean' : 빅데이터 기술 현황(3/3)
Redesign X(리디자인엑스) 2020. 3. 6. 17:59
지난 시간에는 쿼리 프로세싱, 스트림 프로세싱, 데이터 분석에 관련된 빅데이터 기술을 알아봤습니다. 지난 시간에 이어 이번 시간에는 분석 실행환경/노트북, 시각화, 클러스터 관리, 보안에 관련된 빅데이터 기술의 특징을 알아보고 Big Data Ocean에 적합하진 평가해보도록 하겠습니다. 이번에도 각 주제 앞부분에 빅데이터 관련 전문 용어를 같이 정리해 놓았으니 이해하는데 도움이 되었으면 합니다.
7. 분석 실행환경(Analytics Execution Environments)/노트북(Notebooks)
용어정리
·프론트엔드/백엔드 : 프론트엔드는 브라우저, 핸드폰, PC, OS에 상관없이 사용자가 원하는 기능을 수행할 수 있게 지원하는 것입니다. 백엔드는 UI나 GUI로 구성된 화면의 통신이나 요청에 대하여 DB나 인터페이스 등을 통해 시스템 구성 실체에 접근하는 것이며, 일반적으로 사용자에게는 노출되지 않지만, 관리자에게는 중요한 정보가 포함되어 있습니다.
·웹 기반 노트북 : Web에 워드처럼 아무거나 입력 가능한 하얀 화면이 뜨고 여기에 코드를 작성-실행-결과확인-코드수정을 반복하면서 원하는 결과를 만들어 낼 수 있는 작업환경을 의미합니다.
·분석처리 : 여러 개의 분산된 데이터 저장장소와 처리기를 네트워크로 연결하여 서로 통신을 하면서 동시에 일을 처리하는 방식을 뜻합니다.
·병렬처리 : 컴퓨터 또는 CPU 등을 병렬로 연결하여 다수의 프로세서들이 다수의 프로그램을 분담하여 동시에 처리하는 방식을 뜻합니다.
·RESTful API : REST란 웹에 존재하는 모든 자원(이미지, 동영상, DB 자원)에 고유한 URI를 부여해 활용하는 것으로, 자원을 정의하고 자원에 대한 주소를 지정하는 방법론을 의미합니다. RESTful API는 이러한 REST 특징을 지키면서 API를 제공하는 것을 의미합니다.
·일괄(batch) 작업 : 작업을 모아서 처리하는 방식으로, 사용자와 상호작용 없이 순차적으로 발생하는 것이 특징입니다.
·대화형(interactive) 작업 : 이용자에게 즉각적인 피드백을 제공함으로써, 일괄처리보다 응답시간(요청한 시간부터 반응이 시작되는 시점까지의 소요시간)이 빠르다는 특징이 있습니다.
·오버헤드(overhead) : 어떤 처리를 하기 위해 들어가는 간접적인 처리시간 및 메모리를 뜻합니다.
분석 실행환경(Analytics Execution Environments)는 빅데이터의 분산처리와 병렬처리를 위한 Spark 작업이 원격으로 작업하고 실행하게 하는 서비스입니다. 노트북(Notebooks)은 다인 통합 환경 내에서 Spark 코드를 대화형으로 작성하고 실행할 수 있는 기능을 제공하며, 외부 라이브러리를 활용하고 입력 데이터와 분석 결과의 시각화가 가능합니다.
분석 실행환경과 노트북은 보통 데이터 가치사슬에서 데이터 전처리, 데이터 큐레이션, 데이터 이용 부분에 위치합니다.
·Zeppelin : Spark 이용 시 생기는 데이터 분석의 불편함을 웹 기반 노트북을 통해서 해결해보고자 만들어진 어플리케이션입니다. 데이터와 상호작용을 하기 위해서는 프로그래밍 지식이 필요하지만, 프로그래밍 지식이 있는 경우 end-user와 상호작용이 가능하다는 장점이 있습니다. 또한 웹페이지 리포트가 미리 정의되어 있다는 특징이 있습니다.
모든 파일럿 프로젝트와 많은 관련이 있고, Big Data Ocean 사용자에게 플랫폼에서 실행할 사용자 정의 쿼리 및 실험을 정의할 수 있는 수단을 제공하므로, Big Data Ocean에 적합하다고 평가됩니다.
·Jupyter : 파이썬, R, Scala 언어 백엔드가 포함된 웹 기반 노트북이며, 시각화 및 탐색 분석에 사용되는 기능입니다. Zepplelin과 마찬가지로, 데이터와 상호작용을 하기 위해서는 프로그래밍 지식이 필요하지만, 프로그래밍 지식이 있는 경우 end-user와 상호작용이 가능하다는 장점이 있습니다. 또한 웹페이지 리포트가 미리 정의되어 있다는 특징이 있습니다.
Big Data Ocean 플랫폼의 모든 파일럿 프로젝트의 요구를 충족시키는데 매우 적합하다고 평가됩니다.
·Apache Livy : REST 인터페이스를 통해 Spark 클러스터와 함께 쉽게 상호작용할 수 있는 서비스입니다. 클러스터에서 원격 Spark 작업을 실행하기 위한 RESTful API를 제공하는 서비스이며, 간단한 구성으로 이루어져 있고, 대화형 작업과 일괄(batch) 작업 모두 실행이 가능하다는 장점이 있습니다. 하지만 세션 초기화를 하기 위해서 일부가 오버헤드(overhead) 되는 경향이 있습니다.
원격 Spark 작업 실행을 위해 현재 버전의 Big Data Ocean 플랫폼에 이미 통합되어 있습니다.
·Spark Job Server : 클러스터에서 원격 Spark 작업을 실행하기 위한 RESTful API를 제공하는 서비스입니다. 원격 Spark 실행을 위한 대안으로 평가되지만 구성이 복잡하므로 Big Data Ocean에의 적용 가능성은 높지 않습니다.
8. 시각화
용어정리
·대화형(interactive) : 텍스트, 그래픽, 애니메이션, 영상, 소리와 같은 콘텐츠를 눌러서 사용자의 동작에 반응하는 디지털 컴퓨터 기반 시스템 상의 제품을 의미합니다.
·반응형(responsive) : 디스플레이 종류에 따라 화면의 크기가 자동으로 최적화되도록 조절되는 제품을 의미합니다.
·학습 곡선(learning curve) : 특정 기술이나 지식을 실제 필요한 업무와 같은 환경에서 효율적으로 사용하기 위해 드는 학습 비용(시간)을 의미합니다. 특정 기술을 습득할 때에 처음에는 학습 효과가 더디다가 어느 정도 이해를 하고나면 빠르게 습득하고 난 후에 다시 더뎌지는 곡선을 나타냅니다.
데이터의 시각화를 통해 방대한 양의 데이터를 이해하는 능력을 제공하며, 새로운 특성에 대해 이해하는데 도움을 줍니다. 이로 인해 인간이 상황을 인식하고 의사결정 하는 데에 도움을 주게 됩니다. 시각화는 보통 데이터 가치사슬에서 데이터 이용 부분에 위치합니다.
시각화 기술 설계자는 시스템, 인간에 대한 이해, 디스플레이 수단에 대해 고려하여 설계해야 합니다. 시각화는 일반적으로 사용자가 효과적으로 작업을 수행할 수 있도록 도와주는 idiom을 설계하는데 중점을 둡니다. 시각화의 소프트웨어나 툴(도구)은 막대 차트나 선 차트 같은 정적인 idiom부터 훨씬 복잡한 idiom까지 수많은 시각화 idiom의 설계가 가능합니다.
모든 데이터셋이 적합한 시각화는 아직 없기 때문에, 현재 시각화 툴은 코드 라이브러리와 비즈니스 지능형 프레임워크로 구성된 시각화 모음을 제공하고 있습니다. 코드 라이브러리(대부분 JavaScript 작성)는 통합이 유연하게 이루어진다는 특징을 가지고 있지만 이를 위해서는 프로그래밍 기술이 요구됩니다.
·Leafleat.js : 오픈소스 JavaScript 라이브러리로, 고성능 대화형 맵을 구축하는데 사용됩니다. D3.js 위에서 대화형 맵 생성에 사용할 수 있지만, EPSG 3857 투영법에 대해서만 기본 지원이 이루어집니다.
현재 지도의 시각화를 위해 Big Data Ocean 아키텍처에 통합되어 있습니다.
·D3.js : 웹 브라우저에서 동적 대화형 데이터의 시각화를 만들기 위한 JavaScript 라이브러리입니다. 사용자정의 시각화 프레임워크에서 수많은 오픈소스 라이브러리와 함께 사용할 수 있으며, 온라인에는 D3.js를 기반으로 한 거의 1,000여 개의 사용자지정 시각화 idiom이 있다는 것이 특징입니다. 하지만 통합이 어렵다는 단점이 있습니다.
Big Data Ocean에 통합되려면 상당한 노력이 필요하지만, 차트의 시각화를 위한 하나의 옵션이 될 수 있습니다.
·amCharts : 원그래프, 열, 선 및 기타 여러 차트 유형을 만들 수 있도록, 웹사이트와 어플리케이션에서 데이터를 시각적으로 나타내는 기능을 제공하는 JavaScript 라이브러리입니다. 실시간으로 데이터의 시각화 표현처리가 가능하며, 대화형 및 반응형 차트를 사용하고 있습니다.
현재 차트의 시각화를 위해 Big Data Ocean 아키텍처에 통합되어 있습니다.
·Mapbox : 웹사이트와 어플리케이션을 위한 대규모 사용자지정 온라인 맵 제공 프로그램입니다. 대규모 조직 프로젝트를 위한 표준화된 데이터 흐름을 제공하고, 사용자 지정 타일(custom tile) 생성으로 인해 로딩 속도가 매우 빠르며, 상대적으로 지도의 사용자 맞춤 제공이 용이하다는 장점이 있습니다. 하지만 간단한 프로젝트나 지도에 적용하기에는 시스템이 너무 복잡하게 설계되어 있고, 다른 API를 사용하는 개발자에 대한 학습곡선이 가파르다는 문제가 있습니다.
현재 플랫폼의 최신 버전에서 기본 맵 레이어에 사용되고 있습니다.
9. 클러스터 관리
용어정리
·클러스터(cluster) : 특정한 기능수행을 위해 여러 대의 컴퓨터가 네트워크로 연결된 것을 의미합니다. 이때 클러스터를 구성하는 개별 컴퓨터를 노드(node)라고 지칭합니다.
·명령줄(command-line) : 가상 터미널을 통해 사용자와 컴퓨터가 상호작용하는 방식을 뜻합니다.
·노드(node) : 대형 네트워크에서는 장치나 데이터 지점을 의미합니다. 예를 들면, 개인용 컴퓨터, 휴대폰, 프린터와 같은 장치를 가리킵니다.
·로드 밸런싱(load balancing) : 하나의 인터넷 서비스가 발생하는 트래픽이 많을 때 여러 대의 서버가 분산처리하여 로드율 증가, 부하량, 속도저하 등을 고려하여 적절히 분산처리하여 해결해주는 서비스를 말합니다.
추상화 계층(abstraction layer) : 특정한 집합의 기능의 자세한 부분을 숨기는 한 방법입니다.
클러스터 관리는 백엔드 그래픽 사용자 인터페이스 또는 명령줄 소프트웨어를 통합한 외부서비스입니다. 클러스터에 할당된 작업을 수행하기 위해 클러스터의 각 노드를 관리하고 구성하는 역할을 합니다. 클러스터 관리는 클러스터 관리자가 수행하는데, 클러스터 관리자는 클러스터의 각 특정 노드에서 실행되는 클러스터 관리 에이전트와 함께 작동하게 됩니다.
클러스터 관리는 클러스터에 작업전송과 같은 낮은 참여활동에서부터 로드 밸런싱 및 가용성 같은 높은참여작업까지 다양할 수 있습니다. 빅데이터 프레임워크에서 클러스터 관리자는 클러스터에서 리소스를 획득하여 예약된 특정 작업에 할당하는 역할을 담당합니다. 클러스터 관리자의 목적은 클라이언트용 메모리, CPU 메모리 등과 같은 다양한 물리적 리소스를 얻기위한 응용 프로그램으로서의 역할입니다. 클러스터 관리는 보통 데이터 가치사슬에서 데이터 이용 부분에 위치합니다.
·Spark stand alone cluster manager : Spark 배포의 일부로 사용할 수 있는 단순한 클러스터 관리자입니다. 클러스터에서 사용 가능한 리소스(노드)를 추적하는 방식으로 작업이 진행됩니다. 코어를 기반으로 리소스를 할당하며, 기본적으로 어플리케이션이 클러스터의 모든 코어를 잡는다는 특징이 있습니다. 하지만 리소스 스케쥴링 기능이 좋지 않습니다.
Spark 클러스터 관리자는 역량이 부족하기 때문에 Big Data Ocean 플랫폼 후보로 거론되지 않습니다.
·Hadoop YARN : 작업 스케쥴링 및 클러스터 리소스 관리를 위한 분산 컴퓨팅 프레임워크입니다. 확장성과 가용성이 좋고, fault tolerance를 제공한다는 장점이 있습니다. 또한, Hadoop 시스템 리소스용 중앙 리소스 관리자로서의 역할을 함으로써 클러스터 리소스를 동적으로(dynamic) 할당하여 비용 효율적인 방식으로 선형적 스토리지와 프로세싱을 개선합니다.
따라서, Big Data OCean에서 리소스 관리 및 어플리케이션 스케쥴링에 적합한 기술로 간주됩니다.
·Apache Mesos : 분산 커널 시스템으로 프로그램을 여러 머신들이 묶여있는 풀에서 효율적으로 동작하도록 합니다. Spark Jobs 및 Hadoop MapReduce를 실행하고, Java, Python 및 C++에 사용할 수 있는 API입니다. 또한, 분산된 네트워크나 프레임워크를 통해 자원을 효과적으로 격리하고 어플리케이션을 공유한다는 특징이 있습니다. CPU, 디스크 및 RAM과 같은 컴퓨팅 요소를 위한 추상화 계층을 제공하기도 합니다. 인프라의 모든 리소스를 관리할 수 있음에도 불구하고 어플리케이션별 스케쥴링은 관리할 수 없다는 단점이 있습니다.
인프라 수준에서 리소스 관리가 이루어지므로 Big Data Ocean 플랫폼에는 적합하지 않은 것으로 간주됩니다.
10. 보안
용어정리
·액세스 토큰(acceess token) : 사적 리소스(private resource)에 접근하는 API에 대한 모든 요총에 토큰이 포함되어 있는지, 또 해당 토큰이 유효한지의 여부를 검증함으로써 인증 절차를 수행합니다. 이 때 사용하는 토큰을 액세스 토큰이라고 부릅니다.
·참조구현(reference implementation) : 다른 사람들이 하드웨어 혹은 소프트웨어를 구현하는 것을 돕기 위해 제공하는 샘플 프로그램을 의미합니다.
·데이터 생애주기(Data Life Cycle) : 1단계 데이터 생성 → 2단계 데이터 저장 → 3단계 데이터 활용
·레거시 시스템(legacy system) : 낡은 기술이나 방법론, 컴퓨터 시스템, 소프트웨어 등을 의미합니다.
·속성(attribute) : 정보를 나타내는 최소의 단위로써 상품의 성질, 분류, 수량, 상태, 특성 등을 나타내는 세부 항목을 뜻합니다.
·복호화(decryption)/디코딩(decoding) : 부호화(encoding)된 데이터를 부호(code)화 되기 전 형태로 바꾸어, 사람이 읽을 수 있는 형태로 되돌려 놓는 것을 의미합니다. 쉽게 말해 암호화의 반댓말을 뜻합니다.
Big Data Ocean에서 개인 및 중요한 정보의 보호에 관한 보안은 다음과 같은 두 가지 방법을 통해 처리됩니다.
(1) 데이터 접근 제어
(2) 저장소에서 전송 및 사용까지 전반에 걸친 데이터 보안
(1) 데이터 접근 제어
일반적으로 접근 제어에는 인가, 인증 접근승인, 감사가 포함됩니다. 보통 인증과 접근제어를 단일 작업으로 결합하는 경우가 많고, 인증절차에 기반하거나 액세스 토큰에 기반하여 접근이 승인됩니다. 인증절차 및 토큰에는 암호, 생체 검색, 물리적 키, 전자 키/장티, 기타 수단이 포함됩니다. Big Data Ocean에는 다음과 같은 주요 데이터 접근 제어 도구/프로토콜/프레임이 있습니다.
·XACML Protocol (eXtensible Access Control Markup Language) : XML 기반의 접근 제어 프로토콜로, 정보 접근을 위한 XML 명세, UDDI 및 WSDL 항목 접근제어를 제공합니다. 알려진 모든 인가 체계를 모방할 수 있기 때문에 가장 건전한 인가 구조로 알려져있습니다. 하지만 이미 존재하는 오래된 어플리케이션에의 구현 및 통합이 매우 복잡하다는 단점이 있습니다.
Big Data Ocean 플랫폼의 접근제어 메커니즘 구현의 기초로 적합합니다.
·Balana WSO2 reference implementation : XACML 3.0, 2.0, 1.1, 1.0버전을 지원하는 오픈소스 XACML을 구현합니다. XACML 프로토콜 최초의 오픈 소스 참조 구현이며, 인증 프로세싱의 전체 라이프사이클을 지원합니다. 승인을 수행하기 위해 필요한 모든 아키텍처 모듀의 참조 구현을 제공한다는 장점이 있지만, 성능이나 처리량이 상대적으로 낮아 Big Data Ocean에는 적합하지 않습니다.
·PaaSword Framework : Balana에 대한 XACML 경쟁력의 참조 구현이며, 사용자가 자바 소스 코드 내에서 인가 정책을 구현하는 데 도움이 되는 추가 라이브러리 세트인 Balana의 기능 위에서 제공됩니다. 확장 가능한 전문가 시스템 위에 구축되어있어 balana보다 효율적이지만, 기존 제품에 통합하는 것이 더 복잡하므로 Big Data Ocean에 적합하지 않습니다.
·Attribute Based Access Control (ABAC) : 속성기반 접근제어라는 뜻으로, 사용자, 접근되는 자원, 현재 환경 조건의 속성에 기반한 접근제어를 의미합니다. 상황에 맞는 동적 지능형 접근제어 기능을 제공하고, 속성 모음이 포함된 다중 접근제어 정책의 정의가 가능하며, 접근제어 정책 정의의 유연성을 제공한다는 장점이 있습니다. 하지만, 적절한 특성, 정책을 정의하기 위한 노력이 필요하며 그에 따라 복잡도가 증가합니다.
이러한 단점에도 불구하고, Big Data Ocean 플랫폼의 접근제어 메커니즘의 후보로 간주됩니다.
·Mandatory Access Control (MAC) : 강제 접근제어라는 뜻으로, 보안레벨과 허가를 비교하는 것을 기반으로 한 접근제어입니다. 보안레벨은 시스템 자원이 얼마나 민감하고 중요한지를 나타내고, 보안허가는 어떤 시스템 개체가 특정 자원에 접근할 수 있는지를 나타냅니다. subject 및 object에 대한 보안 특성을 정의하고, 보안 속성에 기반한 권한 부여 규칙을 정의하며, 보안 정책이 중앙 집중식으로 제어된다는 장점이 있습니다. 하지만, 보안 정책의 복잡성 때문에 Big Data Ocean 플랫폼 후보로 간주되지 않습니다.
·Role Based Access Control (RBAC) : 역할기반 접근제어라는 뜻으로, 시스템 내에 사용자가 가지는 역할들, 그 역할을 맡은 사용자에게 허용되는 접근 규칙들을 기반으로 한 접근제어입니다. 권리는 개인보다는 역할에 부여되고, 사용자가 역할에 할당되며, 역할 간의 관계를 정의할 수 있습니다. 반면에, 사용자 지정 권한 및 역할 상속이 필요할 경우 복잡성이 증가할 수 있습니다.
Big Data Ocean 플랫폼의 접근제어 메커니즘의 후보로 간주됩니다.
(2) 저장소에서 전송 및 사용까지 전반에 걸친 데이터 보안
Big Data Ocean에 있어, 데이터 저장소 내의 데이터 보안과 관련된 주요 소프트웨어 솔루션과 접근방식을 평가하고, 빅데이터 프레임워크의 보안 솔루션에 적합한지를 평가하는 과정입니다.
·Symmetric Encryption Algorithms : 암호화 알고리즘의 한 종류로, 암호화와 복호화에 같은 암호 키를 쓰는 알고리즘을 의미합니다. 속도가 굉장히 빠르고, 거의 중단되지 않는 장점이 있지만, 플랫폼의 성능이 분석 프로세스에서 현저히 저하되므로 빅데이터 플랫폼에는 적합하지 않습니다.
·Message Authentication Codes (a.k.a. MACs) and Digital Signatures : 메시지 인증코드와 디지털 서명, 메시지 인증코드를 사용하면 자신에게 도착한 메시지가 송신자가 보낸 그대로 인지를 확인할 수 있습니다. 디지털 서명은 네트워크에서 송신자의 신원을 증명하는 방법으로, 송신자가 자신의 비밀키로 암호화한 메시지를 수신사가 송신자의 공용 키로 해독하는 과정입니다. 매우 빠른 속도로 여러 MAC 알고리즘을 조합할 수 있지만, 메시지 인증코드와 디지털 서명의 성능이 나쁘기 때문에 빅데이터 플랫폼에는 적합하지 않습니다.
·Broadcast Encryption (Single Sender) : 암호화는 자격을 갖춘 사용자만이 콘텐츠를 해독할 수 있는 방식으로, 방송 채널을 통해 암호화된 콘텐츠를 전송하는 암호화 방식입니다. 적응성(Adaptivity)이 좋아 각 콘텐츠 전송의 취소가 가능하지만, 악성 사용자가 존재할 수 있으므로 빅데이터 플랫폼에는 적합하지 않습니다.
·Asymmetric Encryption : 비대칭 알고리즘(공용키 알고리즘)이라고 불리는 이 방식은, 암호화와 복호화에 서로 다른 키를 사용하며, 암호화 키에서 복호화 키를 도출할 수 없다는 특징이 있습니다. 비대칭 알고리즘은 당사자들이 비공개적으로 비밀키를 합의할 기회가 없는 경우에도 암호화 키나 기타 데이터를 안전하게 전송할 수 있기 때문에 중요하게 평가됩니다. 비대팅 알고리즘(공용키 알고리즘) 유형에는 RSA, Diffie-Hellman, 디지털 서명 알고리즘 등이 포함됩니다. 최대의 보안을 보장하지만, 매우 느리고 고도의 연산작업이 필요하다는 단점이 있습니다. 따라서 빅데이터 플랫폼에는 적합하지 않습니다.
·Attribute-Based Encryption (ABE) : 이 암호화는 여러 가지 속성을 기반으로 암호문을 만든다는 특징이 있습니다. 사용자는 자신에게 할당된 속성값을 이용하여 주어진 policy를 만족시키는지 확인하는데, 만약 만족시킨다면 암호문을 풀 수 있으며, 그렇지 않다면 암호문을 풀 수 없도록 설계가 되어있습니다. 로그 암호화에 사용할 수 있지만, 속성 취소 메커니즘이 비효율적이며 존재하지 않기 때문에 빅데이터 플랫폼에는 적합하지 않습니다.
·HDFS Encryption : 어플리케이션 코드를 변경할 필요 없이 HDFS에서 읽고 HDFS로 기록한 데이터의 투명한 end-to-end 암호화를 구현하는 것이 특징입니다. 암호화는 end-to-end이기 때문에 클라이언트만이 데이터를 암호화하고 해독할 수 있습니다. HDFS는 암호화되지 않은 데이터 또는 암호화 키를 저장하거나 액세스할 수 없습니다. HDFS 암호화를 통해 우수한 성능을 제공하며, 기존 Hadoop 어플리케이션이 암호화된 데이터에서 투명하게 실행이 가능하다는 장점이 있습니다.
빅데이터 프레임워크로 사용할 경우 큰 제약이 없기 때문에 Big Data Ocean에 적합하다고 평가됩니다.
·Spark Security : 인증 시 스파크 인증 구성 매개변수를 통해 실행되도록 구성할 수 있습니다. 이 매개변수는 스파크 통신 프로토콜이 공유암호를 사용하여 인증을 수행하는지 여부를 제어합니다. 이 인증은 양쪽이 동일한 공유 비밀을 가지고 있고 의사소통이 가능하도록 하기 위한 기본적인 룰입니다. Spark 프레임워크에서 모듈이 투명하게 사용된다는 장점이 있는 반면에, 인증만 지원되고 암호화는 전혀 지원되지 않는다는 단점도 있습니다.
그럼에도 불구하고, 인증, 이벤트 로깅 메커니즘, SSL 구성, SASL 암호화를 제공하므로 Big Data Ocean 플랫폼에 적합한 솔루션으로 간주됩니다.
Author 박해리
'Tech.Trend' 카테고리의 다른 글
일본 정부 및 민간기업의 자율주행 서비스 실증 프로젝트 동향 (0) | 2020.05.22 |
---|---|
'완전' 자율주행 차량에 대한 안전기준, UL4600 (0) | 2020.04.21 |
유럽 해사 통합 빅데이터 플랫폼 구축을 위한 'Big Data Ocean' : 빅데이터 기술 현황(2/3) (0) | 2020.02.25 |
유럽 해사 통합 빅데이터 플랫폼 구축을 위한 'Big Data Ocean' : 빅데이터 기술 현황(1/3) (0) | 2020.02.06 |
유럽 해사 통합 빅데이터 플랫폼 구축을 위한 'Big Data Ocean' : 초기단계 개요 (0) | 2020.02.03 |