본문 바로가기
BigData

스파크 응용 모니터링

by 성장하는 Sap린이 2020. 9. 24.

스파크 웹 UI- NAT 설정

 

NAT 내부의 스파크 드라이버의 웹 UI포트 4040포트 접근하기 위해서 게이트웨이 포트포워딩 설정

192 .168. 0. 200에 설치되어 진행

 

제플린 스파크 설정 수정

제플린에서 스파크 실행 시에는 스파크 인터프리터 master설정  수정해야 스파크 웹UI 모니터링 가능

Interpretes에서 spark로 검색하여 master 속성을 yarn-cluster에서 spark://master:7077로 수정

수정하면 yarn 8088포트에서는 스파크 모니터링 불가

제플린에서 스파크 실행 후 스파크 웹 UI 4040포트 모니터링

 

스파크 웹 UI 실행 예

 

스파크 웹 UI - 잡 페이지 예

Job id 0, 1spark. Read. Load 메서드에 해당

Job id 2, 3이 두 개의 count 액션 수행

Jbo id 0 , 1 , 2 , 3의 각각 실행시간은 2, 4, 6, 2

Job id 2의 스테이지는 3개이고 Job id 3캐싱된 데이터 프레임을 사용하여 태스크가 줄음

 

3개의 스테이지로 구성

6.1초 수행

스파크 잡이 실행하는 도중에 셔플을 수행하면 기본적으로 200개의 셔플 파티션을 구성

Spark.sql.shuffle.partitions 속성을 지정하여 원하는 값으로 변경

 

3개의 스테이지 중 1개의 스테이지 스킵

캐싱된 데이터프레임 사용

2. 075 초 수행

 

 

'BigData' 카테고리의 다른 글

스파크 Mlib  (0) 2020.09.24
데이터세트 연산  (0) 2020.09.24
데이터세트 생성, 제플린노트북  (0) 2020.09.24
아파치 스파크  (0) 2020.09.24
하둡에서 datenode가 실행되지 않는경우  (0) 2020.09.24