스파크 웹 UI- NAT 설정
•NAT 내부의 스파크 드라이버의 웹 UI포트 4040포트 접근하기 위해서 게이트웨이 포트포워딩 설정
•192 .168. 0. 200에 설치되어 진행
제플린 스파크 설정 수정
•제플린에서 스파크 실행 시에는 스파크 인터프리터 master설정 수정해야 스파크 웹UI 모니터링 가능
•Interpretes에서 spark로 검색하여 master 속성을 yarn-cluster에서 spark://master:7077로 수정
•수정하면 yarn 웹 8088포트에서는 스파크 잡 모니터링 불가
•제플린에서 스파크 실행 후 스파크 웹 UI 4040포트 모니터링
스파크 웹 UI 실행 예
스파크 웹 UI - 잡 페이지 예
•Job id 0, 1은 spark. Read. Load 메서드에 해당
•Job id 2, 3이 두 개의 count 액션 수행 잡
•Jbo id 0 , 1 , 2 , 3의 각각 실행시간은 2초 , 4초 , 6초 , 2초
•Job id 2의 스테이지는 3개이고 Job id 3는 캐싱된 데이터 프레임을 사용하여 태스크가 줄음
•3개의 스테이지로 구성
•총 6.1초 수행
•스파크 잡이 실행하는 도중에 셔플을 수행하면 기본적으로 200개의 셔플 파티션을 구성
•Spark.sql.shuffle.partitions 속성을 지정하여 원하는 값으로 변경
•3개의 스테이지 중 1개의 스테이지 스킵
•캐싱된 데이터프레임 사용
•총 2. 075 초 수행
'BigData' 카테고리의 다른 글
스파크 Mlib (0) | 2020.09.24 |
---|---|
데이터세트 연산 (0) | 2020.09.24 |
데이터세트 생성, 제플린노트북 (0) | 2020.09.24 |
아파치 스파크 (0) | 2020.09.24 |
하둡에서 datenode가 실행되지 않는경우 (0) | 2020.09.24 |