본문 바로가기

분류 전체보기20

스파크 Mlib 데이터 스키마 정의 • 케이스 클래스 사용하여 평가 , 영화, 사용자 데이터 스키마 정의 및 클래스 변환 함수 정의 데이터 변환 함수 정의 • 입력 데이터의 라인을 케이스클래스로 변환하는 함수 정의 평가 데이터프레임 생성 • 평가 데이터를 적재하고 데이터프레임 생성 영화 / 사용자 데이터프레임 생성 • 영화 , 사용자 데이터프레임 생성하고 뷰로 등록 데이터프레임 질의 • 데이터프레임 질의로 데이터 조사 • 가장 평가를 많이한 10명의 사용자가 평가한 영화 수 • 사용자 ID가 4169가 평가한 영화 중 4점 이상이 되는 영화 모델 적용 데이터 분할 • 모델을 훈련 ( 모델 구축 ) 및 테스트 용으로 데이터프레임을 분할 모델 구축 • 사용자의 영화 선호도 (훈련 데이터)를 입력받아 훈련 시켜 모델을 구축 .. 2020. 9. 24.
스파크 응용 모니터링 스파크 웹 UI- NAT 설정 •NAT 내부의 스파크 드라이버의 웹 UI포트 4040포트 접근하기 위해서 게이트웨이 포트포워딩 설정 •192 .168. 0. 200에 설치되어 진행 제플린 스파크 설정 수정 •제플린에서 스파크 실행 시에는 스파크 인터프리터 master설정 수정해야 스파크 웹UI 모니터링 가능 •Interpretes에서 spark로 검색하여 master 속성을 yarn-cluster에서 spark://master:7077로 수정 •수정하면 yarn 웹 8088포트에서는 스파크 잡 모니터링 불가 •제플린에서 스파크 실행 후 스파크 웹 UI 4040포트 모니터링 스파크 웹 UI 실행 예 스파크 웹 UI - 잡 페이지 예 •Job id 0, 1은 spark. Read. Load 메서드에 해당 •.. 2020. 9. 24.
데이터세트 연산 SFPD Top 5 주소 - 스칼라 SFPD Top 5 주소 -SQL SFPD Top 5 주소 -제플린차트 SFPD Top 5 주소 - JSON 저장 SFPD Top 5 주소- JSON 읽기 2020. 9. 24.
데이터세트 생성, 제플린노트북 SFPD 데이터 하둡 적재 및 스파크 쉘 시작 SFPD 데이터세트 생성(프로그램) - 스파크 쉘 실행 제플린노트북 SFPD 데이터프레임 생성 실행 2020. 9. 24.