본문 바로가기
BigData

스파크 Mlib

by 성장하는 Sap린이 2020. 9. 24.

데이터 스키마 정의

 

케이스 클래스 사용하여 평가 , 영화, 사용자 데이터 스키마 정의 및 클래스 변환 함수 정의

데이터 변환 함수 정의

 

입력 데이터의 라인을 케이스클래스로 변환하는 함수 정의

평가 데이터프레임 생성

 

평가 데이터를 적재하고 데이터프레임 생성

 

영화 / 사용자 데이터프레임 생성

 

영화 , 사용자 데이터프레임 생성하고 뷰로 등록

 

데이터프레임 질의

 

데이터프레임 질의로 데이터 조사

가장 평가를 많이한 10명의 사용자가 평가한 영화 수

 

사용자 ID4169가 평가한 영화 중 4점 이상이 되는 영화

 

모델 적용 데이터 분할

 

모델을 훈련 ( 모델 구축 ) 및 테스트 용으로 데이터프레임을 분할

 

모델 구축

 

사용자의 영화 선호도 (훈련 데이터)입력받아 훈련 시켜 모델을 구축

 

테스트 데이터 추천

 

테스트 데이터를 모델에 적용하여 예측된 추천 결과 생성

 

사용자 추천 결과 조회

 

사용자 (4169)를 위한 추천 영화 Top 5 조사

 

사용자 (4169)를 위한 추천 영화 Top 5 조사

 

거짓 양성 조사

 

영화 추천에서 거짓 양성 조사 

모델 평가

 

  • 실제 영화 평가와 예측 평가 사이의 오류율 계산

 

모델 훈련 데이터 추가 

 

기존의 평가 데이터프레임에 새로운 데이터를 추가하여 모델을 구축하는 예

 

'BigData' 카테고리의 다른 글

스파크 응용 모니터링  (0) 2020.09.24
데이터세트 연산  (0) 2020.09.24
데이터세트 생성, 제플린노트북  (0) 2020.09.24
아파치 스파크  (0) 2020.09.24
하둡에서 datenode가 실행되지 않는경우  (0) 2020.09.24