BigData
스파크 Mlib
성장하는 Sap린이
2020. 9. 24. 22:39
데이터 스키마 정의
• 케이스 클래스 사용하여 평가 , 영화, 사용자 데이터 스키마 정의 및 클래스 변환 함수 정의
데이터 변환 함수 정의
• 입력 데이터의 라인을 케이스클래스로 변환하는 함수 정의
평가 데이터프레임 생성
• 평가 데이터를 적재하고 데이터프레임 생성
영화 / 사용자 데이터프레임 생성
• 영화 , 사용자 데이터프레임 생성하고 뷰로 등록
데이터프레임 질의
• 데이터프레임 질의로 데이터 조사
• 가장 평가를 많이한 10명의 사용자가 평가한 영화 수
• 사용자 ID가 4169가 평가한 영화 중 4점 이상이 되는 영화
모델 적용 데이터 분할
• 모델을 훈련 ( 모델 구축 ) 및 테스트 용으로 데이터프레임을 분할
모델 구축
• 사용자의 영화 선호도 (훈련 데이터)를 입력받아 훈련 시켜 모델을 구축
테스트 데이터 추천
• 테스트 데이터를 모델에 적용하여 예측된 추천 결과 생성
사용자 추천 결과 조회
• 사용자 (4169)를 위한 추천 영화 Top 5 조사
•사용자 (4169)를 위한 추천 영화 Top 5 조사
거짓 양성 조사
• 영화 추천에서 거짓 양성 조사
모델 평가
- 실제 영화 평가와 예측 평가 사이의 오류율 계산
모델 훈련 데이터 추가
• 기존의 평가 데이터프레임에 새로운 데이터를 추가하여 모델을 구축하는 예