본문 바로가기

전체 글20

스파크 Mlib 데이터 스키마 정의 • 케이스 클래스 사용하여 평가 , 영화, 사용자 데이터 스키마 정의 및 클래스 변환 함수 정의 데이터 변환 함수 정의 • 입력 데이터의 라인을 케이스클래스로 변환하는 함수 정의 평가 데이터프레임 생성 • 평가 데이터를 적재하고 데이터프레임 생성 영화 / 사용자 데이터프레임 생성 • 영화 , 사용자 데이터프레임 생성하고 뷰로 등록 데이터프레임 질의 • 데이터프레임 질의로 데이터 조사 • 가장 평가를 많이한 10명의 사용자가 평가한 영화 수 • 사용자 ID가 4169가 평가한 영화 중 4점 이상이 되는 영화 모델 적용 데이터 분할 • 모델을 훈련 ( 모델 구축 ) 및 테스트 용으로 데이터프레임을 분할 모델 구축 • 사용자의 영화 선호도 (훈련 데이터)를 입력받아 훈련 시켜 모델을 구축 .. 2020. 9. 24.
스파크 응용 모니터링 스파크 웹 UI- NAT 설정 •NAT 내부의 스파크 드라이버의 웹 UI포트 4040포트 접근하기 위해서 게이트웨이 포트포워딩 설정 •192 .168. 0. 200에 설치되어 진행 제플린 스파크 설정 수정 •제플린에서 스파크 실행 시에는 스파크 인터프리터 master설정 수정해야 스파크 웹UI 모니터링 가능 •Interpretes에서 spark로 검색하여 master 속성을 yarn-cluster에서 spark://master:7077로 수정 •수정하면 yarn 웹 8088포트에서는 스파크 잡 모니터링 불가 •제플린에서 스파크 실행 후 스파크 웹 UI 4040포트 모니터링 스파크 웹 UI 실행 예 스파크 웹 UI - 잡 페이지 예 •Job id 0, 1은 spark. Read. Load 메서드에 해당 •.. 2020. 9. 24.
데이터세트 연산 SFPD Top 5 주소 - 스칼라 SFPD Top 5 주소 -SQL SFPD Top 5 주소 -제플린차트 SFPD Top 5 주소 - JSON 저장 SFPD Top 5 주소- JSON 읽기 2020. 9. 24.
데이터세트 생성, 제플린노트북 SFPD 데이터 하둡 적재 및 스파크 쉘 시작 SFPD 데이터세트 생성(프로그램) - 스파크 쉘 실행 제플린노트북 SFPD 데이터프레임 생성 실행 2020. 9. 24.
아파치 스파크 스파크 설정- 설정파일 변경 ~/. bashc Spark-env.sh Slaves Spark-env.sh Spark-defaults.conf 스파크 설정-jar 파일 적재 Hadoop fs -ls /jar-spark-jars 네임노드 웹 접속하여 파일 복사 확인 http://192.168.0.1:50070 하둡실행하고 jps 실행하였을 때 namenode가 안나타나서 namenode-format을 하였어서 초기화 된 상태에서 했으므로 jar 파일 하나만 존재. 스파크 실행 및 동작 확인- jps 스파크 실행 스파크 실행 및 동작 확인 - 마스터 웹 접속 192.168.0.1:8080 스파크 쉘 실행 2020. 9. 24.
하둡에서 datenode가 실행되지 않는경우 1. 하둡의 hdfs-site.xml 설정파일 확인 hdfs-site.xml > dfs.date.dir 프로퍼티의 값 확인 -> data 저장경로 2. 저장 경로의 /current 디렉터리 유/무 확인 dfs.data.dir/current가 있을 경우 해당 디렉터리 삭제 3. hadoop stop -> 삭제 -> start 2020. 9. 24.
하둡 실행 및 동작 확인 하둡 실행 및 동작 확인 start-all.sh : 모든 하둡 클러스터의 HDFS 시작, YARN 데몬 실행 hadoop namenode -format : 처음 실행 시에 한번만 마스터에서 네임노드를 포맷 hdfs version : 하둡 버전 확인 jps : 프로세스 확인 클러스터 동작 확인, 네임노드 웹 하둡 실행 테스트 Root 디렉터리 밑에꺼를 보여준다 파일 시스템은 하둡 분산파일 시스템 input 디렉터리를 만든다 hadoop fs -put /home/bigdata/hadoop-2.7.7/README.txt /input : 로컬파일시스템의 README.txt을 하둡 파일 시스템 input 디렉터리로 copy 하둡 실행 테스트 - wordcount README.txt 파일의 단어 개수들을 세는 프로.. 2020. 9. 24.
리눅스 명령어, putty, notepad++ 리눅스 명령어 ls 명령어 기능 : 파일 및 디렉터리의 목록을 출력한다 형식 : ls[옵션] [ {디렉터리 | 파일} ] 옵션: -l : 파일 크기, 저장 날짜, 허가권, 소유권 등을 포함하여 자세히 보기 -a : 마침표로 시작하는 숨겨진 파일을 포함한 모든 파일 보여주기 -t : 시간 순서대로 정렬해서 보기 -R : 하위 디렉터리의 파일까지 재귀적으로 보여주기 cd 명령어 기능 : 디렉터리를 이동한다 형식 : cd[디렉터리명] 디렉터리명 -> ~ : 자신의 홈 디렉터리 디렉터리명-> ~(계정이름) : 다른사용자의 홈 디렉터리, 예를들어 cd ~embed일 결우 embed의 홈 데릭터리 . : 현재 디렉터리 .. : 상위 디렉터리 파일의 생성 및 보기 파일 새로 만들기/덮어쓰기 : $cat > test... 2020. 9. 24.
SQL 옵티마이저 옵티마이저 : 사용자가 질의한 SQL문에 대해 최적의 실행 방법을 결정하는 역할 수행 규칙기반 옵티마이저 우선순위를 가지고 실행계획을 생성한다. 우선 순위가 높은 규칙이 적은 일량으로 해당 작업을 수행한다고 판단한다, 인덱스 유무와 SQL문에서 참조하는 객체등을 참고 비용기반 옵티마이저 현재 대부분의 DB에서 사용, SQL문을 처리하는데 필요한 비용이 가장 적은 실행계획을 선택하는 방식, 비용이란 SQL문을 처리하기 위해 예상되는 소요시간 또는 자원 사용량을 의미, 테이블,인덱스,칼럼 등 다양한 객체 통계정보와 시스템 통계정보 등을 이용한다. 실행계획 SQL에서 요구한 사항을 처리하기 위한 절차와 방법을 의미, 실행계획을 구성하는 요소에는 조인 순서, 조인 기법, 액세스 기법, 최적화 정보, 연산 등이 .. 2020. 9. 24.