반응형

분류 전체보기 492

Hadoop은 배치 프로그램(일괄처리)에 적합하다.

Hadoop을 활용한 프로그램에는 배치 프로그램이 적합하다고 한다. 배치 프로그램이란? Batch Program 사용자와의 상호 작용 없이 여러 작업들을 미리 정해진 일련의 순서에 따라 일괄적으로 처리하는 것 배치 프로그램(Batch Program)이 갖추어야 하는 필수 요소 1. 대용량 데이터 대량의 데이터를 가져오거나, 전달하거나, 계산하는 등의 처리가 가능해야 한다. 2. 자동화 심각한 오류가 발생하는 상황을 제외하고는 사용자의 개입 없이 수행되어야 한다. 3. 견고성 잘못된 데이터나 데이터 중복 등의 상황으로 중단되는 일 없이 수행되어야 한다. 4. 안정성/신뢰성 오류가 발생하면 오류의 발생 위치, 시간 등을 추적할 수 있어야 한다. 5. 성능 다른 응용 프로그램의 수행을 방해하지 않아야 하고, ..

Linux에서 Windows 바탕화면으로 파일 쉽게 옮기는 방법? WinSCP!

들어가기 전에 잠깐! 혹시 VMware에서 Ubuntu를 사용하고 있다면 이 포스팅을 보면 된다. WinSCP를 따로 깔아줄 필요 없이 옮길 수 있다. Linux(Ubuntu) # 파일 Windows 바탕화면에 옮기는 방법 🔽 이전 포스팅 Linux에서 Windows 바탕화면으로 파일 쉽게 옮기는 방법? WinSCP! WinSCP 프로그램을 사용하면 SCP(Secure Copy Protocol)을 통해 Windows에서 Linux로 혹은 그 반대로도 파일을 주고받을 수 있게.. pythontoomuchinformation.tistory.com WinSCP 프로그램을 사용하면 SCP(Secure Copy Protocol)을 통해 Windows에서 Linux로 혹은 그 반대로도 파일을 주고받을 수 있게된다...

Hadoop # ant실행 후 Driver파일에 cannot find symbol 에러가 떴을 경우

상황 ant를 이용하여 빌드작업을 해주려했으나 Driver파일에 새로 작업해준 파일을 가리키며 cannot find symbol에러를 일으켰다. 분석 이번엔 이전과 다르게 ~/Project/src위치가 아닌 ~/Project/template에서 작업하고 그대로 Project폴더에서 ant를 실행해줬다. 아무래도 src폴더로 파일을 옮겨야할 것 같다. template에 있어서 인식을 못하는듯. 해결 ~/Project/template에 있던 MatrixAdd.java파일을 ~/Project/src에 아래의 코드를 사용하여 옮겨주었다. $ mv ./MatrixAdd.java ../src 예측대로 다시 Project 폴더로 가서 빌드(ant)를 시도해보니 잘 되었다!

Hadoop # org.apache.hadoop.hdfs.server.namenode.SafeModeException

상황 org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/hadoop/invertedindex_test_out. Name node is in safe mode. The reported blocks 3 has reached the threshold 0.9990 of total blocks 3. The minimum number of live datanodes is not required. In safe mode extension. Safe mode will be turned off automatically in 19 seconds. NamenodeHostName:localhost 분석 Hadoop은 비정상적 종료시 sa..

Hadoop # cannot find symbol.

상황 부트캠프 강의에서 설정해야한다는 부분들을 모두 설정해줬음에도 불구하고 ant로 빌드하는 도중에 이러한 에러가 떴다. 그래서 난 내가 어떤걸 실수한건 줄 알았다. 해결 그냥 import문제였다. 강의내용에 빠졌었다. 그래서 아래 내용을 java파일에 추가시켜주었다. import org.apache.hadoop.fs.FileSystem; 그런데 이번 기회에 cannot find symbol에러에 대해 좀 더 알 수 있어서 좋았다. 정말 다양한 이유로 해당 에러가 나오게되는데, 관련된 내용은 아래 링크에서 참고해보자. Cannot find symbol 원인 및 해결방법(Cannot resolve symbol, Symbol not found 등) Cannot find symbol 원인 및 해결방법(Cann..

StringTokenizer란?/charAt과 substring/offset이란?

StringTokenizer String을 tokens로 쪼개어주는 클래스다. charAt(인수) 인수번째의 문자를 읽는다. 예) "sohyun".charAt(2)의 결과는 h substring(시작인수, 마지막 인수-1) charAt과 달리 인수번째의 문자열을 읽는다. 예) "sohyun".substring(0, 2)의 결과는 so offset = 변위 일반적으로 동일 오브젝트 안에서 오브젝트 처음에서부터 주어진 요소(혹은 지점)까지의 변위차를 나타내는 정수형.저급 프로그래밍언어에서는 상대주소로 불리운다. 예) A = 'abcdef'라면, 'c'문자는 A시작점에서 2의 offset을 지닌다고 할 수 있다. 두 번째 주소를 만들기 위해 기준이 되는 주소에 더해진 값. 따라서 결과 주소가 다른 지점의 상대..

hadoop 정리

목표 병렬 분산 알고리즘 구현이 가능한 MapReduce 프레임워크를 이해한다. MapReduce 프레임워크를 사용할 수 있는 Hadoop설치 및 MapReduce 알고리즘 코드를 실행한다. Hadoop을 이용해 빅데이터 분석 및 처리용 MapReduce 알고리즘을 구현하는데 필요한 지식과 코딩 능력을 배양한다. Scale-out이 Scale-up보다 더 중요하다. Scale-out : 저렴한 서버들을 많이 이용하는 것. Scale-up : 고가의 서버들을 조금 이용하는 것. 데이터 중심(data-intensive) 어플리케이션 분야에서는 Scale-out을 선호함. 2배의 성능을 가진 비싼 컴퓨터 가격이 일반 컴퓨터 2대의 가격보다 훨씬 비싸기 때문! MapReduce 프레임워크 값싼 컴퓨터들로 클러스..

Hadoop # HDFS cluster 구성/Namenode와 Datanode

Hadoop 주요한 구성요소 MapReduce : 소프트웨어의 수행을 분산 HDFS : 데이터를 분산 HDFS Hadoop Distributed File System 파일을 여러 대의 컴퓨터에 나누어 저장. 각 파일은 여러 개의 순차적 블록으로 저장됨. 파일의 블록은 fault tolerance를 위해 여러 개로 복제되어 다양한 머신에 저장됨. [참고] fault tolerance 시스템을 구성하는 부품에서 결함 또는 고장이 발생해도 기능을 수행할 수 있는 것. HDFS cluster 구성방식 HDFS 클러스터는 마스터-슬레이브(master-slave) 패턴으로 동작. master인 하나의 네임노드(Namenode)와 slave인 여러 개의 데이터노드(Datanode)로 구성되어 있다. HDFS clie..

반응형