반응형

기타/빅데이터 - Hadoop 17

Hadoop의 다양한 기능/서브 프로젝트들 (하둡 에코시스템)

하둡 에코시스템이란? Hadoop EcoSystem 빅데이터는 수집, 정제, 적재, 분석, 시각화의 여러 단계를 거친다. 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되고, 이 기술들을 통틀어 빅데이터 에코 시스템(Bigdata Eco System)이라고 한다. 하둡의 코어 프로젝트가 HDFS와 MapReduce인 것이고 이 외에도 다양한 서브 프로젝트가 많이 존재한다. 이러한 서브 프로젝트들의 모임을 하둡 에코시스템(Hadoop EcoSystem)이라고 한다. Hadoop의 코어 프로젝트 : HDFS(분산데이터저장), MapReduce(분산처리) Hadoop의 서브 프로젝트 : Workflow관리, 데이터 마이닝, 분석, 수집, 직렬화 등 수집기술 수집기술은 빅데이터 분석을 위한 원천 데이터를 ..

Linux/Ubuntu # Language Support를 install하던 중 만난 에러

상황 Ubuntu가 영어로 되어있어서 한글로 바꿔주려던 찰나에 만난 에러. Language Support 앱을 실행하니 install 받아달래서 받아줬을 뿐인데.. Failed to fetch http://security.ubuntu.com/ubuntu/pool/main/t/thunderbird/thunderbird-locale-en-gb_78.11.0+build1-0ubuntu0.20.04.2_all.deb 404 Not Found [IP: 91.189.91.39 80] 해결 아래 명령어를 사용하여 사용 가능한 패키지들과 그 버전에 대한 정보를 업데이트 해주자. (설치되어 있는 패키지를 최신으로 업데이트하는 것이 아닌 설치가능한 리스트를 업데이트하는 것이다.) $ sudo apt-get update [..

Linux(Ubuntu) # 파일 Windows 바탕화면에 옮기는 방법

🔽 이전 포스팅 Linux에서 Windows 바탕화면으로 파일 쉽게 옮기는 방법? WinSCP! WinSCP 프로그램을 사용하면 SCP(Secure Copy Protocol)을 통해 Windows에서 Linux로 혹은 그 반대로도 파일을 주고받을 수 있게된다. [참고] SCP란? 로컬 호스트와 원격 호스트간에 안전한 파일 복사를 위한 pythontoomuchinformation.tistory.com 위 포스팅은 이 포스팅에서 알려줄 파일 옮기는 방법을 몰라서.. 삽질했던 포스팅이다. 위 포스팅 내용 다 필요 없고 아래와 같이 해주면 된다.. 1. VMware로 Ubuntu열어서, 파일 아이콘 더블클릭 2. 옮기고 싶은 파일이 존재하는 경로로 이동 3. 그대로 바탕화면에 드래그... 끝이다.

Hadoop은 배치 프로그램(일괄처리)에 적합하다.

Hadoop을 활용한 프로그램에는 배치 프로그램이 적합하다고 한다. 배치 프로그램이란? Batch Program 사용자와의 상호 작용 없이 여러 작업들을 미리 정해진 일련의 순서에 따라 일괄적으로 처리하는 것 배치 프로그램(Batch Program)이 갖추어야 하는 필수 요소 1. 대용량 데이터 대량의 데이터를 가져오거나, 전달하거나, 계산하는 등의 처리가 가능해야 한다. 2. 자동화 심각한 오류가 발생하는 상황을 제외하고는 사용자의 개입 없이 수행되어야 한다. 3. 견고성 잘못된 데이터나 데이터 중복 등의 상황으로 중단되는 일 없이 수행되어야 한다. 4. 안정성/신뢰성 오류가 발생하면 오류의 발생 위치, 시간 등을 추적할 수 있어야 한다. 5. 성능 다른 응용 프로그램의 수행을 방해하지 않아야 하고, ..

Linux에서 Windows 바탕화면으로 파일 쉽게 옮기는 방법? WinSCP!

들어가기 전에 잠깐! 혹시 VMware에서 Ubuntu를 사용하고 있다면 이 포스팅을 보면 된다. WinSCP를 따로 깔아줄 필요 없이 옮길 수 있다. Linux(Ubuntu) # 파일 Windows 바탕화면에 옮기는 방법 🔽 이전 포스팅 Linux에서 Windows 바탕화면으로 파일 쉽게 옮기는 방법? WinSCP! WinSCP 프로그램을 사용하면 SCP(Secure Copy Protocol)을 통해 Windows에서 Linux로 혹은 그 반대로도 파일을 주고받을 수 있게.. pythontoomuchinformation.tistory.com WinSCP 프로그램을 사용하면 SCP(Secure Copy Protocol)을 통해 Windows에서 Linux로 혹은 그 반대로도 파일을 주고받을 수 있게된다...

Hadoop # ant실행 후 Driver파일에 cannot find symbol 에러가 떴을 경우

상황 ant를 이용하여 빌드작업을 해주려했으나 Driver파일에 새로 작업해준 파일을 가리키며 cannot find symbol에러를 일으켰다. 분석 이번엔 이전과 다르게 ~/Project/src위치가 아닌 ~/Project/template에서 작업하고 그대로 Project폴더에서 ant를 실행해줬다. 아무래도 src폴더로 파일을 옮겨야할 것 같다. template에 있어서 인식을 못하는듯. 해결 ~/Project/template에 있던 MatrixAdd.java파일을 ~/Project/src에 아래의 코드를 사용하여 옮겨주었다. $ mv ./MatrixAdd.java ../src 예측대로 다시 Project 폴더로 가서 빌드(ant)를 시도해보니 잘 되었다!

Hadoop # org.apache.hadoop.hdfs.server.namenode.SafeModeException

상황 org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/hadoop/invertedindex_test_out. Name node is in safe mode. The reported blocks 3 has reached the threshold 0.9990 of total blocks 3. The minimum number of live datanodes is not required. In safe mode extension. Safe mode will be turned off automatically in 19 seconds. NamenodeHostName:localhost 분석 Hadoop은 비정상적 종료시 sa..

Hadoop # cannot find symbol.

상황 부트캠프 강의에서 설정해야한다는 부분들을 모두 설정해줬음에도 불구하고 ant로 빌드하는 도중에 이러한 에러가 떴다. 그래서 난 내가 어떤걸 실수한건 줄 알았다. 해결 그냥 import문제였다. 강의내용에 빠졌었다. 그래서 아래 내용을 java파일에 추가시켜주었다. import org.apache.hadoop.fs.FileSystem; 그런데 이번 기회에 cannot find symbol에러에 대해 좀 더 알 수 있어서 좋았다. 정말 다양한 이유로 해당 에러가 나오게되는데, 관련된 내용은 아래 링크에서 참고해보자. Cannot find symbol 원인 및 해결방법(Cannot resolve symbol, Symbol not found 등) Cannot find symbol 원인 및 해결방법(Cann..

StringTokenizer란?/charAt과 substring/offset이란?

StringTokenizer String을 tokens로 쪼개어주는 클래스다. charAt(인수) 인수번째의 문자를 읽는다. 예) "sohyun".charAt(2)의 결과는 h substring(시작인수, 마지막 인수-1) charAt과 달리 인수번째의 문자열을 읽는다. 예) "sohyun".substring(0, 2)의 결과는 so offset = 변위 일반적으로 동일 오브젝트 안에서 오브젝트 처음에서부터 주어진 요소(혹은 지점)까지의 변위차를 나타내는 정수형.저급 프로그래밍언어에서는 상대주소로 불리운다. 예) A = 'abcdef'라면, 'c'문자는 A시작점에서 2의 offset을 지닌다고 할 수 있다. 두 번째 주소를 만들기 위해 기준이 되는 주소에 더해진 값. 따라서 결과 주소가 다른 지점의 상대..

hadoop 정리

목표 병렬 분산 알고리즘 구현이 가능한 MapReduce 프레임워크를 이해한다. MapReduce 프레임워크를 사용할 수 있는 Hadoop설치 및 MapReduce 알고리즘 코드를 실행한다. Hadoop을 이용해 빅데이터 분석 및 처리용 MapReduce 알고리즘을 구현하는데 필요한 지식과 코딩 능력을 배양한다. Scale-out이 Scale-up보다 더 중요하다. Scale-out : 저렴한 서버들을 많이 이용하는 것. Scale-up : 고가의 서버들을 조금 이용하는 것. 데이터 중심(data-intensive) 어플리케이션 분야에서는 Scale-out을 선호함. 2배의 성능을 가진 비싼 컴퓨터 가격이 일반 컴퓨터 2대의 가격보다 훨씬 비싸기 때문! MapReduce 프레임워크 값싼 컴퓨터들로 클러스..

반응형