
컴퓨터의 본질적인 기능은 데이터를 읽어 들여 데이터를 처리한 다음 그 결과를 데이터에 담아 출력하는 것이며, 컴퓨터에 일을 시키기 위해 사용되는 모든 프로그래밍 언어는 고유의 데이터 구조를 지니고 있습니다.
따라서, 코딩을 효율적으로 배울 수 있는 최상의 방법은 해당 언어의 데이터 구조를 제대로 이해하는 것입니다.
본 강의에서는 파이썬이 제공하고 있는 데이터 구조와 그 사용 방법에 대해 실습을 통해 자세히 설명 드립니다.
파이썬 자체에 내장되어 있는 기본적 데이터 구조뿐만 아니라 파이썬의 핵심적 라이브러리인 numpy와 pandas에 의해 제공되는 고급 데이터 구조에 대한 활용 방법에 대해 자세히 다루고 있습니다.
대부분의 데이터 분석 작업은 데이터 정리 작업부터 시작됩니다. 사실 현실에서 구한 데이터는 그냥 자료 뭉치에 지나지 않습니다. 노이즈 제거, 결측치 보정, 구조 변환 등 상당히 번거롭고 많은 절차를 거쳐야 분석이 가능한 형태의 데이터가 나옵니다. 이런 작업에 최적인 라이브러리가 바로 pandas입니다. pandas는 강력한 인덱싱 기능을 지닌 1차원 및 2차원 데이터 구조를 제공합니다.
데이터 가공 이후 실제 연산을 할 때는 고속연산을 가능하게 하는 배열이라는 데이터 구조를 제공하는 numpy를 사용합니다. 파이썬이 제공하는 기본 데이터 구조를 사용할 때보다 계산 속도가 10~100배까지 빨라집니다.
파이썬을 실용적인 목적으로 제대로 사용하기 위해 꼭 배워야 하는 라이브러리가 pandas와 numpy 입니다.