분류 전체보기(64)
-
Day 12/13 - Pandas
이번 글에서는 파이썬의 라이브러리 중 하나이고, 데이터분석에 널리 쓰이는 Pandas의 기본적인 내용에 대해 정리할 것이다. Pandas의 경우 데이터분석에서 아주 큰 역할을 하는데, 이는 근본적으로 Pandas가 데이터 처리와 분석을 위해 만들어졌다는 점에서 기인한다. Pandas의 데이터타입에는 우선 Series가 있다. Series의 경우 여러가지 데이터타입을 사용할 수 있으며, 속성을 알아보는 함수가 소괄호를 붙이지 않는 점에 유의하자. 딕셔너리 자료형이 Series화 될 경우, key값이 인덱스로, value값이 실제 데이터로 자동으로 라벨링 된다는 것을 잘 기억하자. 한 편 Series 자료형의 경우 인덱스도 사용자가 지정하고 수정할 수 있고, 인덱스를 수정해도 기본 인덱스 번호는 여전히 사용..
2022.10.20 -
Day 12 - Numpy (6)
이번 글은 Numpy 배열의 변환 방법을 다루는 마지막 글이다. 기본적으로, 2차원 배열의 경우 그냥 행렬로 이해하는 것이 적어도 2차원 배열 데이터를 다룰 때 훨씬 용이하고 이해하기 쉽다고 생각한다. 배열이라고 따로 생각해서 보면 어렵지만, 그냥 행렬이라고 생각하면 이해가 빠른 부분이 많다. 전치도 그렇고, 기본적으로 배열배합 등에서 스칼라값이 아닌 이상 행이나 열 둘 중에 하나는 같아야 두 배열의 배합이 가능한 것도 행렬과 비슷한 부분이 많다. 따라서 2차원 배열의 경우, 그냥 행렬을 파이썬에서 다룬다고 생각하자. 다음은 각 요소에 대한 설명이다. 다시 말하지만, 그냥 2차원 배열 = 행렬이라고 생각하는게 속 편하다. 이렇게 생각하면, 위의 각종 방법들의 특성을 전부 쉽게 이해할 수 있다. 그 외에는..
2022.10.20 -
Day 12 - Numpy (5)
이번 글에서는 Numpy 배열 변환 방법 중 조건 색인과 배열 복사에 대해 다룰 것이다. 조건 색인은 Numpy를 이용한 데이터 분석에서 매우 자주 쓰이기 때문에 반드시 체화하고 기억하는 것이 좋다. 그렇게 어렵지는 않으니 문법에 익숙해지도록 노력하자. Numpy 배열 복사에는 얕은 복사와 깊은 복사가 있다. 얕은 복사와 깊은 복사의 개념은 배열에도 마찬가지로 적용되므로 잘 구분하도록 하자.
2022.10.20 -
Day 12 - Numpy (4)
이번 글에서는 넘파이로 만든 배열의 변환 방법에 대해 정리할 것이다. 우선, 배열 정렬이 있다. 배열 정렬의 경우, axis를 기준으로 요소를 오름차순 정렬하는 것이 기본값이다. np.argsort(arr)의 경우, 오름차순 또는 내림차순 정렬을 위해 현재 데이터가 어느 위치로 가야하는지 인덱스 번호를 통해 보여주는 약간 다른 방식의 정렬 방법이라는 것을 알아두자. 배열 정렬 실습을 axis인자를 주어가면서, 또 데이터 차원을 변경해가면서 수행했다. Numpy 배열을 변환하는 다른 방법은 인덱싱과 슬라이싱이다. 리스트같은 데이터타입과 마찬가지로, 배열에서도 인덱싱과 슬라이싱을 통해 배열 내부의 요소값에 접근하고 수정할 수 있다. 기본적으로 여러개의 인덱싱을 배열로 전달할 수 있으며, 행 또는 열만 따로 ..
2022.10.20 -
Day 11 - Numpy (3)
이번 글에서는 numpy의 배열 연산함수에 대해 정리할 것이다. 우선 배운 것은 산술 연산함수로, 배열에 산술 연산을 적용하면 각 배열 내부의 인자간 연산값을 배열로 반환한다는 점에 주의하자. 배열을 만들어서 각 산술 연산을 실습해보았다. 그냥 곱연산이 행렬곱이 아니라 단순 곱 결과를 반환한다는 것을 알아두자. 행렬곱을 위한 함수는 따로 존재한다. 다음 연산함수는 비교 연산함수이다. 산술 연산과 마찬가지로, 비교 연산도 기본적으로 각 배열 내부의 인자간 비교를 True/False로 반환한다. 배열을 만들어 각 비교 연산을 실습해보았다. 배열 자체가 같은지 탐색하는 함수도 존재한다. 세 번째 연산함수는 집계함수이다. 집계함수는 axis로 설정된 기준에 따라 연산을 수행한다. 기본적으로 하나의 배열에 대한 ..
2022.10.19 -
Day 11 - Numpy (2)
이 글에서는 지난 글에 이어 파이썬의 라이브러리 중 하나인 numpy에 대해 계속해서 다룰 것이다. numpy의 배열 생성 방법 중 3번째는 난수를 데이터로 가지는 배열을 생성하는 것이다. 난수 배열 생성 함수에 정규분포 확률의 밀도에서 표본을 추출하는 함수가 있고, 또 정규분포는 데이터분석의 기본이기 때문에 정규분포와 분산, 표준편차에 대해 간략하게 공부하고 함수를 배웠다. 난수 데이터 배열 생성을 보다 이해하기 위해서는 프로그래밍에서의 난수에 대한 이해가 필요하다. 난수의 의미는 무작위의 수이지만, 실제 프로그래밍에서는 난수가 고정된 기준을 가지고 규칙적으로 생성된다. 따라서 난수의 시작점을 정해주면 동일한 난수를 생성할 수 있으며, np.random.seed()로 시작점을 설정할 수 있다. seed..
2022.10.19