Taegu

전체 글

[Python] 'tqdm_notebook' object has no attribute 'delay' 2021.10.25
[미국주식] 미국주식 10년 종가 plot with Python 2021.10.23
[미국주식] 미국주식 종목 불러오기 with Python 2021.10.21
[mac m1] Visual Studio Code에 anaconda 가상환경 연결 2021.08.14
[python] 공공데이터 포털 API사용 2021.08.10
[Keras] RNN 내부동작 알아보기 2021.08.05
[Keras] Embedding에 대해 알아보자. 2021.08.05 3
[Python] url 파일다운로드 에러 - UnicodeEncodeError: 'ascii' codec can't encode character 2021.07.21

[Python] 'tqdm_notebook' object has no attribute 'delay'

2021. 10. 25. 17:45

tqdm 라이브러리는 반복문을 실행할 때 진행사항을 알려주는 유용한 라이브러리입니다.

아래와 같이 완료시간 및 진행시간, 진행횟수를 알려줍니다.

아래와 같이 에러가 발생할 경우

ipywidgwts 설치 후 커널을 재시작하게 되면 기능이 정상적으로 작동합니다.

저작자표시 비영리 변경금지

'언어 > Python' 카테고리의 다른 글

[Python] Colab plot 한글깨짐현상 해결방법. (0)	2021.11.08
[Python] TypeError: pos() missing 1 required positional argument: 'phrase' (1)	2021.10.26
[python] 공공데이터 포털 API사용 (0)	2021.08.10
[Python] url 파일다운로드 에러 - UnicodeEncodeError: 'ascii' codec can't encode character (0)	2021.07.21
[Python] 'list' object has no attribute 'split' (0)	2020.05.12

[미국주식] 미국주식 10년 종가 plot with Python

2021. 10. 23. 18:44

앞서 가져온 주식종목에서 상위 6개의 종목에 대한 10년 종가를 그려보도록 하겠습니다.

!pip install finance-datareader
import FinanceDataReader as fdr
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

#나스닥
nasdaq = fdr.StockListing('NASDAQ')
nasdaq['Indexes'] = 'NASDAQ'
print('나스닥 :', nasdaq.shape)

# 상위 6개 종목
nasdaq.head(6)

# 상위 6개 종목 티커 가져오기
sb = nasdaq.head(6)
sb_li = sb['Symbol']


fig, axes = plt.subplots(2,3, figsize = (15,10))
for n in range(len(sb_li)):
  # 주식 별 10년치 종가 가져오기
  axes[n//3,n%3].plot(fdr.DataReader(sb_li[n], '2012','2022')['Close'])
  axes[n//3,n%3].set_title(sb_li[n])
plt.show()

저작자표시 비영리 변경금지

'투자 > 미국주식' 카테고리의 다른 글

[미국은행] 금융주 투자 3일차[2023/3/21] (0)	2023.03.22
[미국은행] 금융주 투자 2일차[2023/3/20] (0)	2023.03.21
[미국은행] 금융주 투자 1일차[2023/3/17] (0)	2023.03.21
[미국주식] 2020-10 ~ 2022-06 배당 기록 (0)	2022.06.05
[미국주식] 미국주식 종목 불러오기 with Python (0)	2021.10.21

[미국주식] 미국주식 종목 불러오기 with Python

2021. 10. 21. 13:20

미국주식 첫 포스팅으로 미국주식 종목을 불러오겠습니다.

미국 주식은 크게 3개의 거래소에 상장된 주식들로 구성되어 있습니다.

NTSE(뉴욕 증권 거래소)
NASDAQ(나스닥 증권 거래소)
AMEX(아멕스)

미국주식을 하게되면 다우존스나 S&P500도 들어보셨을텐데 위의 3개의 거래소에 상장된 주식들이 편입하게 됩니다.

결론적으로 3개의 거래소에 상장된 주식들을 가져오면, 대부분의 미국 주식들을 불러올 수 있습니다.

Python을 통해 불러오며, FinanceDataReader라이브러리를 이용하도록 하겠습니다.

#라이브러리 설치

!pip install finance-datareader
import FinanceDataReader as fdr
import pandas as pd

#주식 종목 불러오기

#나스닥
nasdaq = fdr.StockListing('NASDAQ')
nasdaq['Indexes'] = 'NASDAQ'
print('나스닥 :', nasdaq.shape)

#뉴욕증권거래소
nyse = fdr.StockListing('NYSE')
nyse['Indexes'] = 'NYSE'
print('뉴욕증권거래소 :', nyse.shape)

#아멕스
amax = fdr.StockListing('AMEX')
amax['Indexes'] = 'AMEX'
print('아멕스 :', amax.shape)

자 나스닥과 뉴욕증권거래소, 아멕스의 주식 종목들을 가져왔습니다. 모든 주식종목들을 합치기 전에 각각의 거래소들을 확인할 수 있도록 Indexes Column을 생성하였습니다. 그럼 주식데이터들을 하나로 합치겠습니다.

# 데이터 합치기
df = pd.concat([nasdaq, nyse,amax])

# Symbol이 중복되는 데이터 제거
df = df.drop_duplicates('Symbol')

#데이터 shape 확인
print(df.shape)

# 상위 10개 데이터 확인
df.head(10)

총 7882개의 미국주식을 불러왔습니다. 상위 10개를 조회하니 나스닥 시총 상위 10개 종목들이 보입니다.

저작자표시 비영리 변경금지

'투자 > 미국주식' 카테고리의 다른 글

[미국은행] 금융주 투자 3일차[2023/3/21] (0)	2023.03.22
[미국은행] 금융주 투자 2일차[2023/3/20] (0)	2023.03.21
[미국은행] 금융주 투자 1일차[2023/3/17] (0)	2023.03.21
[미국주식] 2020-10 ~ 2022-06 배당 기록 (0)	2022.06.05
[미국주식] 미국주식 10년 종가 plot with Python (0)	2021.10.23

[mac m1] Visual Studio Code에 anaconda 가상환경 연결

2021. 8. 14. 20:43

Visual Studio Code를 사용할 때 마다,내가 선택한 Anaconda의 가상환경에 접속되게 하는 설정 방법입니다. 가상환경을 사용하는 이유는, 프로젝트마다 다양한 라이브러리를 설치하게 되며, 기존의 라이브러리를 업데이트 할 경우, 일어나는 충돌 방지할 수 있습니다. 또한 다른 환경에서 프로그램을 동작 할 경우 일어나는 버전문제를 해결할 수 있습니다.

1. 아나콘다 다운로드

https://www.anaconda.com/products/individual#windows

Anaconda | Individual Edition

Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine.

www.anaconda.com

2. Visual Studio Code 다운로드

https://code.visualstudio.com/download

Download Visual Studio Code - Mac, Linux, Windows

Visual Studio Code is free and available on your favorite platform - Linux, macOS, and Windows. Download Visual Studio Code to experience a redefined code editor, optimized for building and debugging modern web and cloud applications.

code.visualstudio.com

3. VScode에서 Python extension설치

4. conda 가상환경 만들기

- conda -V : 콘다 버전 확인

- conda info --encs :콘다 환경리스트 확인

- python -V : 파이썬 버전 확인

- conda create -n my_env python=3.8.8 : python버전이 3.8.8인 가상환경 my_env생성, 파이썬 버전 지정하지 않을 경우 최신버전 설치 됩니다.

5. 설치된 가상환경 확인

중간에 y/n이 나올 경우 y를 입력하면 됩니다. 설치 후 conda info --envs를 입력하면 my_env 가상환경이 설치된걸 확인할 수 있습니다.

6. VScode 새로 만든 가상환경 설정

command + shift + p 입력 후 Select interpreter 선택하게 되면, 설치한 콘다 환경과, 새로 만든 가상환경이 보입니다. 새로 만든 가상환경 선택 후 hungry.py를 실행해보겠습니다. 익숙하신분도 있겠지만, 밑바닥 부터 시작하는 딥러닝1의 코드입니다.

실행하면 vscode에서 자동으로 가상환경을 활성화 시킵니다. conda activate my_env

7. 가상환경 제거

새롭게 만든 가상환경이 필요없다는 가정 하에 삭제 하겠습니다. 제거 후 conda info --envs로 확인하면 basd 환경만 남아있는걸 볼 수 있습니다.

conda env remove -n my_env : 가상환경 my_env 제거

저작자표시 비영리 변경금지

'데이터엔지니어 > etc' 카테고리의 다른 글

WLS에 설치된 운영체제 삭제하기 (0)	2022.12.15
[리뷰] 금융 전략을 위한 머신러닝 (Machine Learning and Data Science Blueprints for Finance) (0)	2022.02.23
[mac m1]failed to create java virtual machine 해결방법 (0)	2021.06.06
Colab RAM 늘리기(현재 적용되지않음) (0)	2020.05.01
함께작업한 git-repository 삭제하기 (0)	2019.06.18

[python] 공공데이터 포털 API사용

2021. 8. 10. 16:01

최근 법률관련 데이터를 얻기 위해 공공데이터 포털을 이용했습니다.

https://www.data.go.kr/index.do

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

해당 데이터는 생활법률지식 정보였으며, 생활법률에 대한 Q&A데이터 였습니다.

아래 요청 주소 및 요청에 필요한 Parameter가 있습니다.

API Parameter

코드

인증키의 경우 회원가입 후 특정 API에 대한 사용신청을 하게되면 얻을 수 있으며 약 1일 소요됩니다. requests.get을 통해 데이터를 얻었으며 beautifulsoup를 통해 xml로 파싱해줬습니다. 그 후 DataFrame으로 변형 후 합치는 코드입니다.

결과

저작자표시 비영리 변경금지

'언어 > Python' 카테고리의 다른 글

[Python] TypeError: pos() missing 1 required positional argument: 'phrase' (1)	2021.10.26
[Python] 'tqdm_notebook' object has no attribute 'delay' (0)	2021.10.25
[Python] url 파일다운로드 에러 - UnicodeEncodeError: 'ascii' codec can't encode character (0)	2021.07.21
[Python] 'list' object has no attribute 'split' (0)	2020.05.12
[Python] 리스트 안의 숫자를 문자로 변경하는방법 (0)	2020.05.11

[Keras] RNN 내부동작 알아보기

2021. 8. 5. 17:09

이번 포스팅은 기본적으로 RNN의 대한 개념을 안다는 가정하에 RNN의 input, output, training parms에 대해 알아보려 합니다.

우선 앞서 Embedding에 대해 알아봤습니다.

https://taeguu.tistory.com/69

[Keras] Embedding에 대해 알아보자.

최근 NLP를 공부하며, 막연히 남들이 작성한 코드를 통해 분류모델을 만들었습니다. 그러다 보니 모델안의 데이터의 흐름을 알 수 없어, RNN계열, 더 나아가 트랜드포머, 버트등의 모델을 이해하

taeguu.tistory.com

RNN 들어가기 전

RNN을 공부하면서 이해가 가지 않는 부분들이 많았습니다. 은닉층과 출력층은 같은 크기인가? RNN의 아웃풋은 Y값인가? 아니면 은닉값인가?

RNN을 공부하다 보면 아래의 그림들을 많이 볼 수 있습니다. 왼쪽의 그림은 RNN을 통과하여 결과값 까지의 흐름을 나타낸 것이며, 오른쪽 그림은 RNN내부의 구조를 나타낸 것입니다. 따라서 이번 RNN을 공부하는데 있어 결과값은 출력하지 않으며 RNN은 은닉상태를 출력한다고 생각하면 됩니다. 두 그림을 같은 그림으로 혼동하시면 안됩니다.

RNN

RNN의 특징은 입력이 은닉층 노드(A)에서 활성화 함수(tanh)를 지나 나온 결과를 출력으로 보냄과 동시에 은닉층 노드(A)로 다시 보내 다음 들어올 입력을 계산할 때 도움을 줍니다. 그림은 아래와 같습니다.

왼쪽의 그림을 나열하면 오른쪽의 그림과 같이 펼칠 수 있습니다.

예를 들어 "나는 밥을 먹었다" 라는 문장을 RNN의 입력으로 받는다고 생각하면, 우선 "나는"의 입력벡터가 x0의 입력으로 들어가며 은닉측 노드(A)와 활성화함수를 지난 결과값이 h0 출력 벡터로 보내집니다. 그 다음 "밥을"의 입력벡터가 x1의 입력으로 들어가며, x0의 은닉측에서 나온 값은 x1의 은닉층으로 보내지며, 이를 은닉 상태(hidden state)라고 합니다.

Input

Embedding에서 나온 output이 RNN의 입력으로 들어가게 됩니다.

앞선 예에서 아래 3개의 문장은 전처리 및 임베딩을 거쳐 3, 4, 100의 Shape을 가졌습니다.

["나는 밥을 먹었다", "나는 학교에 갔다", 오늘 학교에 선생님이 오셨다"]

복습하자면, 3은 샘플의 수(batchsize), 4는 sequence_length, 100은 embedding에서 설정한 단어의 임베딩차원 이었습니다.

그렇다면 임베딩을 거쳐 RNN을 통과한 output은 어떤 형태일까요? 기억해야 할 점은 지금 설명하는 부분은 분류, 번역등의 task를 위한 출력층까지의 단계를 설명하는 것이 아니라 RNN 층에 대한 설명이며, RNN층이 리턴하는 결과값은 출력층의 값이 아닌 은닉상태 입니다.

Output 1

"나는 밥을 먹었다"의 문장을 RNN의 입력으로 넣어보겠습니다. 앞서 Keras Embedding층을 거친 값을 가져오겠습니다. 나는 밥을 먹었다는 띄어쓰기 기준으로 3개의 단어지만 앞서 가장 큰 길이인 4로 padding을 했기 때문에 시퀀스 길이가 4이며, 단어 백터의 차원의 경우는 100으로 Embedding를 통과했습니다. 또한, RNN의 입력을 위해 batch size를 추가하였습니다. 하나의 문장이기 때문에 1을 추가했습니다. RNN 층은 (batchsize, sequence_length, input_dim) 크기의 3D 텐서를 입력으로 받습니다.

1, 4 , 100의 입력이 들어가 1, 3의 출력이 나왔습니다. 1, 3은 마지막 시점의 은닉 상태 입니다. 출력 벡터 차원은 hidden_size의 값인 3입니다.

아래 그림은 나는 밥을 먹었다의 문장이 embedding을 거쳐 rnn의 입력, 출력과정을 나타낸 그림입니다.

Output 2

RNN에는 return_sequences라는 옵션이 있습니다. 기본은 Fasle입니다. True일 경우 어떤 output을 출력할까요?

기존 1, 3출력이 아닌 1, 4, 3의 출력을 나타냅니다. 그렇다면 return_sequences=True의 역할은 무엇일까요? 바로 모든 셀의 은닉상태를 retrun한다고 생각하면됩니다.

아래 그림은 나는 밥을 먹었다의 문장이 embedding을 거쳐 rnn(return_sequences=True)의 입력, 출력과정을 나타낸 그림입니다.

저작자표시 비영리 변경금지

'데이터분석 > NLP' 카테고리의 다른 글

[NLP] Python WordCloud 그리기 (0)	2021.11.21
[Keras] Embedding에 대해 알아보자. (3)	2021.08.05
[soynlp] 띄어쓰기 교정 모델 (0)	2020.05.11

[Keras] Embedding에 대해 알아보자.

2021. 8. 5. 11:07

최근 NLP를 공부하며, 막연히 남들이 작성한 코드를 통해 분류모델을 만들었습니다.

그러다 보니 모델안의 데이터의 흐름을 알 수 없어, RNN계열, 더 나아가 트랜드포머, 버트등의 모델을 이해하는데 어려움을 느꼈습니다.

그래서 데이터의 흐름을 알아가고자 keras의 Sequential 선언 후 사용하는 Embedding에 대해서 알아보고자 합니다.

Embedding 선언

    model = Sequential()
    model.add(Embedding(len(word_index) + 1,
                     300,
                     input_length=max_len))

keras에서는 Sequential() 선언 후 Embedding을 추가합니다.

인수

(len(word_index)) + 1 : 단어 목록의 크기

300 : 임베딩의 차원

input_length=max_len : 인풋 시퀀스 길이

예시

아래 세가지의 문장이 있습니다.

["나는 밥을 먹었다", "나는 학교에 갔다", 오늘 학교에 선생님이 오셨다"]

기계는 text를 이해하지 못하기 때문에 정수 인코딩을 진행합니다. 따라서, 아래와 같이 변환합니다.

[[1, 3, 4], [1, 2, 5], [6, 2, 7, 8]]

정수 인코딩을 살펴보면, 1 = "나는" , 2 = "학교에", 8 ="오셨다"로 변환된 것을 볼 수 있습니다.

다음 모든 문장의 길이를 맞추기 위해 padding을 해줍니다. 위의 문장 중 가장긴 문장은 "오늘 학교에 선생님이 오셧다" 이며 이문장의 길이는 "4"입니다. 따라서, 모든 문장의 길이를 4로 맞춰줍니다.

[[1, 3, 4, 0], [1, 2, 5, 0], [6, 2, 7, 8]]

자 이제 Embedding에 들어갈 수 있는 전처리가 완료되었습니다. 앞의 인수를 적용하게되면, 첫 번째 단어 목록의 크기의 경우 1~8단어가 있습니다. 그런데 +1을 해주는 이유는 패딩을 위한 토큰0을 포함하기 위함입니다.

임베딩의 차원은 100으로 정하며, input_length는 앞서 정한 4로 맞춥니다. 그럼 준비한 input data를 Embedding에 넣어 output의 형태를 확인해보겠습니다.

기존의 3, 4의 input data가 3, 4, 100의 output data로 출력되었습니다. 이렇게 된 이유는 각각의 단어들 예를들어 나는이란 단어가 기존의 1로 정수 인코딩 되었다면, Embedding층을 통해 100차원으로 변경된 것 입니다. 이부분을 확인하기 위해 첫번째 문장의 나는과 두번째 문장의 나는을 출력해 보겠습니다.

각 벡터의 값이 같음을 확인할 수 있습니다. 또한 여기서 중요한 점은 이 벡터들은 고정된 값이 아닌 학습을 통해 변화되는 값임을 인지해야합니다.

아래 그림은 위에서 만든 model의 summary 입니다. 왜 학습 Param이 900일까요?

이유는 앞서 정의한 단어의 크기 9 x 백터의 차원 100을 나타내는 것 입니다.

다음은 Embedding을 거친 값이 RNN에서 어떻게 작동하는지 확인하는 글을 포스팅하겠습니다.

저작자표시 비영리 변경금지

'데이터분석 > NLP' 카테고리의 다른 글

[NLP] Python WordCloud 그리기 (0)	2021.11.21
[Keras] RNN 내부동작 알아보기 (0)	2021.08.05
[soynlp] 띄어쓰기 교정 모델 (0)	2020.05.11

[Python] url 파일다운로드 에러 - UnicodeEncodeError: 'ascii' codec can't encode character

2021. 7. 21. 12:56

python을 통해 pdf파일을 다운받는 중 제목과 같은 에러가 발생하였습니다.

에러 발생코드

import urllib
from random import randint

# a는 pdf주소가 저장된 list / b는 pdf문서 이름이 저장된 list
for i, n in enumerate(tqdm_notebook(a)):
	#random sleep
    sleep(randint(1,10))
    #주소를 통해 파일 다운로드
    urllib.request.urlretrieve(n, "{}.pdf".format(b[i]))

발생이유

https://file.download.com?file=1440047203387.pdf&path=001&downFile=파일다운12해보자.pdf

위와 같은 url에서 파일다운12해보자 부분을 encoding할 수 없어 발생하는 에러입니다.

해결

urllib라이브러리 quote_plus를 이용하여 urlencoding를 진행하면 됩니다.

저작자표시 비영리 변경금지

'언어 > Python' 카테고리의 다른 글

[Python] 'tqdm_notebook' object has no attribute 'delay' (0)	2021.10.25
[python] 공공데이터 포털 API사용 (0)	2021.08.10
[Python] 'list' object has no attribute 'split' (0)	2020.05.12
[Python] 리스트 안의 숫자를 문자로 변경하는방법 (0)	2020.05.11
[Python] transport_encoding 오류 해결방법 (0)	2017.11.18

PREV 1 ···7 8 9 10 11 12 13 ···16 NEXT

Taegu

전체 글

[Python] 'tqdm_notebook' object has no attribute 'delay'

'언어 > Python' 카테고리의 다른 글

[미국주식] 미국주식 10년 종가 plot with Python

'투자 > 미국주식' 카테고리의 다른 글

[미국주식] 미국주식 종목 불러오기 with Python

'투자 > 미국주식' 카테고리의 다른 글

[mac m1] Visual Studio Code에 anaconda 가상환경 연결

'데이터엔지니어 > etc' 카테고리의 다른 글

[python] 공공데이터 포털 API사용

'언어 > Python' 카테고리의 다른 글

[Keras] RNN 내부동작 알아보기

'데이터분석 > NLP' 카테고리의 다른 글

[Keras] Embedding에 대해 알아보자.

'데이터분석 > NLP' 카테고리의 다른 글

[Python] url 파일다운로드 에러 - UnicodeEncodeError: 'ascii' codec can't encode character

'언어 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바