일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- MySQL
- implicitData
- MatrixFactorization
- json
- TensorflowDeveloperCertificate
- pandas
- iterrows
- decimal error
- jsonlines
- Colab
- VScodeNotResponding
- sshtunnel
- 지도시각화
- str.replace
- Visualization
- Python
- Convert
- gluonnlp
- Cast
- LatentFactorModel
- session-basedRecommendation
- BloombergMarketConcepts
- 텐서플로자격증
- numpy.bool
- wordembedding
- jsonl
- github2FA
- ExplicitData
- DIF_SR
- vscode
- Today
- Total
목록분류 전체보기 (42)
garret

알고리즘 공부하면서 알게 된 join() 함수. split() 과 비교하면서 공부하면서 좋을 거 같아 정리. split() 함수 string.split(separator, maxsplit) split() 함수는 string을 list로 분할해주는 함수. separator character를 기준으로 분할된다. separator의 디폴트 값은 공백(whitespace) maxsplit에는 분할할 개수 지정 split() 사용예시 txt = "mango$blueberry$kiwi$melon" x = txt.split('$',1) print(x) $ 기준으로 분할하고 1번만 분할하라는 뜻 1번만 분할되어 2개의 element로 쪼개진 걸 확인 할 수 있다. join() 함수 string.join(iterabl..

SIGIR 2022 발표 홍콩과기대와 Upstage에서 발표한 논문 해당 논문은 Sequential Recommendation 중에 Session-based recommendation 논문 링크 : https://arxiv.org/pdf/2204.11046.pdf 논문 읽기전에 알면 좋은 개념 Side Information 사용자의 특성, 아이템의 특성(attribute) 또는 예측에 도움이 되는 추가 정보들 Session이란? 유저가 상품을 실제로 구매하기 전까지의 히스토리 Session-based Recommendation vs. Sequential Recommendation 💡 SBR과 SR은 데이터 사용하는 방식만 다르고 모델구조는 거의 동일하게 사용 SBR 세션을 기반으로 Next interac..

백준 알고리즘 문제를 풀면서 알게된 sys.stdout.write()함수. 출력함수인데 print() 비슷한 듯 다른 것 같아 차이점을 정리해보았다. sys.stdout 정의 used for the output of print() and expression statements and for the prompts of input(): sys.stdout.write()와 print의 차이 출력 형태 sys.stdout.write() 줄바꿈없이 이어서 출력 print() 줄바꿈하여 출력 sys.stdout.write 출력 예시 import sys for i in range(5): sys.stdout.write(f"{i}") ※ 주의사항 ※ sys.stdout.write는 string만 넣을 수 있다. str말..

데이터에서 원하는 DataFrame으로 만든 후 correlation 구하려다가 마주친 에러. chatgpt에게 해당 오류 관련해 물어보니 다음처럼 알려줬다. Pandas DataFrame에 Styler.apply 또는 .applymap을 사용하여 스타일을 적용하려고 할 때, DataFrame의 인덱스 또는 컬럼이 고유하지 않으면 위와 같은 KeyError가 발생합니다. 이는 Pandas가 스타일 적용 시 모호성을 초래할 수 있기 때문입니다. 이 오류를 해결하려면, 인덱스 또는 컬럼을 고유하게 만들거나 다른 방법을 사용하여 스타일을 적용해야 합니다. 가능한 해결책 중 하나는 Styler.apply를 사용하여 DataFrame을 입력으로 받아 스타일이 적용된 DataFrame을 반환하는 함수를 작성하는 것..

RNN 공부 기록 Vanilla RNN (Simple RNN) 입력과 출력을 시퀀스 단위로 처리하는 시퀀스 모델 특징 : 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로 보내면서 다시 은닉층 노드의 다음 계산의 입력으로 보낸다 x : 입력층의 입력벡터 y : 출력층의 출력벡터 RNN 셀 : 은닉층에서 활성화 함수를 통해 결과를 내보내는 역할을 하는 노드, 이전의 값을 기억하려고 하는 일종의 메모리 역할 수행 은닉층의 RNN 셀: 각각의 time step에서 바로 이전 time step에서의 은닉층의 메모리 셀에서 나온 값을 자신의 입력으로 사용 hidden state : 메모리 셀이 출력층 방향 또는 다음 시점인 t+1의 자신에게 보내는 값 RNN 종류 one-to-many : 하나의..
요즘 알고리즘을 공부하면서 백준문제를 조금씩 풀어보고 있다. 솔루션을 보면 입력값을 받을 때 sys.stdin.readline을 종종 사용하길래 chatgpt에게 물어보았다. chatgpt의 sys.stdin.readlin 설명 sys.stdin.readline()은 파이썬에서 입력을 받는 함수 중 하나입니다. input() 함수와 비슷한 역할을 하지만, input() 함수보다 더 빠르게 입력을 처리할 수 있습니다. sys.stdin은 파이썬에서 기본적으로 제공되는 표준 입력 객체입니다. sys.stdin.readline() 함수는 이 표준 입력 객체에서 한 줄씩 문자열 형태로 입력을 받습니다. 따라서, 문자열을 입력받을 때 사용합니다. sys.stdin.readline() 함수는 입력된 문자열의 맨 끝..
NLP의 word Embedding 공부기록 자연어 처리에서 특징 추출을 통해 수치화할 때 사용하는 언어의 벡터화 Word Embedding : 벡터화의 과정 The curse of dimensionality 데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상 차원이 증가할수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생 Word Embedding의 종류 1. Sparse one-hot encoding : 공간적 낭비 발생, 단어 의미 표현 못함 2. Dense 단어빈도 기준으로 벡터화 1) CountVectorizer : 각 텍스트에서 횟수 기준으로 특징 추출 2) TfidVectorizer : TF-IDF 이용해 텍스트 데이터의 특징..
python에서 JSON 파일 생성하는 법을 실습해보았다 실습용 DataFrame 만들기 import pandas as pd data_a= [['A',1,90,4],['B',2,88,5],['C',3,85,3.5]] df_a= pd.DataFrame(data_a, columns=['name','level','score','time']) df_a name level score time 0 A 1 90 4.0 1 B 2 88 5.0 2 C 3 85 3.5 01. 기본 JSON 생성 dictionary 형태로 만들어서 json.dumps()함수로 python 객체를 json 데이터로 변환한다 import json dict1={} for idx, row in df_a.iterrows(): name = row['..