Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Colab
- MatrixFactorization
- str.replace
- implicitData
- Python
- gluonnlp
- iterrows
- BloombergMarketConcepts
- jsonl
- jsonlines
- MySQL
- VScodeNotResponding
- session-basedRecommendation
- wordembedding
- vscode
- Cast
- DIF_SR
- ExplicitData
- json
- decimal error
- LatentFactorModel
- Convert
- 텐서플로자격증
- pandas
- numpy.bool
- Visualization
- TensorflowDeveloperCertificate
- github2FA
- 지도시각화
- sshtunnel
Archives
- Today
- Total
목록keras (1)
garret
[NLP] Word Embedding 개념
NLP의 word Embedding 공부기록 자연어 처리에서 특징 추출을 통해 수치화할 때 사용하는 언어의 벡터화 Word Embedding : 벡터화의 과정 The curse of dimensionality 데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상 차원이 증가할수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생 Word Embedding의 종류 1. Sparse one-hot encoding : 공간적 낭비 발생, 단어 의미 표현 못함 2. Dense 단어빈도 기준으로 벡터화 1) CountVectorizer : 각 텍스트에서 횟수 기준으로 특징 추출 2) TfidVectorizer : TF-IDF 이용해 텍스트 데이터의 특징..
AI
2023. 5. 17. 11:34