일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- #이코테2021
- zerodivide
- 글또8기
- 나동빈
- Graph Representation Learning
- 알고리즘
- #나동빈
- 데이콘 필사
- 백준
- 이코테
- allow_pickle
- 추천시스템
- BruteForceSearch
- 그래프란
- nan값
- 코테공부
- CS224W
- numpy
- 파이썬 머신러닝 완벽가이드 공부
- 추천시스템 입문
- 소수 판정
- 에스토스테네스의 체
- BruteForchSearch
- paper review
- 질문 정리
- 논문리뷰
- 유클리드 호제법
- graph
- 수학
- 강의정리
Archives
- Today
- Total
꾸준히 써보는 공부 기록
추천시스템 입문 세미나 질문 정리 본문
간단한 질문들 !!
- Q) 컨텐츠 필터링을 이렇게 이용하는 경우가 가능할까요? 예를 들자면, A형 혈액형을 가진 유저에 대한 문서 doc와 남산타워 데이트에 대한 문서 doc가 다른 문서들보다 유사성이 높게 나왔다고 할 때, A형 혈액형 유저에게 남산 타워 데이트를 추천하는 것이 적절한가요? (이것은 아까 설 명하셨듯이 상관관계가 인과관계를 함축하지 않는다에 위배되는 것 같기는 합니다만, -- 만약 이것이 좋지 않은 접근이라면 -- 위 예 같은
A) 이건 상관관계 인과관계 예시가 아닌거 같다. 그래서 추천 시스템 알고리즘은 여러개 사용한다. 하나만 사용하면 놓칠 수 있기 때문이다. 그래서 후보군을 여러개 사용하고 그 중에서 골라서 사용하게 되다. 결과적으로 더 좋은거 쓴다는 의미이다. 예를 들면, 추천 시스템 10가지 만들고 정확도나 평가 지표를 기반으로 모델마다 가중치를 둔다. - Q) 말씀하신 것처럼 vector similiarty metric 에 대해 결과가 각각 다를거라 생각되는데요. 실제 사용하시면서 대표적인 케이스를 접목하여서 실증적으로 어떨때 어떤것 사용한다는 듯이 간략히 언급해주실수있을까요?
- Q) 여러 유사도 지표들을 같이 고려해야할 경우가 있을 것 같은데, 특정 컬럼들에는 유클리디안을, 특정컬럼들에는 코사인 유사도를 사용하여 조합하는 경우도 있나요?
A) 사용되는걸 본 적은 없지만, 사용은 할 수 있을거 같다. 한번 시도해보자 ! - Q) 각 유사도 방법마다 결과값이 다른데, 어떤 기준으로 우리 서비스에 맞는 방법이라고 판단 할 수 있을까요?
A) 성과 지표를 기준으로 평가를 하게 된다. 이 영화를 추천했을 때 보냐 안보냐와 같은,, - Q) 그러면 서로 다른 유사도는 어떻게 조합하나요? 집단별 다른 유사도를 적용한다는 건가요?
A) 유지가 되니깐. 결과를 순서대로 추천해줄 수도 있다. 모델 별로 할 수도 있다. n * n의 유사도를 연산한 matrix가 나오게 되는데, 유사도 값에 적절히 가중치를 줘서 더해서 만들어도 됨. - Q) vectorizing 하실 때 명사를 제외한 pos tagging 하실 때 다른 품사들을 섞었을 때 evaluation 하실 때 유의미한 상승효과가 있으셨을까요 ?
A) 효과가 있을 때도 있고 없을 때도 있다. domain에 맞춰서 해야 한다. meta data에 구린 data가 많은데 필요한 데이터만 전처리 해주는 것이 중요하다. 보통 명사만 사용하는 것이 보편적으로 좋다. 전처리 단계에서 진행된다고 생각하면 된다. 예를 들면 감성 표현 같은 경우에는 특수 문자가 중요한 경우가 있기 때문에, domain에 따라서 달라진다. - Q) TF-IDF는 꽤 원시적인 방법인 것 같고, 실제로 교과서 앞부분에 나오는 것이라 현업에서도 사용하나 의문을 갖고 있었는데요, 경험상 실제로 TF-IDF를 (최근 시점에) 사용하는 경우를 보신 적이 있으신가요?
A) 현업에서 사용하진 않지만 프로젝트에서는 사용되는거 봄. 단점이 critical하기 때문에 잘 사용되지 않는 듯. data가 많은 곳에서는 사용되기 힘들다. - Q) 사용자와 아이템 간의 interaction data가 없는 완전 콜트 스타트 상황에서, 특정 사용자 클래스에게 특정 아이템을 추천해주고자 하는 프로젝트를 해보고 싶습니다. 상업적인 것이 아니어서 말씀드리자면 가령 혈액형 별 데이트코스 추천 프로젝트를 소규모로 진행해보고 싶은데요, 제가 이것을 해보려고 컨텐츠 기반 필터링 (신경망) 협업 필터링 모두 찾아봤는데 이들 중 어떤 것도 위 같은 태스크에 적합하지 않은 것 같더군 요. 선생님께서 보시기에도 그러신가요? 저는 사용자 문서와 아이템 문서 유사도 비교가 최선이라고 생각했습니다. 보통 이런 경우에는 콜드 스타트를 피하기 위해 네이버 조회수 별로 추천해주는 것이 좋을까요?
A) 뉴스같은 경우는 클릭후 체류시간, 영화는 평점, 클릭율 등 도메인마다 다양하다!저는 추천한 상품이 얼마나 구매로 이어지는지를 했는데, 카카오의 뉴스추천사례나 유튜브 사례를 보니 체류시간으로 했을 때 더 좋은 결과를 봤음. - Q) Meta data란 ???
A) 영화를 예를 들면, 영화 발매일, 평점, 내용, 장르 등 얘를 의미하는 데이터들. 책의 경우에는, 작가,출판사,발매일 등의 데이터, 얘를 특정 짓는 데이터를 의미함.
'추천시스템' 카테고리의 다른 글
Matrix Factorization Techniques for Recommender Systems 리뷰 (0) | 2022.01.12 |
---|---|
추천 시스템이란 (0) | 2021.12.30 |
Comments