본문 바로가기

전체 글

(22)
딥다이브 8월 활동 정리 및 회고록 8월 한 달간 했던 활동과 관련한 공부 복습을 진행해보려고 한다. 총 8회차에 걸친 딥러닝 입문에 대한 스터디를 진행한 후 토이프로젝트에 들어갔다. 스터디에서 배운 내용을 짧게 요약하자면 다음과 같다. 데이터 분석에 대한 전체적인 프로세스는 다음과 같다 .[ 문제정의 - 수집 / 전처리 - EDA - 모델링 - 평가 ] 2회차 - 크롤링 ( 데이터 수집 )크롤링이란 웹페이지에 있는 정보를 가져오는 것이다. 정보를 가져올 때 정적으로 가져올 것이면 BeutifulSoup 라이브러리를 사용하고 동적으로 가져올 것이면 셀레니움을 사용한다.3회차 -비지도학습비지도학습이란 말은 말 그대로 지도하지 않는 뜻이며 이 말은 레이블이 없다는 뜻이다. 데이터의 레이블 없이 데이터의 특성 분포를 파악하는 방법이다. 군집화 ..
딥다이브 2주차 CV-Detection 비전, 영상 처리에서 나오는 용어 Detecion: 말그대로 탐지하는 것, 하나의 영상에서 대상을 찾음 Recognition: 대상이 무엇인지 식별하는 것얼굴 인식을 할 때 얼굴을 찾고 (detecion) 찾은 얼굴이 누구인지 식별(Recognition)한다. Tracking:  특정 대상의 위치 변화를 추적하는 것으로 history 정보 필요 detection에서는 현재의 입력값으로 대상을 찾을 수 있어야하기에 객체모델 , 검출 알고리즘이 영상 속 다양한 변화를 커버할 수 있어야한다.  이번 우리 팀 프로젝트( 파리 올림픽 영상 속 인물 인식 후  선수 정보 보여주기)는 컴퓨터 비전 부분을 선택하게 되었고 그 중 Detection 방법을 사용할 것이다.  Detection이란 ?사진이나 비디오 프레임과..
딥다이브 - Facenet 관련 개념 정리 Faecnet 이란 ?구글에서 발표한 얼굴 인식을 위한 딥러닝 모델얼굴을 임베딩 벡터로 변환하고 유사한 얼굴은 가까운 벡터로! 다른 얼굴은 먼 벡터로 !  얼굴 인식 작업을 위해 설계된 cnn 아키텍쳐 1. 얼굴 감지 -MTCNN ,Haar cascade Face Detection, Dlib 얼굴 인식을  통해서 2. 얼굴 임베딩 - 얼굴에서 추출된 특성을 표현하는 벡터, InceptionResnet 모듈 이용3. 벡터 거리 계산 - Triplet Loss 이용해서 이루어짐 4. 얼굴 분류 - SVM  얼굴 이미지를 고차원 피처공간에 매핑하는 방법을 학습하는데 여기서 얼굴 임베딩 간 유클리드 거리를 통해 유사도를 측정한다. facenet은 훈련 중에 삼중 손실함수를 사용하여 같은 사람의 얼굴 임베딩이 피..
딥다이브 딥러닝 입문 스터디 6차- 임베딩 Representation표현: 데이터를 처리하고 컴퓨터가 이해하기 쉬운 형태로 변환하는 것, 데이터의 특징과 중요한 정보를 캡쳐하여 수치화하는 과정 1. discrete representation - one hot encoding 2. continuous representation - word 2 vec (2가 나오는 것은 어디로 보냇다는 to부정사의 2임 word embeddings를 통해 단어를 벡터로 표현 )  word2vec - 유사한 의미를 가진 단어들은 유사한 벡터를 가질 수 있도록 나는 -를 먹엇다 - 여기에서 빈칸은 대부분 음식을 가리키는 의미적 유사도를 가질 수 있음 나는 -를 보았다 - 여기에서 빈칸은 의미적 유사도를 가지기 어려움 , 범위가 너무 많음 입력 ->  neural net..
딥다이브 딥러닝 스터디 5차시 - 텍스트 데이터 전처리 NLP - 텍스트 데이터 전처리 / 텍스트 마이닝 지난 시간 복습 - 비지도 학습 :군집화, 차원 축소 - 지도학습: 분류, 회귀+semisupervised learning, self supervised learning(요즘 많이 씀) 레이블이 비용이 많이 들음 군집화에서 K-means 와 dbscan 알고리즘 배움 분류 - k-nn, decision tree 알고리즘 배움  더보기Natural Language Processing 자연어 처리 컴퓨터를 활용해 인간의 언어를 이해하고 분석하는 기술자연어 : 사람들이 일상생활에서 자연스럽게 사용하는 언어 체계  크게 4가지에 대해서 배울 것 1. 텍스트 분류 Text Classificationcase) 네이버 리뷰 분류 2. 텍스트 유사도 case) 네이버 ..
딥다이브 딥러닝 스터디 4차시- 지도학습 비지도학습 ( 레이블 없음 )- 군집화(dbscan, k-meas 알고리즘을 배움)- 차원축소  지도학습 (레이블 있음)데이터의 레이블을 기반으로 패턴을 학습하고 예측하는 방법 레이블 : 각 입력 데이터(특성)에 따라 예측해야하는 정답 정형 데이터의 2가지 분류 1. 범주형 데이터 : 주로 이름이나 레이블로 표현, 숫자가 의미없음- 명목형 데이터 : 순서나 순위가 없는 데이터 유형 ex) 성별, 직업, 혈액형 , 우편번호 , 주민등록번호 우편번호는 숫자를 사용하고 일정한 순서를 따르는 것처럼 보일 수 있지만 이러한 숫자가 실제로는 특정 지역을 식별하는 고유한 코드라는 점에서 서수형 데이터와 다르다. - 서수형 데이터: 정렬이나 순서가 의미를 가지는 범주형 데이터 ex) 불만족, 만족, 중립 과 같은 순위..
딥다이브 딥러닝 스터디 3차시 - 기계학습 [비지도학습] 머신러닝 - 기계에서 파이썬과 수학,통계학이 필요, 공부를 열심히 해야함 3,4일차에서 머신러닝과 비지도학습, 지도학습 할 것 5,6일차에서는 텍스트 마이닝 할 것 - 텍스트 속에서 인사이트 발굴하는 것 7,8일차에서는 딥러닝 , 신경망 까지 할 것  데이터 사이언스 - 문제 정의, 수집 전처리, EDA, 모데링, 평가의 과정을 포함크롤링을 배운 이유가 웹사이트에서 접근할 수 있는 것인지 판단함 수집 전처리도 중요함 - 어떤 데이터를 어떻게 다룰 것인지 중요함 이것에 따라 문제 해결에 다른 결과를 가져옴 EDA - 탐색적 데이터 분석 -데이터를 탐험해가는 것 -이때 데이터 시각화를 많이 해봄 모델링 - 알고리즘을 가져와서 잘 쓰면 됨 - 여기서 머신러닝과 관련이 있음 . 우리가 다룰 것 Anova, re..
딥다이브 딥러닝 스터디 2차시 - 웹크롤링 기초 강의 (1) 웹크롤링이란? 웹스크래핑: 직접 수집해오는 것 scrap-웹크롤링: 웹 여기저기 기어다니는 것 웹크롤링 안에 웹스크래핑이 포함됨 알면 좋은 점?: 웹상의 정보를 수집해서 스스로 데이터 베이스를 구축할 수 있음 텍스트 데이터:뉴스기사, 이미지 데이터:인스타그램, but 윤리문제있음 더보기더보기더보기How? 1. HTML 소스 코드 불러오기 - Request2. HTML 소스 코드 파싱하기 - BeautifulSoup3. 반복문을 활용하여 원하는 정보 추출하기  request 모듈을 통해 Jupyter Notebook 으로 가져옴 1. HTML 소스 코드 불러오기 - Requestimport requestsrequest.get('URL 주소') 2. HTML 소스 코드 파싱하기 - BeautifulS..