위치

요일

가능
시간
(날짜)

  • 오전6시 ~ 밤 2시(언제든 가능) (협의)
장소 : 온라인
추가비용 : 없음
* 모든 수강생기준 강의날 하루에 반드시 1번이상의 제출 / 전체 모델링은 의무적으로 경험하게되시며, 전체강의가 끝날때까지 기본적으로 최소 2개의 대회, 많은분은 3개의 대회까지 소화 가능하십니다! 또한 그 대회들에서 상위0.3%~2%의 성적을 달성할 수 있음을 약속 드립니다. * 첫수업은 1:1로 진행되는편인데, 요새는 첫수업부터 바로 대회를 진행하며 수업하고 있습니다.
₩18,500원 / 시간
₩148,000 / 총 4회 8시간
실시간 톡하기 찜하기
오정훈
캐글 폐인
[無 경험자 가능] 입.문.즉.시. 데이터 분석 레퍼런스 쌓기 #캐글 대회
  • 온라인
  • 2시간/회
  • 최대인원:2~4
  • ₩18,500/시간

튜터정보

  • 한양대학교 산업공학과
✔ 데이터로 분석 할거면, Kaggle로 하세요!

Kaggle은 크게 2가지 데이터셋이 마련되어 있습니다.
A. 캐글측에서 제공하는 튜토리얼 or 입문용 데이터셋
B. 실제 발생한 미션을 풀고자 기업들이 올린 데이터셋

A는 기본적인 데이터 분석 경험과 개념, 그리고 기초 실무를 익히는 데에 충분합니다.
B는 실무에서 겪을 수 있는 시행착오와 미션별 노하우, 결과적으로 역량을 확장하는 데에 필요한 일머리를 기를 수 있습니다.

부담없이 쌓을 수 있는 데이터 분석 경험.
제한없이 실무 데이터셋을 활용해보는 환경.
다른 데이터 분석가들과 점수를 비교해보는 측정.

이보다 좋은 트레이닝 필드가 어딨나요?


✔ kaggle 입문 계기

대기업 그룹 공채 면접장에서
캐글을 잠깐 언급했더니, 면접관님의 눈빛이 바뀌더군요.
(그때는 가입만 해둔 수준이었습니다..)

면접관이 면접자에게 적극적으로 관심을 보이는…!!

그런 특이한 경험을 계기로
캐글을 미친듯이 공부하게 되었습니다.

그러다가 재미를 붙여,
지금은 캐글 대회 90여개를 경험한, 유일무이한 탈잉 캐글 튜터가 되었습니다!


✔ Kaggle Competition 90여개를 경험해본 노하우

매일 하루 14시간.
캐글 대회 약 90여개.

제가 겪어온 데이터 분석 & 캐글 경험들입니다.
아무것도 모르는 맨땅에서 시작해서 시행착오와 좌절로 단련되었습니다.

시행착오와 좌절을 통해
가장 효율적이고 효과적인 방식, 그리고 가장 보편적으로 익숙해져야할 핵심 리스트를 갖게된 것이 저의 노하우 입니다.

무엇이 모델성능개선에 가장 핵심인지 잘 알고 있고,
빙빙 돌며 길을 잃지 않고, 지름길로 갈 수있는 방법을 제공할 수 있다고 자신합니다!

수업소개

✔ 데이터 분석 경험無, 여러분도 가능해요!

많은 분들이 캐글은 어느정도 능력있는
데이터 분석가들의 대회라고만 생각합니다.

실제로는 데이터 분석을 하나도 모르고 입문했어도
금방 대회 1~5% 최상위권 스코어를 받아낼 수 있는 곳입니다.

제가 그랬고,
제 수업에 참여하신 튜티 분들이 그랬습니다.

그리고, 여러분께도
제가 해낸 노하우를 아낌없이 알려드릴 예정이니까요 :)
*수업 수강하신 많은 튜티님들중(기본 베이스가 아예 전무한 상태로 들어오셨습니다.), 열심히 기본수업, 고급과정까지 마치신분들은 진행중인 대회에 나가서 상위10% 이내의 성적을 달성하시는 분도 있습니다~

✔ 수업 목표
1. 데이터 분석 역량 향상

ⓐ 실질적인 데이터 분석 적용을 통한 실무적 접근
ⓑ 가독성이 높은 코드 작성을 통한 효율적 접근
ⓒ 데이터 분석 전반적인 역량 확보

크게,
문제 상황 정의, 데이터에 대한 이해, 데이터 전처리, 모델 성능 개선 노하우
이렇게 4가지 영역에서 성장하는 것이 목표 입니다!


2. 캐글 성과

모델 점수 획득, 모델성능개선, Kaggle 리더보드 등수 올리기, 데이터분석 시간을 효율적으로 분배 및 최적화 등등, 입문자, 초보자분들도 천천히 상세하게 알려드립니다!

ⓐ 참여 대회 최상위권(1~2%) 진입 보장
샌프란시스코 범죄 다중 분류 대회, 워마트 판매량 Sale 예측, 타이타닉, 집값예측, 자전거 수요 예측등 레슨 때 지정된 대회에서 최상위권 진입이 보장 되고, 수준에 따라서 조금더 난이도 있는 대회에서 상위3% 이내로 진입하는 방법도 수업때 모두 경험하시게 됩니다

ⓑ 가능한 많은 대회 참여

모든 수강생 기준
강의날마다 반드시 1번 이상 제출,
전체 모델링을 의무적으로 경험합니다.

따라서, 강의 종료 때 최소 2개의 대회,
많으면 3개의 대회까지 소화합니다.

* 첫수업은 1:1로 진행되는편인데, 요새는 첫수업부터 바로 대회를 진행하며 수업하고 있습니다.


✔ 수업 방식

ⓐ 진행 방식

첫 대회를 통해 체계적으로 기본 제출 경험합니다.
그 뒤 준수한 성적을 달성하고,
모델의 성능과 점수를 올리기 위한
중~고급 스킬을 학습해서 최상위권으로 진입합니다.

이런 방식을 통해
여러 개 대회를 참여하지만,
각 대회에 대한 경험의 깊이가 충분하도록 진행할 예정입니다.

ⓑ 데이터 분석 관련 이론

데이터분석 이론과 기법을 아무리 많이 알아도
실제 분석을 진행하려고하면 막히는 현상을 겪습니다.

따라서, 본 수업은
데이터 분석과 모델 성능 개선의 가장 빠른 지름길을
찾아내고, 적용하는 실습 수업 위주로 진행합니다.

이론은 진행시 꼭 필요한 부분만 추려서
효율적으로 전달해드립니다.


✔ 수업 특징
ⓐ 완전하게 이해하고 직접 실습가능 할때까지 반복합니다.
ⓑ 왜 이런식으로 하면 모델 성능이 오르는지, 점수가 개선되는지에 대한 '이유'를 명확히 제시하는 수업입니다.
ⓒ 무엇이 모델성능개선에 가장 핵심인지, 지름길로 갑니다.


* 수업진행 참고사항
튜티님들이 어떻게든 혼자힘으로 해결할 수 있도록 상황을 만들어드립니다(답을 일부로 알려드리지 않고, 최대한 순간순간 위기상황에서 튜티님의 생각의 한계를 찍어보게 한뒤에 힌트만 드립니다). 데이터분석을 할때 반드시 겪는 시행착오를 일부로 제가 만들어서 튜티님이 그상황에서 어떻게 대처해야하는지를 배우시게 됩니다. 제가 생각하는 가장 좋은 수업은, 튜터가 없는 상황에서도 튜티님이 혼자서 데이터분석 / 머신러닝 프로젝트를 진행할때 혼자힘으로 처음부터 끝까지 대회 진행을 해내는 것입니다. 어떠한 데이터셋이 주어지더라도 당황하지 않고 헤쳐 나가는 것입니다. 위기 대처 능력이 데이터분석 / 머신러닝 딥러닝 프로젝트에 있어서 가장 중요한 역량이라고 생각하기 때문입니다~

수업대상

  • #데이터분석 입문
    - 비전공자, 또는 데이터 분석에 대해 처음 접하시는 분들
    (맨땅에서 시작한 경험이 있는만큼 동병상련의 마음으로 잘 이끌어드릴 수 있어요!)
    - 여러 데이터 관련 학원을 수강했지만, 수업 속도가 너무 빨라서 못 따라간경우(데이터 분석에 필수적인 부분이 아닌, 자꾸 쓸데없는것를 알려주니까 그럽니다ㅠㅠ 돈만 비싸구..)

    #캐글 성적
    - 전공 또는 분석 관련 강의를 수강한 적 있지만 캐글 Competition에 참여하지 못하고 있는 분들
    - 캐글 또는 기본적인 대회에 참여, 제출해본 경험은 있지만 리더보드에서 높은 순위를 달성하지 못했던 분들
    - 어딘가에 stuck되어 있지만 현재 상태에서 어떤 방향으로 나아갈지 인사이트가 필요하신 경우


    #데이터 분석 실무
    - 실질적으로 회사에서 요구하는 분석 미션을 잘 해낼 수 있을지 두려움을 갖고 계신 분들
    - 혼자서 데이터 전처리, 모델링, 예측, 검증, 제출 파이프 라인을 경험해보지 못했거나, 일부만 경험하신 분들
    - 로컬 환경 or 트레인 데이터셋에서의 모델 성능은 잘나오지만, 새로운 데이터를 처리하는 데에 어려움을 겪으시는 분들
    - 처음보는 unseen 데이터를 예측할 때 모델 성능이 급격하게 떨어지시는 분들

    #포트폴리오
    - 포트폴리오 작성시 "~대회에서 입상했습니다, ~데이터를 다뤄본 경험이 있습니다"외에 명확한 디테일과 분석방향, 근거를 확보하고 싶으신 분들

    포트폴리오 내용 구성 예시)
    "실제 어떤 대회에서 이러한 데이터를 가지고 어떤 문제점이 있는지 파악했으며, 데이터 전처리(피쳐 엔지니어링)을 진행함에 있어서 시각화를 통해 자연스럽게 데이터 분포와 구성을 보니 다른 수많은 모델들 보다 특히 XX모델이 이런류의 데이터셋에 가장 강력한 최적의 성능을 발휘 할 것 같다는 생각으로 (그냥 아는 모델 아무거나 사용해보고 운에 맡기는것이 아니라) 데이터 분석 및 모델링을 진행하여 ~%의 예측정확도와 상위X%의 성적을 모델링 시작한지 몇시간안에 달성할 수 있었습니다. 더욱 개선을 위해 앞으로 나아가야할 방향은 ~~입니다."

    "그냥 성능 뛰어난 머신러닝 모델을 사용하는 것이 전부가 아님을 알았습니다.. 정말 중요한것은, 데이터를 하나하나 노가다로 뜯어보고, 데이터의 패턴을 직접 본인이 파악한뒤, 강력한 새로운 파생변수를 생성해내어 우리 인간이 모델의 학습을 도와주어야 한다는 것이었습니다."

    #머신러닝 인터뷰(면접) 대비수업!(반응이 너무 좋으셔서 오픈합니다!)
    1:1로 추가요금을 받고 진행하고 있습니다! 튜티님의 포트폴리오 상황에서 면접관을 통해 어떤 질문들이 나올 수 있는지, 왜 이 질문을 하고 어떤 부분을 평가하고자 하는지, 이러한 내용은 최소한 알고가야한다! 등등!
    가장 대표적인 면접질문이 들어와도 꿀먹어리가 되는현상..! 을 막아보는 실전 인터뷰식 수업도 진행하고있습니다~ 문의주셔용

커리큘럼

1회차

* 자주 들어오는 질문 / 문의에 대한 답변!

Q. 실력이 부족한데 잘 따라갈수 있을까요..?
// 요구하는 개발 수준?은 어느 정도 되죠..?

Answer. 철저히 수강생분의 실력에 따라서 수업의 속도와 난이도가 결정됩니다. 처음 수업을 5분만 해봐도, 질문을 계속 드리면서 진행하기 때문에 자연스레 튜티님들이 실력파악이 어느정도 가능합니다! 수준별로 수업속도와 학습내용이 튜티님의 상황에 맞게 즉각즉각 제공됩니다.
Example) 가장 핵심만 쏙쏙! 수업하는 경우 : 입문, 비개발자, 비전공자 등등!
똑같은 대회를 하더라도 여러 심화버전을 함께 수업하는 경우 : 관련 경험이 있으신분들, 질문을 드렸는데 답변의 상태가 심상치 않은 분들의 경우!, 질문의 깊이가 차원이 다른경우!


1. 수준을 알아야 효율적인 수업진행이 가능하다고 생각합니다.
학생 개개인의 데이터분석 실력과 캐글경험에 대해서 전반적으로 파악합니다.

2. 수업의 방향성
수강생분이 어떤 방향의 수업(이론중심 or 실습중심)을 원하시는지, 어떤 분야에 관심이 있으신지(정형데이터, 비정형데이터), 어떤 대회를 특히 경험해보고 싶어하시는지에 따라 커리큘럼이 수정될 수 있습니다.

3. 바로 대회 시작! (즉시 성적 상위5%대 달성 가능)
첫날 바로 대회를 시작해서, 보통 2~3개월 정도 진행되는 대회를 2시간만에 모두 겪어보실수 있습니다. 데이터 전처리부터 모델링까지 모두 다루며, 빠르게 진행한다고해서 중요한 부분을 경시하고 넘어가지 않습니다. 머신러닝에 있어서 중요하다고 생각되는 부분은 반드시 이해시키고 실습하며 넘어갑니다.

4. 입문자들이 가장 많이 하는 실수들에 대해서 다루고, 위기 / 상황에 따라서 어떻게 대처해야 하는지에 대해서 배웁니다.

2회차

데이터분석 및 모델 베이스라인 구축 전체 파이프라인 초급기술 및 꿀Tip 설명

* 헛짓하며 삽질해서 시간낭비하는 데이터분석은 그만!

- 대부분의 대회에 적용되는 가장 기초적이면서도 중요한 분석기법 학습
1. 카테고리형 데이터, 문자열 데이터등 모델이 NONO! 하며 거부하는 데이터, 우리의 모델이 먹기좋게, 소화하기 쉽도록 변신작업! 시작!
2. 결측치, missing value에 대한 상세한 처리방식 학습 및 그 이유, 아웃라이어(이상치, 극단값)

- 빠르게 인사이트를 얻기위한 보조 tool로써의 데이터 시각화 활용

- 데이터 맞춤식 모델 선택의 중요성
1. 좋은 모델이라고 아무모델이나 사용한다? NO!
모델에게 학습을 일임하는게아니라, 사용자가 직접 모델이 소화하기 좋게 데이터를 정제하고, 그 데이터를 잘 처리할 수 있는 특정 모델을 골라야 한다. 데이터의 특징에 맞는, 복잡도에 맞는 최적의 모델을 고르고, 초장부터 남들보다 앞서나가자!

2. 좋은 모델을 골랐으면 그에 맞는 하이퍼파라미터 튜닝이 필요하다!
*하이퍼 파라미터는 직접 손으로 찾는것이 가장 중요하다. 각 하이퍼파라미터의 역할과 중요성, 그리고 모델 학습방향에 가장 큰 역할을 하는 가장 중요한 하이퍼파라미터는 무엇이며, 어떻게 하나하나 바꿔나가면서 튜닝해야하는지, 직접 손으로 구현하며 그 방법에 대해서 차근차근 알아보자!

* 항상 성능을 극대화하기 위한 튜닝은 중요하지만 튜닝만 몇시간이 걸려버린다 ..?
여기서 함정은 과연 무엇이고, 과연 어떤 튜닝 방식을 사용해야 제한된 시간내에 최적의 파라미터를 찾을 수 있을까?

* 튜닝을 할때 어떤순서로 하는것이 가장 효율적이고, 어떤 하이퍼파라미터를 바꿔주어야 실질적인 모델 성능 향상을 이루어낼 수 있을까?

3. 모델을 이해해야 그제서야 제대로 쓸수있다.
상황에 따라서 어떤 모델을 사용해야하는지에 대해서는, 모델이 어떤식으로 동작하는지, 데이터를 학습하는지, 어떤 패턴을 잘 주목하는지에 대해서 잘 알아야 한다고 생각하기에, 수준에 맞게 모델설명, 장단점, 언제 사용해야 효과가 좋은지에 대해서 알아봅니다~

4. 변수 중요도, 피쳐 임포턴스(Feature Importance)를 제대로 해석하는 방법!<심화과정>
모델이 학습할때 가장 중요한 칼럼이 무엇이었는지(모델이 데이터패턴을 파악할때 가장 가중치를 준 칼럼, 눈여겨 본 피쳐) 알아보고 앞으로 어떤식으로 머신러닝 프로젝트를 진행해야하는지 알아봅니다!
그리고 과연 어떤피쳐가 타겟값형성에 좋은영향을 줬는지, 나쁜영향을 줬는지 해석해보고 앞으로, 모델 해석을 통해 회사 의사결정에 도움을 줄 수 있는 방법, 고객 타겟팅을 어떤식으로 해야할지, 마케팅방향에 대해서 알아 볼 수 있습니다.

3회차

데이터분석 및 모델 베이스라인 구축 전체 파이프라인 중급기술 및 꿀Tip 설명

- 지난시간에 진행한 대회에서 검증 및 제출한 모델 성능을 어떻게하면 더더욱 끌어올릴 수 있을까? 우리가 놓치고 있는 부분을 뭘까? 고민하고 토론하며 진짜 최상위권으로 도약하기 위한 준비

- 끝까지 어떻게든 최후의 1%의 성능이라도 잡아내려는 마음가짐이, 남들과 다른 우월한 점수를 낼 수 있는 핵심! 과연 그 핵심 방법에는 무엇이 있을까?

- 어떤 위기 상황이 닥쳤을때, 어떻게 하면 그 상황을 헤쳐나갈 수 있을까?
데이터분석과정은 너무나도 고통스러운 시간.. 혼자 하려고하면 막혀서 앞으로 나아가지를 못하는데, 최소한의 힌트를 드리면서 튜티님들이 혼자힘으로... 어떻게든 해결할 수 있도록 어떻게든!! 발판마련!

- 도메인 지식을 활용한, 모델이 잘못학습하고 있는 부분을 우리 인간이 직접 찾아내서 보정하기

- 더러운 데이터셋은 우리가 일일이 하나하나 뜯어보며 노가다로 처리해주면 줄수록 모델이 훨씬 학습을 잘 할 수 있게되고, 모델이 데이터의 패턴을 잘 잡아낼 수 있도록 우리인간이 도와주어야 하는내용.

- KFold 크로스 벨리데이션 시스템.. 무슨 내용인지는 알아도 우리가 직접 구현해보려고하면 항상 막힌다..! 우리가 혼자힘으로 코드작성할 수 있도록 배워보자! 왜 CV시스템을 구성해야하고 어떠한 이점을 위해서 굳이 불편하게 모델링을 하는지에 대해서 배웁니다!<심화과정> 머신러닝 심화과정은 따로 문의주세요~

4회차

앙상블 / 스태킹 방법론에 대해서 학습합니다.

우리가 중요한 피쳐를 생성하는, 일반적인 피쳐엔지니어링 방식을 떠나, 딥러닝을 활용해서 모델이 알아서 중요한 피쳐를 뽑게해서 성능을 올려버리는 방식을 다룹니다. 실제로 무조건 구현해보면서 자기것으로 만듭니다.


* 텍스트마이닝 / 이미지데이터 관련 딥러닝 수업문의에 대해서 안내해 드리겠습니다.

제가 정형데이터 만큼 비정형데이터에 대해서 숙련도가 높은 상황은 아닙니다. 하지만 음성 데이터 관련, 자연어처리, 이미지 분류대회, 이미지 픽셀 분류 대회등등 많은 경험을 쌓으며 어떻게든 추후에 수업이 가능하도록 노력, 연마하고 있습니다.

텍스트마이닝관련은
0. Mercari Price Suggestion Challenge 온라인 상품 가격 추천 대회
1. 영화리뷰 / 감정분석 대회
2. 구글 Word2vec Bags of Popcorn 대회
3. 문장만 보고 어떤 작가가 쓴 글인지 분류하기 대회
4. 전세계 요리재료 텍스트로 실제 어떤요리인지 예측하기 대회
등과 같은 대회에서는 캐글 리더보드기준 상위1% 정도의 점수를 뽑아낼 수 있음을 알려드립니다.


머신러닝에 있어서 MLP 딥러닝 기법을 사용한 수업은 몇몇 머신러닝 대회를 진행할때 같이 진행하고 있습니다~

5회차

https://taling.me/Talent/Detail/11963
딥러닝 이미지 분류 대회 깨부수기 강의를 오픈했습니다!!

가볍게 이미지분류 대회에서 상위1%~5%를 달성해봅니다!

- 텍스트마이닝 / 자연어 처리 딥러닝 대회는 따로 문의주세요~
1. 악성 댓글 판독 대회
2. 어떤 질문이 과연 중요한(의미있는 질문인지) 내용을 포함하고 있는지 판별 대회
3. 두개의 질문이 들어왔을때 과연 그 두개의 질문은 같은 내용인지 판별 대회
4. 영화 리뷰 감정분석(5단계 분류 대회)
등등을 다루고 최상위권 성적을 달성해봅니다

6회차

머신러닝 기본반 수업을 끝내고 고급반 수업으로 넘어가시면 현재 약 6000여 팀이 참가중인 집값예측 대회에서 실제로 상위0.8%(50등 이내) 안쪽 성적을 달성하고 리더보드에 튜티님의 이름을 올려봅니다! 하지만 데이터셋은 매우 더럽기때문에 오류가많고, 더러운 데이터셋을 처리해야할때 어떤식으로 대처하는지에 대해서 배웁니다! 데이터 전처리의 중요성을 확실하게 느끼실 수 있습니다~

리뷰(22)

리뷰쓰기
4.9
  • 커리큘럼
  • 전달력
  • 준비성
  • 친절도
  • 시간준수

실시간톡

실시간 톡하기

위치

지도가 들어갑니다.