위치

요일

가능
시간
(날짜)

  • 12-20시 (협의)
장소 : 서울대입구 근처 스터디룸
추가비용 : 스터디룸 사용료가 추가됩니다
스터디룸에서 진행될 예정입니다. 개인 노트북과 필기구 지참해주세요!
₩25,000원 / 시간
₩200,000 / 총 4회 8시간
Buom Soo Kim
Buomsoo Kim
[파이썬] 웹 크롤링 & 텍스트 분석 마스터하기
  • 신림
  • 2시간/회
  • 최대인원:3~6
  • ₩25,000/시간

튜터정보

  • 서울대학교 경영학과
• 서울대학교 경영대학 졸업
• 서울대학교 경영대학원 석사과정 졸업예정(전공: 경영정보시스템)
• 서울시 도시 데이터 사이언스 연구소 '비정형 데이터 분석을 통한 효율적인 의사결정', '데이터마이닝과 추천시스템', '텍스트&SNS 분석', '빅데이터 비즈니스 밸류 창출 프로세스' 실습 강의 개발 및 진행
• 서울대학교 4차산업혁명 아카데미 '빅데이터분석 개론' 실습 강의 개발 및 진행
• 서울대학교 빅데이터 아카데미 '비정형 데이터 분석을 통한 효율적인 의사결정' 강의 개발 및 실습 조교 활동
• 경찰청 ‘전국 경찰관서 운영경비 결정모형 검토 및 개선방향 제안’ 연구 프로젝트
• 정석물류재단 ‘빅 데이터 활용을 통한 국내 택배회사 소비자 인식에 대한 연구’ 프로젝트
• 서울대학교 빅데이터연구원 4차산업혁명 아카데미 (하나은행) ‘통폐합점 대상 활동손님 추정이탈률 예측 알고리즘 개발’ 캡스톤 프로젝트

*github: https://github.com/buomsoo-kim

수업소개

웹 크롤링과 텍스트 분석에 대해서 "딱 필요한 정도만" 4주 동안 인텐시브하게 배웁니다!
이 수업을 통해 웹에서 데이터를 가져오고, 한국어 텍스트 형태로 된 많은 데이터를 쉽게 다룰 수 있을 거에요.

Merril Lynch, The Computer World Magazine 등에 따르면 비즈니스 의사결정에 활용될 수 있는 데이터의 80% 이상은 텍스트, 오디오, 비디오, 이미지 등 "비정형 데이터(unstructured data)"라고 합니다.

그 중에서 웹(web), 소셜 미디어(social media), 전자 상거래(e-commerce) 등의 빠른 발전으로 인해 우리가 읽을 수 있는 문자의 형태로 되어 있는 "텍스트 데이터(text data)"의 절대적인 비중 뿐 아니라 비즈니스 가치도 갈수록 높아지고 있습니다.

1991년 팀 버너스 리에 의해 소개된 월드 와이드 웹은 30여년이 지난 지금은 사람들 간의 지식과 정보를 전달하는 핵심적인 수단이 되며 "인터넷(Internet)"과 동일어처럼 쓰이며 지금 이시간에도 전 세계적으로 막대한 양의 텍스트 중심의 데이터를 쏟아내고 있습니다.

하지만, 텍스트 분석의 시작은 쉽지 않습니다. 기존의 관계형 데이터베이스에 규칙화되어 들어가는 정형 데이터와는 달리, 비정형 데이터는 그 처리도 까다로울 뿐더러 상당한 도메인 지식과 노하우를 요구합니다.

그리고 웹에서 데이터를 가져오기 위해서는 HTML과 CSS라는 웹 페이지를 구조화하고 디자인하기 위한 간단한 언어를 알아야하고, 때로는 자바스트립트에 대한 지식을 요구합니다.


그렇지만 본 수업은 웹 개발자를 위한 수업도 아니고, 언어학이나 자연어 처리에 대한 전공 수업도 아닙니다. 현업에서, 프로젝트에서, 혹은 수업에서 "딱 필요한 정도만" 배웁니다. HTML도, CSS도, KonlPy도, 텍스트 분석 이론도, 그리고 심지어 파이썬도 많이 알 필요 없습니다. "딱 필요한 정도만" 해도 배울게 너무 많고 응용할 수 있는 분야가 정말 많거든요.


<수업 특징>

• 이론과 실습을 병행하여 필수적인 지식만 학습하고 현업에서 바로 활용할 수 있는 감각을 기르는 것을 목표로 합니다.

• 강의와 실습 외에도, 데이터 분석과 관련하여 궁금한 사항에 대한 Q&A와 본인의 개인적인 공부 및 프로젝트에 대한 1:1 피드백 및 멘토링도 지속적으로 제공합니다.

• 수강생들이 따로 강의 자료를 구매할 필요 없이 그간 수십 회의 강의를 통해 검증된 자체 제작 자료를 무료로 제공하고, 예제 코드와 연습 문제에 대한 솔루션 파일도 제공합니다.

• 강의 계획 - 파트 1, 2로 구성되어 있습니다. 파트 1은 웹 크롤링과 기초 텍스트 분석에 대해서
배우고, 파트 1을 성공적으로 수강하신 분들을 대상으로 텍스트 분석 실습을 중심으로 파트2가 진행됩니다. 파트1은 1회 1주 2시간 기준, 4주 과정입니다. 구체적인 수업 내용은 아래 커리큘럼을 참고해 주세요.


<수업 일자>
3/4 개강하는 1기는 마감되었습니다!
3/24 시작하는 2기에 신청해 주세요

*1기 모집 완료 (장소: 서울대입구)

<파트1: 웹 크롤링과 기초 텍스트 분석>
1회차 - 3/4(일) 12:00 ~ 14:00
2회차 - 3/11(일) 12:00 ~ 14:00
3회차 - 3/18 (일) 12:00 ~ 14:00
4회차 - 3/25 (일) 12:00 ~ 14:00

<파트2: (심화과정) 텍스트 분석 실습과 활용>
5회차 - 4/1 (일) 12:00 ~ 14:00
6회차 - 4/8 (일) 12:00 ~ 14:00
7회차 - 4/15 (일 )12:00 ~ 14:00
8회차 - 4/22 (일) 12:00 ~ 14:00


*2기 모집 중 (장소: 서울대입구)

<파트1: 웹 크롤링과 기초 텍스트 분석>
1회차 - 3/24(토) 12:00 ~ 14:00
2회차 - 3/31(토) 12:00 ~ 14:00
3회차 - 4/7 (토) 12:00 ~ 14:00
4회차 - 4/14 (토) 12:00 ~ 14:00

<파트2: (심화과정) 텍스트 분석 실습과 활용>
5회차 - 4/21 (토) 12:00 ~ 14:00
6회차 - 4/28 (토) 12:00 ~ 14:00
7회차 - 5/5 (토)12:00 ~ 14:00
8회차 - 5/12 (토) 12:00 ~ 14:00

수업대상

  • 파이썬 등 프로그래밍 언어의 기본적인 사용 방법은 알지만, 바로 활용할 수 있는 데이터 분석 기술을 배우고 싶으신 분(파이썬 혹은 R이나 자바 등 다른 프로그래밍 언어에 대한 기초적인 지식이 필수적으로 있어야 합니다! 이 부분에 대해 확실치 않으신 분들은 우선 1:1 문의해주세요)

    • 강의나 책 등을 통해 프로그래밍이나 데이터 처리에 대한 기본적인 지식은 익혔으나 이를 어떻게 활용할 수 있을지 막막하신 분
    • 최근 화두가 되고 있는 웹 크롤링과 텍스트 분석에 관심이 많은 분
    • 그 외에도 논문 작성, 비즈니스 인사이트 추출, 창업, 프로젝트 등을 위해 비정형 데이터를 폭넓게 활용하고 싶은 누구나

커리큘럼

1회차

• 파이썬 및 텍스트 분석 관련 패키지 설치
• 파이썬 문법 복습

초심자에게는 프로그램 설치부터 까다롭습니다. 한국어 텍스트를 파싱하기 위해서는 자바 기반으로 짜여진 KonlPy를 설치하고 이를 파이썬과 연동시켜주는 소프트웨어(JPype)를 설치하고, 시각화를 위해서는 한국어 폰트를 다운받아 따로 설치를 해주어야 합니다. 설치부터 하나하나 차근차근히 같이 해보고 텍스트 분석에 자주 쓰이는 파이썬의 기초적인 문법을 간단히 복습합니다.

2회차

• 웹 페이지 구조 이해하기 - HTML/CSS 기초
• 웹 크롤링 - BeautifulSoup 패키지 활용법
• 웹 크롤링 실습 - 다음 사전 사이트 크롤링하기

웹 크롤링을 하기 위해서는 웹 페이지의 구조를 이해하고 있어야 합니다. 이를 위해 HTML과 CSS를 간단히 배우고 파이썬의 BeautifulSoup 패키지를 활용해서 웹에서 읽어온 HTML 소스코드를 파싱하는 법을 학습합니다. 웹 개발을 위한 수업은 아니기때문에 이론은 간단히 배우고 다음 사전 사이트 크롤링 실습을 통해 배운 것을 다시 확인해 봅니다.

3회차

• 웹 크롤링 - 다음 영화 사이트 크롤링하기

크롤링을 배웠으니 이제 실제로 다음 영화 사이트에 가서 영화 리뷰를 크롤링해 봅시다!
"라라랜드(LaLa Land)" 영화에 대한 사람들의 리뷰 내용을 처음에는 첫 리뷰를 가져오는 것부터 시작해서 전체 리뷰를 가져와 텍스트 형태로 저장하는 것까지 차근차근히 해 봅니다. 그리고 라라랜드 영화 리뷰가 끝나면 수강생 분들이 좋아하는 영화를 선택하여 그 영화에 대한 네티즌들의 리뷰를 가져와 봅니다. 여기서 여러분이 저장한 리뷰 데이터를 직접 가지고 나중에 텍스트 분석을 해볼 거에요!

4회차

• 텍스트 분석의 기초
• 실습 - KonlPy 사용법

텍스트 분석의 기초 5단계에 대해서 배우고, 한국어 텍스트를 파이썬에서 쉽게 다룰 수 있도록 도와주는 KonlPy 패키지 사용법을 실습을 중심으로 배워 봅니다. 토큰화(tokenization), 품사 태깅(pos tagging) 등 복잡해 보이는 개념을 실제 리뷰 텍스트로 실습해 보면서 쉽게 이해해 봅니다.

5회차

•텍스트 전처리
•텍스트 데이터 탐색하기(text exploration)
•실습 - 데이터 탐색

"아버지 가방에 들어가신다", "아버지가 방에 들어가신다". 텍스트 데이터에는 우리가 상상하는 것 이상의 노이즈(noise)가 많이 포함되어 있습니다. 일반적으로 데이터 마이닝에서 데이터 전처리 단계가 차지하는 비중이 80% 이상이라고 하는데, 텍스트 데이터에 한정한다면 90% 이상이 되지 않을까 합니다. 이 수업에서는 문장 부호 제거, 불용어 처리 등 분석의 효율성을 높일 수 있는 텍스트 처리 테크닉을 학습하고, 텍스트에서 자주 등장하는 명사를 뽑아보는 등 데이터를 효과적으로 탐색할 수 있는 방법도 배우게 됩니다.

6회차

•텍스트 시각화 1 - 네트워크 그래프(network graph)
•텍스트 시각화 2 - 워드 클라우드(word cloud)

텍스트를 시각화하는 데에도 많은 방법이 있지만, 가장 널리 쓰이는 방법으로 네트워크 그래프와 워드 클라우드가 있습니다. 워드 클라우드는 자주 사용되는 단어들을 구름과 같은 형태로 보여줘 글 내에서 핵심어(key word)가 무엇인지를 뚜렷하게 보여주고, 네트워크 그래프는 단어 간의 공빈도(co-occurence)를 기반으로 주요 단어 간 관련도를 쉽게 파악할 수 있게 도와줍니다. "백문이 불여일견"이라는 말이 있듯이 잘 만들어진 텍스트 시각화 자료는 복잡하고 고도화된 분석 결과보다 더 많은 인사이트를 줄 때가 많습니다.


[7-8회차]
한국어 텍스트 처리를 배웠으니, 이제 영어 텍스트 처리를 하는 방법을 배워 봅시다!
외국 영화 관련 커뮤니티인 imdb(www.imdb.com)에서 영어 리뷰 데이터를 가져와 nltk 패키지를 활용해 처리하는 과정을 실습해 봅니다.

리뷰

리뷰쓰기

실시간톡

실시간 톡하기

위치

지도가 들어갑니다.