- 다회차
- 최대 10명
왜 내가 만든 머신러닝 모델은 잘 맞지 않을까? 미국의 IT 기업들도 놓치고 있는 머신러닝의 핵심 원리를 배우고 참여자 분들이 직면한 문제를 같이 고민하는 시간을 마련하고자 합니다.


이런 분들이 들으면 좋아요.
1. 데이터 기반으로 해결해야 할 문제를 가지고 계신 분
2. 머신러닝 기법을 이용하여 문제 풀이를 시도하셨으나 문제풀이가 잘 안되신 분
3. 자율 주행에 관심이 있으신 분
4. 의료 인공지능에 관심이 있으신 분
그 외에 머신러닝 관련으로 관심 있으신 분들에게는 충분히 유용한 발표가 되리라 생각합니다.
튜터님을 소개합니다.

최경돈
- 카이스트 물리학과
- Universite Blaise Pa 물리학과
안녕하세요. 간단하게 제 이력을 설명 드리고자 합니다.
저의 학력은 아래와 같습니다.
University of Pavia 물리학 박사 예정 (졸업논문 제출 완료)
Blaise Pascal university 물리학 석사
KAIST 물리학 학사
사실 요새 머신러닝, AI가 논의되는 분야는 주로 IT 분야이기에 물리학 전공자가 이런 이야기를 꺼내는 것에 대해서 의아해하실 분들이 좀 계실 거라 생각이 듭니다. 그래서 물리학과가 머신러닝과 어떻게 연결되어 있는지를 제 경험을 통해서 최대한 쉽게 설명 드리고자 합니다.
요새 핫 한 이슈는 알파고 이후로 유명해진 소위 딥러닝이라 불리는 뉴럴 네트워크 기반의 회귀분석 방법론일 것입니다. 그런데 물리학자들은 뉴럴 네트워크 기반의 회귀분석 방법론을 매우 오래전부터 써왔다는 사실 알고 계셨나요? 이미 20세기 이전부터 고에너지 입자물리학 분야에서는 뉴럴 네트워크를 이용한 데이터 분석을 수행하고 있었습니다. "Neural Networks in High Energy Physics" 라는 고에너지 입자물리학에서의 뉴럴 네트워크 사용에 대한 리뷰 논문이 1992년에 나왔을 정도로 뉴럴 네트워크를 이용한 분석은 오랫동안 사용되어 왔습니다.
그 외에도 ROOT라고 명명된 데이터 분석 툴은 CERN의 René Brun 과 Fons Rademakers 1994년부터 개발하여 다양한 데이터 분석이 가능하게 하였으며 MINUIT라는 추가 통계 패키지까지 개발되어 사용되고 있습니다. 그리하여 Maximum likelihood, confidence interval, p-value 같은 통계적 파라미터를 쉽게 접근할 수 있게 하였습니다.
최근에 CERN은 Openlab이라 불리는 계산과학 기반의 연구팀을 조직하여 양자 컴퓨터, 머신러닝, 클라우드 컴퓨팅등의 연구를 하고 있습니다. 특히 Openlab을 지원하는 기업들에는 구글, IBM, 인텔 같은 머신러닝 기술을 개발하고자 하는 기업들이 포함되어 있습니다.
세간에 과학자들이 머신러닝을 잘 모른다고 알려진 것과는 다르게 머신러닝 방법론은 과학계에서는 오래전부터 사용되어 왔으며 그 과정에서 다양한 노하우를 쌓아왔습니다. 저 역시 CERN 에서 인턴을 하면서 ROOT 개발자인 René Brun 그리고 Openlab의 머신러닝 분야 총 책임자인 Federico Carminati와 같이 일을 하면서 머신러닝에 대한 이해를 쌓아왔습니다. 이러한 이해를 바탕으로 현 IT 기업들이 적용하는 머신러닝 방법론의 한계와 위험성에 대해서 꾸준한 우려를 표해 왔습니다.
실제로 제가 현재 연구하고 있는 의학물리 분야에서는 의료 영상을 이용한 자동 진단에 대한 이야기가 진지하게 논의되고 있습니다. 하지만 IBM의 Watson for Medicine의 실패, 그리고 수많은 radiomics 연구의 부적확성은 결국 위에서 언급한 방법론의 오용에서 비롯되고 있다는 것을 확인하였습니다.
그리하여 저는 이 강의에서 그간 제가 경험한 머신러닝 지식을 기반으로 IT 기업들이 놓치고 있는 부분을 전달하고, 정확한 머신러닝 방법론 적용법을 안내해 드리고 싶습니다.
어떤 클래스 인가요?
이 발표는 IT 분야에서는 제대로 언급되지 않는 머신러닝을 활용하는 방법에 대해서 배우기 위한 과정으로 구성할 예정입니다.
가장 강조될 내용은 지금까지 IT 분야에서 언급되어 온 부정확한 머신러닝 방법론과 정확한 방법론이 적용된 경우를 비교하여 기존의 머신러닝을 적용하던 방법론의 한계를 이해하고 더 나아가서 그 한계를 넘어서 정확한 머신러닝 방법론을 참여자들이 풀고자 하는 방법론에 적용하는 것을 목표로 합니다.
수업 진행은 강의와 실습 그리고 토론으로 구성될 예정입니다. 약 1시간 ~ 1시간 20분 정도 관련된 내용을 설명드리고자 합니다. 그리고 약 30분 정도 주어진 데이터를 이용한 분석을 수행하도록 할 것입니다. 실습은 파이썬으로 진행될 예정입니다. 그 뒤 남은 시간에는 참여자들이 해결하고자 하는 문제들에 대해서 토론하는 시간을 갖음으로써 참여자들에게 지식 전달 뿐만 아니라 실질적인 문제 해결까지 돕고자 합니다. 특히 자율 주행 및 의료 인공지능에 대한 내용이 예시로 제공될 예정입니다.
이 강의에서는 기술적인 부분에 대해서 다루기에는 시간이 많이 부족합니다. 그렇기에 방법론에 대한 이해에 많은 시간을 할당할 예정입니다. 하지만 2010년도 노벨 물리학상을 수상한 그래핀 제작 논문은 스카치 테이프에 연필을 붙였다 떼는 실험이었습니다. 문제 해결을 위한 적절한 방법론의 적용을 이해하는 것은 복잡한 방법론을 적용하는 것보다 훨씬 더 생산성이 높기에 그러한 방법론의 적용법을 배우고 싶으신 분들이 많이 신청하셨으면 좋겠습니다.
클래스는 이렇게 진행됩니다.
첫번째 시간에는 머신러닝 및 인공지능을 이해하기 전에 기초가 되는 회귀분석에 대해서 말하고자 합니다. 회귀분석이 쓰인 역사, 그리고 그런 방법론의 제대로 된 활용과 잘못된 활용 예시들을 배우면서 머신러닝과 인공지능 부분에서 반복적으로 놓치고 있는 부분에 대한 기본적인 개념을 배우고자 합니다. 이 과정에서 심도있는 통계적 기법을 이야기 하기 보다는 범용적인 통계적 기법을 이야기 하고 그 기법들이 갖는 맹점, 그리고 그걸 보완하는 방법들에 대해서 이야기 해보도록 하겠습니다.
1. 통계적 방법론의 활용 역사
2. 머신러닝 모델? 방법론? 어떤것이 맞는가
3. p-value는 중요한가: 검증기법과 그 맹점에 대하여
4. 왜 통계학자들은 다른 분야 전문과들과 협업을 할까?

두번째 시간에는 머신러닝 혹은 AI 라고 불리는 기술들이 어떠한 것인지를 명확하게 이해하는 시간을 갖을 것입니다. 그 과정중에서 현재 머신러닝을 외치고 있는 기업 혹은 활용자들이 놓치고 있는 재생산성이라는 개념에 대해서 배우게 될 것입니다. 이 재생산성에 대한 검증이 없이 만들어진 모델들은 잘못된 서비스를 수행하게 되며, 안전과 관계된 경우에는 사람에게 상해를 입히기까지 합니다. 그렇기에 핵심적인 개념인 모델의 재생산성에 대한 이해는 첫시간의 가장 중요한 주제가 될 것입니다.
1. 머신러닝과 인공지능을 기반으로 두고 있는 원리에 대해서 이해하기
2. 머신러닝과 인공지능이 실패하는 사례들을 1번에서 이야기한 원리에 비추어 이해하기
3. 좋은 머신러닝 모델을 만들기 위한 재생산성이라는 개념을 이해하기
에 대해서 이야기 하고자 합니다.

세번째 시간에는 첫번째 시간에 배운 재생산성을 확인하는 방법론에 대해서 이야기 해보고자 합니다. 자신이 만든 모델의 재생산성을 확인하는 방법은 문제에 따라 상이하기 때문에 그러한 방법론들을 요새 머신러닝과 인공지능이 많이 언급되는 분야들을 예시로 설명하고자 합니다. 특히 사람의 안전과 관련이 많은 의료 인공지능, 자율주행 그리고 인공지능 제약에 대해서 이야기를 하고자 합니다. 그 뒤 참가자 분들이 만들기 원하는 모델에 대한 재생산성 확보를 위한 대화의 시간을 마련하려 합니다.
1. 재생산성을 확인하는 방법: 의료 인공지능
2. 재생산성을 확인하는 방법: 자율주행
3. 재생산성을 확인하는 방법: 인공지능 제약
4. 토론 및 논의의 장

강의의 마지막인 네번째 시간에는 종합적인 분석 실습을 해보고자 합니다. 이 과정에서 가장 강조될 내용은 풀고자 하는 문제에 맞는 다양한 방법론을 적용하는 것입니다. 데이터는 제공될 것이며 각 데이터들에 대한 설명이 이루어질 것이고 그 데이터들을 이용한 분석을 직접 진행하면서 실습을 해보고자 합니다. 데이터는 발표자가 제공할 것이며 그 데이터에 대한 설명이 이루어진 후 분석을 진행하도록 하겠습니다.
1. 데이터 분석 기본: 등가속도 하는 물체의 움직임을 선형 회귀 분석을 이용하여 분석해 보자.
2. 데이터 분석 심화: 의료용 데이터를 이용하여 두 파라미터간의 상관관계를 이해해 보자.

실제 수강생의 리뷰입니다.
- 커리큘럼0
- 전달력0
- 시간준수0
- 준비성0
- 친절도0