mann kim | Forum Posts

게시판 게시물

mann kim

2024년 3월 23일

In 정보통신

영화 ‘머니볼’로 보는 프로세스 마이닝 사용 이유 영화에서처럼 각 선수들의 과거 기록과 점수를 라벨링해서 컴퓨터에게 트레이닝 데이터로 학습시킨다면 어떨까? 과거 이력을 바탕으로 우리 팀에 맞는 선수들을 추천해주는 시스템이 있다면? 더 나아가 필드에 내보낸 선수들에 따른 결과를 미리 예측할 수 있다면? 영화 – 머니볼(Moneyball: The Art of Winning an Unfair Game)을 보신적이 있으신가요? 저는 지난 설연휴, TV에서 이 영화를 보았습니다. 우리나라에서는 2011년에 개봉한 조금은 오래된 영화이지만 매우 흥미롭고, 가슴을 뛰게 만드는 영화였습니다. 영화의 스토리는 이렇습니다. 미국 메이저리그팀 중 하나인 ‘오클랜드 애슬레틱스’는 자본이 충분하지 않은 작은 야구 구단입니다. 오클랜드 애슬레틱스는 재정이 부족한 까닭에 이름있는 선수들을 구단으로 끌어오기는 커녕 선수들을 키우는 족족 큰 구단으로 빼앗기고 메이저리그 최하위를 지키고 있었습니다. 어떻게든 구단을 살리고 싶지만 좋은 선수들을 영입할 수 없던 단장 ‘빌리 빈’은 이에 큰 결심을 합니다. 운용 가능한 재정으로 선수 영입이 아닌 예일대 경제학과 출신의 통계 전문가 – ‘피터 브랜든’을 데려온 것입니다. 피터가 각 선수들의 기록으로 통계를 내어본 결과, 출루율이 중요한 요소임에도 그동안 중요하게 평가되지 않아 왔다는 사실을 알게 됩니다. 이제 빌리와 피터는 스타 플레이어들을 내보내고 저평가 되어 있는(출루율이 높은) 선수들을 영입하고자 합니다. 그러나 성공으로 가는 과정은 언제나 그렇듯 쉽지 않습니다. 데이터의 힘을 알지 못하는 구단 임원들의 반대가 어마어마하고, 구단주도 설득해야 합니다. 하지만 빌리와 피터는 그들이 데이터로부터 얻어낸 정보를 믿었고, 결국 오클랜드 애슬레틱스는 그해 처음으로 메이저리그에서 20연승을 거두어냅니다. 이 영화를 보고 나서 심장이 쿵쾅 뛰었습니다. 영화에서처럼 각 선수들의 과거 기록과 점수를 라벨링해서 컴퓨터에게 트레이닝 데이터로 학습시킨다면 어떨까? 과거 이력을 바탕으로 우리 팀에 맞는 선수들을 추천해주는 시스템이 있다면? 더 나아가 필드에 내보낸 선수들에 따른 결과를 미리 예측할 수 있다면? [영화에 나왔던 출루율 + 장타율 계산 공식] 실제로 많은 곳에서 최고의 선택을 하고, 결과를 예측하기 위한 시도들이 진행되고 있습니다. 우리가 잘 알고 있는 넷플릭스, 유튜브의 영상 추천 시스템, 아마존, 쿠팡의 물류 주문 예측 시스템, 보안업체들의 사이트 분류 시스템들이 그 예입니다. 그렇다면 컴퓨터는 어떻게 영상을 추천하고 주문을 예측하고 사이트를 분석하는 것일까요? 업체 솔루션마다 특화하여 사용하는 분야가 있고 알고리즘이 있지만, 머신러닝의 가장 기본이 되는 개념으로 살펴보자면 우리는 컴퓨터에게 데이터를 주고 공부(학습)를 시킬 수 있습니다. 공부를 시키는 방법은 크게 3가지로 나뉩니다. 1. 문제와 답을 함께 알려주고 비슷한 문제가 나왔을 때 답을 유추하게 하는 방법 (지도 학습: Supervised Learning) 예. a, b, c 요소를 가지고 있는 A사이트는 유해사이트이다. d, e, f 요소를 가지고 있는 B 사이트는 정상사이트이다. b, c, f 요소를 가지고 있는 C 사이트는 유해사이트인가? 2. 분류되지 않은 많은 데이터를 주고 새로운 데이터를 주었을 때 어떤 유형인지 분류하게 하는 방법 (비지도 학습: Unsupervised Learning) 예. 여러 장의 슈퍼맨, 배트맨, 스파이더맨, 헐크, 슈퍼우먼의 사진들 제공 각 히어로별로 구분하여 사진을 분류할 수 있는가? 3. 문제 해결에 따른 보상을 주고 더 큰 보상을 받기 위한 답을 도출하게 하는 방법 (강화 학습: Reinforcement Learning) 예. 체스 경기에서 상대방의 말을 잡을 때마다 보상(득점 처리) 그러나 당장은 득점하지 못하더라도 최종적으로 더 큰 득점을 할 수 있는 경우를 고려해야 함 데이터를 가지고 위의 방법들로 학습을 한 컴퓨터는 우리가 좋아하는 영상들을 분류하여 추천해주고, 주문할 물건들을 예측하여 준비할 수 있도록 하며, 우리 아이가 접속하는 사이트가 유해사이트인지 아닌지를 판단하고 차단해줍니다. ‘퍼즐데이터’에서 연구하고 있는 ‘프로세스 마이닝’도 미처 알지 못했던 저평가된 요소들를 찾고, 앞으로의 일을 예측하며 최상의 선택을 하고자 하는 우리들의 요구와 필요성에 의해 탄생하였습니다. 하지만 프로세스 마이닝은 그 중에서도 특히 패턴과 흐름(프로세스)을 찾아내고 분석하기 위한 기술로, 숨겨져 있던 프로세스를 찾아내거나 알고는 있었지만 눈으로 확인하기 어려웠던 프로세스를 데이터 시각화를 통해 확인할 수 있도록 해줍니다. 그럼 프로디스커버리(ProDiscovery) 툴을 사용하여 프로세스 마이닝이 어떤 것인지 간단히 살펴보겠습니다. baseball-reference.com에서 오클랜드 애슬레틱스팀의 신화가 탄생한 2002년도의 데이터를 가지고 와서 보여드리고 싶었으나, 프로세스를 찾기에 적합한 데이터를 발견하지 못해 제가 가지고 있던 수리(repair) 예제 데이터를 사용하였습니다. 프로세스 마이닝 분석용 데이터에 대해 궁금하신 분은 “프로세스마이닝 분석을 위한 데이터 요소” https://blog.naver.com/prodiscovery/221058539389 를 읽어보시면 좋습니다. [예제 로그 데이터 일부] 프로세스 마이닝은 시간의 흐름이 있는 로그 데이터로부터 시작됩니다. 로그 데이터를 입력 받은 컴퓨터는 아래와 같이 데이터에 어떠한 흐림이 있는지 분석하여 보여줍니다. 제가 가진 수리 데이터는 FirstContact – MakeTicket – ArrangeSurvey – InformClientSurvey – Survey – (생략) – TicketReady 순으로 진행되고 있는 것을 알 수 있습니다. 간략한 표현을 위하여 위의 맵에서는 복잡도를 낮춰 일부 구간을 생략하였으나, 이번에는 여러 경우의 작업 흐름을 보고 싶어 수행시간이 오래 걸린 상위 4개의 케이스를 조회해 보았습니다. [프로디스커버리(ProDiscovery) 케이스 목록(Case List)] 제가 가진 데이터가 모두 동일한 프로세스로 진행되는 것은 아니었네요. 그럼 위의 결과 중 시간이 가장 오래 걸린 521번 케이스에 대해서 상세 조회를 해보겠습니다. [프로디스커버리(ProDiscovery) 이벤트 목록(Event List)] 521번 케이스를 살펴보니 각각의 작업 시간은 의외로 짧았습니다. Cindy가 맡은 InternRepair 작업이 가장 오래 걸렸지만 4시간도 안되어 처리되었고, System이 처리하는 작업은 모두 1초도 걸리지 않아 처리되었습니다. 521번 케이스가 오래 걸린 원인은 작업 시간이 아니라 2일-16일-19일로 넘어갈 때 대기 시간이 문제였다는 것을 알게 되었습니다. 가장 간단한 몇가지 그래프만 살펴보았지만, 프로세스 마이닝을 사용하여 어떤 정보를 얻을 수 있는지 알 수 있는 기회가 되셨으면 좋겠습니다. 숨어있는 정보들을 찾아내어 우리 모두 연승하는 그 날까지! 저도 열심히 프로디스커버리(ProDiscovery) 연구 개발에 힘쓰겠습니다.

mann kim

2023년 11월 05일

쳇GPT

In 정보통신

궁금하신 분들이 많은 듯해서 ChatGPT를 무료와 유료로 사용할 때의 차이점을 정리해 보았습니다. 이 표만 보면 성능과 기능 차이가 꽤 크지만, 모든 분들이 처음부터 유료로 사용할 필요는 없을 것 같습니다. 특히 학생들에게는 무료 사용이 꼭 필요합니다. 그래서 이번에도 GPT-4와 이미지 생성을 무료로 사용할 수 있는 방법을 같이 첨부합니다. . . <GPT-4 모델(무료) 이용 방법> (23.11.05. 노대원 novel@jejunu.ac.kr)(mailto:novel@jejunu.ac.kr) 1.Microsoft (http://1.Microsoft)Bing Al - 엣지 브라우저(PC, 모바일 앱 [엣지, 빙]) - 윈도우11, 빙 웹사이트 www.bing.com(http://www.bing.com) - 모바일 앱에서는 GPT-4 선택해 사용 가능, 음성 대화 가능 빙 웹 검색 활용, 이미지 생성(DALL.E-3), 엣지에서 이미지 및 PDF 파일 업로드 후 대화(문서 요약 등) 2. 뤼튼 - 카카오톡에서 ‘뤼튼' 채널 추가, 모바일앱 - 웹사이트 https://wrtn.ai/ (https://wrtn.ai/) - GPT-4 선택 후 사용, 연관 링크 및 추가 답변 제시, 이미지 생성, 확장 앱, 프롬프트 저장 및 허브 기능 3. AskUp - 카카오톡에서 ‘AskUp’ 채널 추가 - 프롬프트 앞에 “!” 붙이면 GPT-4 이용 가능, "?" 붙이면 실시간 정보 검색, 이미지 생성, 이미지 파일에서 문자 인식 OCR) 4. 웍스AI - 웹사이트 https://www.wrks.ai/ (https://www.wrks.ai/) - GPT-4(신중한 똑쟁이) 선택 후 사용, 한글 약 1만 2천자 기억, 업무용 AI, 사용 제한 있음(월20건) 5. 멀린 - 웹사이트 https://www.getmerlin.in/ (https://www.getmerlin.in/) - 크롬 확장 프로그램, 사용 제한 있음 6. 포 - 웹사이트 https://poe.com/GPT-4 (https://poe.com/GPT-4) - GPT-4 선택 후 사용, 사용 제한 있음 * ChatGPT Plus(유료)의 GPT-4 모델과 GPT-4 무료 서비스들과는 답변에 차이가 있습니다. ChatGPT Plus(유료)의 생성 결과가 대체로 더 좋습니다.

mann kim

2023년 10월 03일

골드바흐추측

In 수학공부

1742년 6월 7일에 프로이센 수학자 크리스티안 골드바흐(Christian Goldbach)는 레온하르트 오일러에게 편지를 보내 다음과 같은 추측을 제안하였다. 두 소수의 합으로 표현 가능한 모든 정수는, 모든 항이 1이 될 때까지 원하는 만큼 얼마든지 많은 개수의 소수의 합으로 분해할 수 있다. 그는 편지의 말미에 다음과 같은 두 번째 추측을 했다. 2보다 큰 모든 정수는 세 개의 소수의 합으로 표현가능하다. 그는 1을 소수로 취급했지만 후에 이 개념은 폐기되었다. 이 두 추측은 동치이지만 당시에 이슈가 되지는 못했다. 골트바흐의 마지막 문장은 오늘날의 개념으로 다음과 같이 설명할 수 있다 5보다 큰 모든 정수는 세 소수의 합으로 표현가능하다. 오일러는 1742년 6월 30일에 답장을 보내 골트바흐와 한 예전의 대화를 떠올리면서 다음과 같은 문장으로 바뀌었다. 2보다 큰 모든 짝수는 두 소수의 합으로 표현가능하다. 이것은 골트바흐의 원래 추측을 포함한다. 모든 짝수가 두 소수의 합으로 표현가능하다면, 홀수의 경우 3을 더하면 되고, 짝수의 경우는 2를 더하면 세 소수의 합으로도 표현가능해지기 때문이다.

mann kim

2023년 10월 03일

페르마의 마지막 정리

In 수학공부

1357년이 지난 1995년 수학자 앤드루 와일즈가 해법을 증명하는 데 성공했다. 하지만 페르마 사후에 이루어진, 수학적 발전이 누적된 성과들 덕에 겨우겨우 풀렸다는 것을 생각해 보면 페르마가 본래 생각한 정리는 한정된 상황에서만 가능한 정리였을 거라는 견해가 지배적이다.

mann kim

2023년 5월 09일

OLED

In 정보통신

LCD는 액정을 이용하여 빛을 조절하는 방식으로 동작합니다. 액정은 두 개의 유리 판 사이에 액체가 채워진 판이며, 이 액체에 전기를 가해 액체 분자의 방향을 바꿔 빛의 투과율을 조절합니다. 이렇게 조절된 빛은 백라이트로부터 나온 빛과 결합하여 화면을 구성합니다. LED는 발광 다이오드( Light Emitting Diode)의 약자로, 전기가 흐르면서 발광하는 반도체 소자입니다. LED는 전기를 통해 발광하기 때문에 백라이트와 같은 추가적인 광원이 필요하지 않습니다. 따라서, LCD와 비교하여 전력 소모가 적고, 더욱 선명하고 선명한 색상을 표현할 수 있습니다. OLED는 유기 발광 다이오드(Organic Light Emitting Diode)의 약자로, 유기성 발광체를 이용하여 빛을 발생시키는 반도체 소자입니다. OLED는 LED와 달리 전면 패널 자체가 발광체이기 때문에 백라이트가 필요하지 않습니다. 따라서, 더욱 얇고 가벼우며, 더욱 선명하고 생생한 색상을 표현할 수 있습니다. 또한, 전력 소모가 적어 배터리 수명이 더욱 길어지는 장점이 있습니다. LED(Light Emitting Diode)는 우리 말로는 ‘발광다이오드’라고 표기하며, 전류를 가하면 빛을 발하는 반도체 소자입니다. 반도체는 크게 단원소 반도체, 화합물 반도체, 그리고 유기물 반도체로 분류되는데요, LED는 이 중 화합물 반도체에 속합니다. 화합물 반도체란 실리콘, 게르마늄 등 하나의 원소로 이루어진 단원소 반도체와 달리, 2종 이상의 원소로 이루어진 반도체입니다. LED는 주로 갈륨비소(GaAs), 갈륨인(GaP), 갈륨비소인(GaAsP), 갈륨질소(GaN) 등으로 만들어지며, 어떤 화합물을 쓰느냐에 따라 LED 빛의 색깔이 달라집니다. 유기물 반도체는 탄소와 불소 등으로 구성되어 얇고 유연한 것이 특징인데요, CES 2013에서 공개되었던 플렉시블 OLED ‘윰(YOUM)’이 바로 유기물 반도체의 일종입니다. 굽히고 말고 자유자재로 변형이 가능한 차세대 디스플레이로, 전 세계의 관심을 받기도 했습니다 LED는 쉽게 설명하면, 전기에너지를 빛에너지로 변환시켜주는 ‘광반도체’입니다. 기본적으로 LED는 양(+)의 전기적 성질을 가진 p형 반도체와 음(-)의 전기적 성질을 지닌 n형 반도체의 이종접합 구조를 가집니다. 전자(electron)가 많아 음의 성격을 띤 n형 반도체와 전자의 반대 개념인 정공(hole)이 많아 양의 성격을 띤 p형 반도체가 얇은 층 형태로 붙어 있는데요 순방향으로 전압을 가하면, 수 볼트의 전압으로 전류가 흘러 발광합니다. 즉, n층의 전자가 p층으로 이동해 정공과 결합하면서 에너지를 발산하는 것인데요, 이 때 에너지는 주로 열이나 빛의 형태로 방출되며, 빛의 형태로 발산하는 것이 바로 LED입니다. n층의 전자와 p층의 정공이 결합하면서 전도대(Conduction Band, Ec)와 가전자대(Valance Band, Ev) 사이의 에너지 준위(eV) 차이에 따라 에너지를 발산하는데요, 이 에너지 준위 차이인 밴드갭 에너지(Eg)에 따라 빛의 색상이 정해집니다. 즉, 에너지의 차이가 크면 단파장인 보라색 계통의 빛을 나타내고, 에너지 차이가 작으면 장파장인 붉은색 계통의 빛이 나옵니다. 또한, 앞에서 어떤 화합물을 쓰느냐에 따라 LED 빛의 색깔이 달라진다고 했는데요, 이는 화합물의 재료에 따라 에너지 준위(eV) 차이가 달라지기 때문입니다. LED는 방출하는 빛의 종류에 따라 가시광선 LED(VLED), 적외선 LED(IR LED), 자외선 LED(UV LED)로 구분되는데요, 가시광선 LED는 전체 LED 시장의 가장 큰 비중을 차지하고 있으며 적색, 녹색, 청색, 백색 LED 등이 있습니다. 적외선 LED는 우리가 자주 사용하는 리모콘이나 적외선통신, cctv 적외선 카메라 등에 사용되고 있으며, 자외선 LED는 살균, 피부치료 등 생물•보건 분야와 검사 목적 등으로 사용되고 있습니다.

mann kim

2023년 3월 09일

비율은 분수이면서 원둘레와 지름의 비율 원주율은 왜 분수가 아닌가요

In 수학공부

비율(Ratio)은 두 수나 양이 서로를 나눈 값입니다. 분수(Fraction)도 분자와 분모의 비율로 표현될 수 있기 때문에 비율이라고 할 수 있습니다. 예를 들어, 3/5는 3과 5의 비율이며, 동시에 3을 5로 나눈 값으로도 표현됩니다. 그러나 원주율(Pi)은 비율이 아닌 상수입니다. 원주율은 원의 둘레와 지름의 비율을 나타내며, 이 값은 무리수입니다. 즉, 소수점 이하 자릿수가 무한히 나열되는 수이므로, 정확한 값은 유한한 소수나 분수로 표현될 수 없습니다. 이를 다르게 표현하면, 원주율은 원의 둘레와 지름의 비율을 나타내기는 하지만, 이 비율이 분수로 표현될 수 있는 값이 아니라는 것입니다. 따라서 원주율은 비율이라기보다는 상수로 인식하는 것이 더 적절합니다.

mann kim

2023년 3월 09일

원주율은 지름과 둘레의 비율인데 왜 유비수가 아닌가요

In 수학공부

원주율은 지름과 원 둘레의 비를 나타내는 상수입니다. 원의 둘레는 지름의 길이에 원주율을 곱한 값으로 나타낼 수 있습니다. 하지만 원주율은 무리수입니다. 원주율이 유리수가 아닌 이유는 다음과 같습니다. 무한 소수이기 때문입니다. 원주율은 소수점 이하에서 끝나지 않고 무한 소수로 이루어져 있습니다. 따라서 원주율은 유한 소수나 유리수가 될 수 없습니다. 증명된 사실입니다. 19세기에 많은 수학자들이 원주율이 유리수가 아니라는 것을 증명하였습니다. 이 증명의 방법 중 하나는 유리수가 만족해야 하는 알고리즘을 적용했을 때 원주율의 소수점 이하 자릿수가 무한히 반복되는 것이 아니라는 것을 보이는 것입니다.