본문 바로가기
데이터 사이언스

데이터 사이언스 온라인 학회 참관

by 빛나는존재 2022. 4. 22.

2020년에 온라인으로 개최된 ODSC 학회

2020년은 코로나의 한 해였다. 당시 나는 미국에 유학 중이었는데 한 번도 온라인으로 학회를 참석한 적이 없었지만 코로나로 인해 국가 비상사태가 선포된 2020년 3월 이후로는 원래 발표 예정인 학회마저도 취소되고 다른 학회는 온라인으로 전환되는 분위기였다. 그래서인지 OPEN DATA SCIENCE Conference (ODSC)에서도 온라인으로 학회를 개최했다. 이 학회는 산업, 의료 등의 분야에서 적용되는 데이터 사이언스 기술에 대한 발표뿐만 아니라 관심 있는 사람들을 대상으로 유료 강좌도 준비한다. ODSC West Virtual Conference는 2020년 10월 27일부터 10월 30일까지 4일에 걸쳐 개최되었으며 40개의 트레이닝 세션, 40개의 워크숍, 200명의 연사가 발표하는 세션이 포함되어 있었다. 특히, 미국 국방부 최고 중역, IBM, Google deepmind, 존스홉킨스 대학, 인텔 등 세계적인 수준의 기업과 의료시설에 종사하는 데이터 사이언티스트가 연사로 참여하여, 이 학회에 참여하면 최신 데이터 사이언스 기술의 동향을 파악하는데 큰 도움이 될 것으로 기대했다. 내가 들었던 여러 발표 중 인상 깊었던 부분을 소개하고자 한다.

지저분한 데이터가 가져오는 결과

발표자: Susan Walsh

데이터가 지저분하다는 것에 대해 논의하기 전에, 우선 그것이 무슨 뜻인지 정의를 해야 한다. 데이터 분석을 할 때 데이터 자체에 오점이 많으면 데이터를 힘들게 분석을 해도 의미 있는 결과를 얻기 힘들 것이다. 발표자는 3가지의 이유로 데이터가 지저분해 지는 것으로 분류를 했고 그것이 역시 내가 실제로 데이터를 분석했을 때에도 나타났던 현상이었기 때문에 공감이 많이 갔다. 첫째, 라벨링 자체가 잘못되어 있는 경우이다. 예를 들어 사실은 강아지인데 사람이 실수로 고양이라고 입력하는 경우이다. 만약 라벨링을 잘못했다는 사실을 알면 차라리 그것은 다행이라고 할 수 있지만, 사태가 더욱 심각해지는 것은 라벨링을 잘못된 줄 모르거나 알 수가 없는 경우이다. 이런 경우는 내가 직접 데이터를 분석하는 경우에도 일어나는 것으로 의심이 된다. 의료 데이터를 외부 임상기관으로부터 받아오면 사람이 자유롭게 기입할 수 있는 시스템이다 보니 성별이 여자, 혹은 남자 둘 중 하나여야 하는데 이상한 오기입이 들어가 있는 경우가 있어 그 경우는 제외를 하고 분석을 했었다. 하지만 그 정도로 오기입 된 라벨링이 많다는 것은 여자를 남자로, 혹은 남자를 여자로 바꾸어서 잘못 기입했을 가능성도 있다는 것이다. 그것을 알 수 없다는 것이 제일 무서운 부분이라고 생각한다. 그리고 둘째, 엑셀로 인한 자동포맷으로 인해 나도 모르게 데이터 내용이 잘못 기입이 되는 경우이다. 이것은 실제로 나에게도 일어나서 내 두 눈을 의심하게 했었다. 분명히 원본 데이터에는 10-20이라는 값 (연령대가 10대에서 20대 사이)이 들어가 있었는데 엑셀은 이를 2020년 10월로 자동으로 변환하면서 나에게 아무런 알림을 주지 않았기 때문에 하마터면 데이터 분석을 망칠 뻔한 적이 있었다. 데이터 분석을 할 때, 특히 대량의 데이터를 다룰 때에는 엑셀보다는 DB를 파이썬 등으로 읽어서 값을 확인하는 것이 훨씬 안전한 것 같다. 이처럼 데이터를 분석하기 전에 데이터가 정제가 되어있지 않으면 데이터를 분석해도 쓸모가 없게 된다.

인공지능 기반 데이터 분석을 통한 비즈니스 혁신

연구자: John Montgomery

Microsoft Azure 머신러닝 플랫폼을 이용하여 여러 산업군에서 당면한 문제를 효율적으로 해결 할 수 있었다. 첫째, 고객의 수요를 쉽게 예측하는 모델을 구축할 수 있어 재고를 덜 남기게 할 수 있다. 예를 들어, python이나 R을 이용하여 코딩을 하지 않아도 분석 모델을 빠르고 쉽게 만들 수 있다. 피자 프랜차이즈 기업에서는 고객에게 오븐에서 방금 나온 따끈따끈한 피자의 수요를 예측하여 낭비되는 피자를 이 서비스를 이용하기 전 보다 20%나 감소시킬 수 있었다. 둘째, 수천 개의 분석 모델을 단시간 내에 수행할 수 있다. 호주의 가스, 전기 에너지 기업인 AGL에서는 4500개의 분석 모델을 수행하는데 이는 2주가 걸릴 수 있을 정도로 방대한 규모의 일이었지만 이 서비스를 사용하여 모델 훈련을 기존보다 20배 더 빨리 할 수 있었다. 셋째, 불평등의 격차를 줄이는 분석을 수행할 수 있다. 영국의 회계법인 Ernst & Young에서는 이 서비스를 이용하여 남녀 간 대출 승인 건수가 불공평하게 나타나는 것을 알 수 있었다. 결국 분석 끝에 대출 승인 건수의 차이를 7%에서 0.5%로 감소시킬 수 있었다. 이 발표에서는 이 3개의 사례만을 소개했지만 실제로는 더 많은 기업에서 활용되고 있을 것이다. 특히 코딩에 대한 지식이 없어도 모델을 만들 수 있다는 것은 코딩에 대한 진입장벽을 없애주기 때문에 초보자들이 접근하기 쉽다고 생각된다. 하지만 그만큼 초보자들이 모델 분석을 하기 전에 데이터 클리닝을 충분히 하지 않는다든지, 혹은 어떨 때 어느 모델을 써야 하는지 잘 모르기 때문에 근거 없이 무작정 모델만 많이 만들 우려도 있다. 만약 이렇게 코딩하지 않고서도 데이터를 분석할 수 있는 서비스가 많아지게 되면 데이터를 분석하는 것에 많은 노력을 들인 사람들이 설 자리가 없어지게 되는 역효과를 불러올 수 도 있을 것 같다는 생각이 든다.

반응형