Cluade 에게 data governance 측면에서 한 연구소 내에서 개발한 2개의 software 에서
동일한 변수가 다른 데이터 타입으로 저장되어 있다면 무슨 문제가 생길지에 대해 물어봤다.
데이터 표준화 관점에서 문제가 있을 것이라고 막연히 생각했는데 claude 가 세분화 된 답변을 줬다. 참고로 내가 질문한 문장은 다음과 같다.
Suppose there are two different softwares developed in the same lab, but some of variables are stored in a different data type. For example, variable A is stored as an int type but in other software, variable A is stored as a varchar type. what is the problem in the scope of data governance and standardization?
Cluade 의 답변을 요약하자면 다음과 같다.
1. Data inconsistency 로 인한 통합의 어려움.
두 software 의 data 를 통합하려고 할 때 동일한 변수임에도 불구하고 데이터 타입이 다르면 불필요하게 ETL process 시 복잡성이 증가한다.
2. 메타데이터 관리의 어려움.
3. 새로운 팀원이 합류했을 때 혼란을 야기 할 수 있음
4. 실제로 특정 데이터 타입으로 저장된 것은 틀린것일 수 있음.
5. 수학 계산시 다른 결과를 불러올 수 있음.
'데이터 사이언스' 카테고리의 다른 글
딥러닝으로 하는 신약개발 (2) | 2024.09.14 |
---|---|
LAIDD 인공지능 & 파이썬 프로그래밍 역량강화 교육과정과 함께하는 신약개발 (0) | 2024.08.25 |
python 에서 한 번에 여러 건의 값을 다른 값으로 replace (0) | 2024.01.28 |
데이터 분석가로 취업한 이후의 현실과 난관 극복기 (0) | 2023.09.17 |
순수학문 전공자가 데이터 사이언티스트로 전향 하는 이유 (0) | 2023.09.17 |