본문 바로가기
데이터 사이언스

데이터 거버넌스: 표준화를 안하면 어떻게 될까

by 빛나는존재 2024. 7. 11.

 

Cluade 에게 data governance 측면에서 한 연구소 내에서 개발한 2개의 software 에서
동일한 변수가 다른 데이터 타입으로 저장되어 있다면 무슨 문제가 생길지에 대해 물어봤다.
데이터 표준화 관점에서 문제가 있을 것이라고 막연히 생각했는데 claude 가 세분화 된 답변을 줬다. 참고로 내가 질문한 문장은 다음과 같다.

Suppose there are two different softwares developed in the same lab, but some of variables are stored in a different data type. For example, variable A is stored as an int type but in other software, variable A is stored as a varchar type. what is the problem in the scope of data governance and standardization?

Cluade 의 답변을 요약하자면 다음과 같다.
1. Data inconsistency 로 인한 통합의 어려움.
두 software 의 data 를 통합하려고 할 때 동일한 변수임에도 불구하고 데이터 타입이 다르면 불필요하게 ETL process 시 복잡성이 증가한다.
2. 메타데이터 관리의 어려움.
3. 새로운 팀원이 합류했을 때 혼란을 야기 할 수 있음
4. 실제로 특정 데이터 타입으로 저장된 것은 틀린것일 수 있음. 
5. 수학 계산시 다른 결과를 불러올 수 있음.

반응형