데이터를 읽는 습관…근본에는 인문학이 있다
상태바
데이터를 읽는 습관…근본에는 인문학이 있다
  • 이명아 기자
  • 승인 2024.01.20 12:48
  • 댓글 0
이 기사를 공유합니다

■ 데이터는 예측하지 않는다: 데이터에 관한 꼭 알아야 할 오해와 진실 | 김송규 지음 | 좋은습관연구소 | 222쪽

 

이 책은 우리가 알고 있던 데이터에 대한 지식이 얼마나 잘못된 것이 많으며, 이를 제대로 알지 못하면 어떤 실수를 범하게 되는지 여러 사례를 통해 밝히고 있다. 그리고 이런 실수에서 벗어나기 위해서는 인문학적 통찰이 중요하다는 것도 잊지 않고 강조한다.

저자는 데이터 읽는 습관으로 인문학적 소양 쌓기를 주장한다. 그리고 이를 뒷받침 하는 증명(?)으로 데이터에 관한 오해와 진실이 무엇인지 하나씩 소개한다.

그 중 몇 가지를 소개하면 다음과 같다.

1. 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 낫다.

2. 데이터 분석은 어쨌든 모집단의 일부를 갖고서 분석하는 것으로 아무리 양질의 데이터이고, 많은 양이 있다 하더라도 결국은 진실에 가까운 추정치일 뿐이다.

3. 데이터 없이 분석결과를 얻을 수 있다면 그것이 최선이다.

4. 데이터 분석을 할 때 자주 하는 실수 중 하나가 ‘나의 데이터’ ‘남의 데이터’를 구분하지 못하는 것이다.

5. ‘당선 확률’은 당선의 미래를 예측하는 것이 아니라 미래의 오차 범위를 말하는 것이다. 그래서 “미래를 정확히 예측한다”는 말을 해서는 안 된다.

6. 데이터는 과거의 발자취일 뿐이다. 예측할 수 없다. 빅데이터를 분석한다는 것은 예측을 하기 위한 것이 아니라 패턴을 찾기 위한 것이다.

7. 분석에만 치중하다 보면 상식적인 판단이 헷갈려 엉뚱한 진단을 하는 수가 있다. 그래서 풀고자 하는 문제에 대한 통찰을 선행하는 것이 중요하다. 통찰은 결국 해당 문제 영역의 경험에서 나온다.

8. 데이터 리터러시 역량을 키운다는 것은 해결하려는 문제의 주어진 상황이나 인과관계를 논리적으로 추론할 수 있는 소양을 갖추는 것을 말한다.

9. 지금의 빅데이터가 몇 년 뒤에는 일반 데이터가 될 수도 있다. 그러니 빅데이터가 뭔가 대단한 것이라고 착각해서는 안 된다.

10. 인공지능이 표본화된 데이터를 학습한 만큼, 인공지능이 생성한 답이 반드시 진리일 수는 없다. 갈릴레오 시대의 인공지능이라면 “지구는 돈다”라고 말할 것이다.

11. 데이터 분석이 보장하는 것은 답의 진실성이 아니라, 데이터의 대표성임을 잊지 말자.

12. 문제의 본질을 읽는 것, 그래서 문제를 풀기 위해 어떤 도구를 쓸지 결정하는 능력, 그것이 곧 인문학적 능력이다.

데이터는 거짓말을 하지 않는다. 거짓말을 하는 것은 데이터를 활용해 자신의 주장을 펼치는 사람이다. 이책에서 강조하는 인문학적 소양은 바로 이러한 왜곡을 밝히고 잘못 이해하고 있는 오해를 진실과 구분짓는 데 필요한 능력이다.

인문학적 소양이 부족하면 최신 기술을 빨리 익히는 힘은 물론이고, 기술에 앞서 풀고자 하는 문제의 본질을 보는 힘 또한 놓치게 된다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사