Chapter 10 산업보건분야에서 건강보험공단 자료 분석
요청 주제
직업환경의학에서 건보공단 자료분석의 기초에 대한 이해
6시~7시: 윤진하교수(직업환경의학회 빅데이터위원장) *40분강의 20분 질의응답)
10.1 빅데이터 위원회
목적
빅데이터 위원회는 산업보건분야 빅데이터 구축 및 활용을 목적으로 함. 구축은 공개형을 기본으로하며, 활용은 진입장벽을 낮추고 대중화를 목적으로 함.위원회 구성
역활
이름
연락처
소속
1
위원장
윤진하
연세대학교 의과대학
2
부위원장
이완형
가천대학교 길병원
3
위원
강모열
가톨릭대학교 성모병원
4
위원
이동욱
서울대학교 의과대학
5
위원
이원철
강북삼성병원
2021년 구체적 활동 계획 분야
- 직업환경의학 빅데이터 활용
- IARC 한글화 찾아보기
- 검진데이터 분석
- 업종별 노출물질 공개
- 역학조사 사례집 공개
- 홈페이지운영?
- 직업환경의학 빅데이터 생성
- K2B 특검 CDM,
- 건강보험공단 빅데이터
- OPEN CDM
- 산업보건 통계자료 DB화
10.2 직업환경분야 건강보험공단 자료 분석
10.2.1 건강보험공단 자료 및 사용
- 국민건강보험공단 빅데이터 데이터 구성 내역
항목 | 내용 |
---|---|
자격 및 보험료 | ⦁자격 데이터 : 생년월일, 성별, 나이, 거주지역, 사업자/가입자, 해외출입국자료 등 |
⦁보험료 데이터 : 종합소득, 연금소득, 전월세, 재산세 ∙자동차세 등 과세자료, 보수월액, 국가유공자 명부, 장애인 등록자료(장애등급, 장애유형 등) | |
진료내역 | ⦁명세서일반 : 요양기관, 상병명, 내원일수, 요양개시일, 진료과목 등 |
⦁진료내역 : 병원 내의 처치 및 수술, 원내 약처방, 투여량, 진료비 등 | |
⦁수진자 상병내역: 부상병을 추가한 상세 | |
⦁처방전교부 상세내역 : 원외 처방약, 투약량, 투여일수, 약물정보 등 | |
건강검진 | ⦁일반건강검진, 생애전환기 건강진단, 5대 암 검진(위암/대장암/폐암/간 암/유방암), 영유아 건강검진, 구강검진 |
⦁문진자료(생활습관, 가족력, 기왕력 등) | |
⦁검진결과 실측 데이터 | |
의료급여 | ⦁생년월일, 성별, 나이, 보장기관(시도·시군구), 의료급여 유형 및 거주 지역 등 자격 자료 |
⦁요양기관, 상병명, 내원일수, 요양일수, 요양개시일, 진료비 등 명세서 내역 | |
노인장기요양 | ⦁장기요양 신청내역, 노인상태상 등 인정조사자료, 등급판정자료 등 |
⦁희망급여종류, 시설·재가급여, 특별현금급여, 급여제공기록지 등 | |
⦁의사소견서, 장기요양급여 청구자료, 심사자료, 기관 평가자료 등 |
- 건강보험공단 자료 상세 내역
- 건강보험공단 자료 신청
건강보험공단 빅데이터
로 검색- [건보공단 빅데이터 신청 site] (https://nhiss.nhis.or.kr/bd/ay/bdaya001iv.do)
- 연구DB 신청
- 연구DB 클릭
- 맞춤형연구 DB 신청
- 연구 디자인에 맞게 신청
- IRB 작업 선행되어야 함
- IRB 번호를 넣는 항목이 있음
- IRB PI가 신청 PI 임
- 수정 작업
- 결과 통보
- 피드백
- 반복 👿
- 데이터 받기
- 비용 납부
- 현장 점검 (원주)
- 자리 배정
- 현장 점검 (지역 센터)
- 분석 시작
- 메뉴얼 (로그인, 원격 자료 업로드/다운로드, 데이터 보관)
- 분석
- 시각화
- 반출 (코드 및 테이블)
10.2.2 건강보험공단 자료 분석 방법
10.2.2.1 표준화발생비(유병비)
직업환경의학적으로 가장 많이 사용되는 결과는, 업종별 유병률(발생률) 차이를 보는 것임
예를 들어 전자산업의 특정 암 발생률이 전체 국민가 어떻게 다른지를 알아볼 때 사용됨. 이때 주로 연령과 성별을 표준화하는 방법을 이용.
업종을 분류하는 방법은 표준화 코드를 이용하는 방법과 여러 업종을 병합하는 방법을 사용함.
표준화 코드는 건보공단 업종과 산재업종이 상의하므로 어느정도 타협점이 필요함. 빅데이터 위원회에서 정리한 코드를 사용할 수 있음.
건보 산재 업종 호환표
연구 예시
상기 방법으로 다음과 같은 연구를 진행할 수 있습니다.
SMR 기본 방법
액셀을 이용한 간단 실습
위의 논문의 내용을 엑셀 자료를 통해 실습해 보도록 하겠습니다.
10.2.2.2 추적관찰된 자료에서의 분석
SMR(SIR)에서 추가로 여러 보정변수가 있다면 생존 분석 등을 고려해 보는 것도 좋습니다. 생존 분석은 어떤 질병이 발생하는데 걸리는 시간의 개념을 사용하여 분석하는 방법입니다. 단편적인 예로 A라는 회사와 B라는 회사에서 모두 1%의 암 환자가 발생했지만, A라는 회사에서는 평균 2년만에, B라는 회사는 평균 4년만에 1%가 발생했다면 A라는 회사에서 질병 발생 위험이 높다고 분석하는 방법입니다.이때 산업보건야에서 고려해야할 부분이 몇가지 있습니다. 산업보건 영역에서 유해물질의 특성, 질병의 특성, 노출집단의 특성에 따라 몇가지를 고려해 볼 수 있습니다. 2019년 연구를 통해 논의해보겠습니다. 아래 ppt는 생존분석은 아니라 nested-case control study 입니다.
생존 분석도 마찬가지 입니다. 결국 추적 관찰 기관을 어떻게 설정 하는지에 대한 고려를 해야 합니다. 아래는 immortal bias를 쉽게 표현한 그림입니다.
approace | result | methods | etc |
---|---|---|---|
included IT | lower HR | IT 상관 없이 돌리기 | 화학 물질 노출자가 건강하다? |
TD cox | HR | 시간 변화 변수를 만들어 Cox 모형 분석 | acute 질환에 적합 |
PTDM | HR | IT 를 제거한 person year 를 비노출에 적용 | 만성질환에도 적합 |
IPCW | HR | teat 될 확률을 각 변수 마다 고려하여 분석 | acute 질환에 적합 |
PTDM: prescription time-distribution matching
IPCW: inverse probability-of-censoring weights
* 통계 전문가에게 자문이 필요할 듯
다만 우리 연구팀은 PTDM + exact matching을 이용하는 방법을 사용. 30만 sampling matching에 2시간 소요
iptw 간단 설명 ipcw을 해야하지만 iptw을 이용하여 개념을 설명해 볼 수 있습니다. 다만 아직 공부중이라 참고만 하시기 바랍니다.