숭실대학교 IT대학 AI융합학부
AI융합학부 박채원 학생, 자연어처리 분야 최고 저명 학술대회 EMNLP 2023 제1저자 논문 채택 |
---|
작성자 : | 작성일 : 2023.10.27 | 조회수: 469 |
숭실대학교 AI융합학부 19학번 박채원 학생(지도교수: 박건우)이 제 1저자로 참여한 논문 “K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific Ratings” 가 자연어처리 분야 최고 저명 학술대회 EMNLP 2023 Findings 에 게재 승인되었다.
데이터셋 구축을 위해, 연구팀은 대상별 공격성 점수를 단계별로 측정하는 것을 제안했다. 이를 통해, 욕설 등 명시적인 형태의 혐오 발언 뿐 아니라, 비꼬기 등 암시적인 형태의 혐오 발언 탐지가 가능하도록 라벨링 가이드라인을 구축하였다. 논문을 통해 공개하는 한국어 라벨링 데이터셋 K-HATERS는 약 19만 건의 뉴스 댓글로 구성되며, 현존하는 혐오 탐지 한국어 데이터셋 중 가장 크다. 연구팀은 데이터셋의 효과를 보이기 위해 제안 데이터로 학습한 혐오 탐지 모델로 뉴스 포털에 발행된 기사에 달린 댓글 분석을 수행하였고, 정치, 세계, 사회 섹션에 혐오를 담은 댓글이 많이 나타나며, 정치, 지역 관련 대상을 주요 혐오 대상으로 삼는 경향성이 있음을 발견하였다.
박채원 학생은 “큰 사이즈의 한국어 혐오 데이터셋을 구축하고, 이를 이용한 다양한 실험 결과들을 공개할 수 있어 기쁘고 영광이다. 데이터셋 구축 과정에서 많은 도움을 주신 셀렉트스타 매니저분들과 공저자분들께 감사드린다” 라고 밝혔다. 이어, “항상 열정적으로 지도해 주시는 박건우 교수님께 감사드린다.” 라고 전했다. 연구책임자 박건우 교수는 “이 연구는 온라인 환경에 만연한 혐오 발언을 탐지할 수 있는 AI 모델 학습을 위한 대규모 데이터셋을 구축했다는 점에서 그 의의를 지닌다.” 라고 밝혔다. 또한, “ChatGPT 등 초거대 언어 모델이 생성하는 발화에 담긴 혐오 또는 편향성 등을 검증하기 위한 도구로도 사용될 수 있을 것”이라고 강조했다.
이 연구는 숭실대학교와 자연어처리 스타트업 튜닙의 공동 연구로 진행되었으며, (주)셀렉트스타가 진행한 “2022 데이터셋 지원사업”의 지원을 받아 데이터셋을 구축하였다. IITP 지역지능화혁신인재양성사업 및 NRF 기본연구 지원을 받아 수행되었다. |