PGR21.com
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다.
통합 규정을 준수해 주십시오. (2015.12.25.)
Date 2022/06/08 09:53:44
Name 휵스
Subject [질문] NLP(토픽모델링) 한글과 영어 차이?
현재 사회과학쪽 연구를 하고 있는 대학원생인데 요새 머신러닝의 발달과 함께 점점 비정형화 텍스트를 데이터로 삼고 거기서 변수를 만드는 연구들이 메인스트림에도 많아지더라고요. 코드를 보면 대부분 이런 NLP 툴 (e.g., LDA topic modeling, word2vec)들이 영어 위주로 개발이 된듯한데 한글도 영어처럼 똑같이 적용이 가능한가요? 뭔가 언뜻 한글은 더 체계화 시키기 어려울것 같다는 생각이 들었는데 궁금합니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
새벽살이
22/06/08 10:11
수정 아이콘
일단 화자 수가 영어가 압도적이기도 하고 한국어 같은 경우는 조사 때문에 연구 난이도가 높은 것으로 알고 있습니다.
단적인 예로 영어는 단어가 대부분 공백으로 구분되지만 한국어는 은는이가 부터 떼고 생각해야 하죠..
그래서 분석을 위해 문장을 배열로 변환하실 거면 단어를 어절로 구분하여 분석하는 fasttext를 추천드립니다. 이름대로 속도도 빠른 편입니다.
https://fasttext.cc
위키백과 기준 한국어 데이터는 만들어져 있고 위키백과 데이터 덤프에 분석에 특화된 corpus를 추가하시어 커스텀 모델을 생성하셔도 좋습니다.
새벽살이
22/06/08 10:15
수정 아이콘
LDA는 통계학 쪽 테두리에 있는 모델로 사용하시려면 문서에서 단어 추출이 필요합니다. LDA 자체는 언어에 영향을 받는 모델이 아닙니다. 분석하고자 하는 언어마다 단어 추출 난이도가 다를 뿐이죠. 이를 위해 주로 사용하는 것이 형태소 분석기인데, mecab, hannanum 형태소 분석기 등이 있으며 파이썬 konlpy 패키지에서 대부분 지원하고 있습니다.
새벽살이
22/06/08 10:22
수정 아이콘
아무래도 화자와 데이터 수는 비례하는 요소이다 보니 최근 연구에서는 언어 모델을 개발할 때 영어/중국어/나머지 언어로 접근하는 것 같습니다. 예전에 잠깐 찾아봤을 때 BERT라는 언어 모델이 제시되어 그 파생이 많이 나왔는데 미리 학습된 모형은 대충 English/Chinese/Multilingual 로 나옵니다.
그래도 한국전자통신연구원에서는 https://aiopen.etri.re.kr/service_dataset.php 같은 한국어 언어모델을 만들었습니다. 텍스트 데이터를 많이 소유한 기업에서도 내부적으로 개발을 진행하고 있지 않을까 합니다. 네이버만 봐도 네이버 쇼핑에서 쇼핑 후기에 강조 처리를 하고 있죠.
22/06/08 14:59
수정 아이콘
자세한 정보 감사합니다!
22/06/08 12:27
수정 아이콘
NAVER CLOVA의 hyperCLOVA 논문같은걸 보시면 한글의 경우 tokenization 하는 것에 있어서 좀더 트릭이 필요합니다. 그 뒤로는 영어 데이터랑 크게 다를바는 없구요.
연구레벨에서 아무래도 minor하다보니 정보가 적어보이는거구요.

google이나 deepmind의 multilingual model들의 경우에 한글도 대응은 되는데, 아무래도 web에서 긁어온거라 한글 데이터가 일부밖에 안됩니다.
일부만 가지고도 multi-lingual모델의 low-resource language 성능이 꽤 좋다는 결과도 많긴 하지만, 그래봐야 한글데이터 제대로 넣은거랑 차이가 좀 있습니다.
SK나 카카오에서도 모델 공개를 하고 있으니 참고를 해보실수 있을겁니다.
22/06/08 15:00
수정 아이콘
이런 기업들에서도 모델 공개를 하는군요. 정보 감사합니다!
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회
164102 [질문] 부산의 언양불고기 맛집이 있을까요? [10] 행복을 찾아서5171 22/06/08 5171
164101 [질문] 서해 여행지 추천 [7] 요들4254 22/06/08 4254
164099 [질문] 카시트 구매했는데 이부품은 뭘까요. [2] Red Key4256 22/06/08 4256
164098 [질문] 닌텐도 스위치 보관 질문입니다. [4] 피자치킨4904 22/06/08 4904
164097 [질문] 치킨 브랜드 중에 가슴살로 순살치킨 주는 데가 어디어디인가요? [23] 쿨럭6072 22/06/08 6072
164096 [질문] 벌금형 얼마부터가 사회생활하는데 지장있을까요? [8] 한이연7334 22/06/08 7334
164095 [질문] C#(유니티) 입문 도서 추천 부탁드립니다. [2] Aiurr3323 22/06/08 3323
164094 [질문] 기아차 안드로이드오토 오류 질문 드립니다. [7] 파쿠만사4444 22/06/08 4444
164093 [질문] 아이패드 중고로 파는 방법? [16] 톤업선크림3566 22/06/08 3566
164092 [질문] 독어랑 러시아어 빨리배우는법? (논문읽기용) [6] 티타늄4831 22/06/08 4831
164091 [질문] 파이썬으로 간단한 프로그램을 만들어보고 싶습니다. [4] 펩시제로라임3956 22/06/08 3956
164090 [질문] 고등학교 과학탐구 영역 공부하고 싶습니다. [5] 득이3145 22/06/08 3145
164089 [질문] 요즘 잘나가는 취업 사이트 뭐가 있을까요? [11] 리얼월드3315 22/06/08 3315
164088 [질문] 가입한지 50년 넘은 집전화기 해지해도 될까요..?? [12] 이쥴레이4494 22/06/08 4494
164087 [삭제예정]  30대 후반 여성에게 추천할만만 책 추전부탁드립니다 [29] 시오냥5916 22/06/08 5916
164086 [질문] NLP(토픽모델링) 한글과 영어 차이? [6] 휵스4110 22/06/08 4110
164085 [질문] 외국인 현재 한국 입국시 절차가 어떻게되나요? [8] FarorNear4910 22/06/08 4910
164084 [질문] 서울에 왔으면 꼭 먹어봐야 한다? [53] 하얀소파6925 22/06/07 6925
164082 [질문] 에픽세븐하시는분있나요? 할만한게임찾고있어요 [9] 처음이란4882 22/06/07 4882
164081 [질문] 핸드폰게임용 컨트롤러 추천부탁드립니다. [2] 테오도르3141 22/06/07 3141
164080 [질문] CPU는 인텔인가요 AMD인가요? [18] wiggle4263 22/06/07 4263
164079 [질문] PGR 여러분들이라면 장효조 선수카드중에서 어떤게 더 좋다고 보시나요?? [1] 잘가라장동건3441 22/06/07 3441
164078 [질문] 시골 똥개가 비교적 건강하다는건 사실인가요? [13] AKbizs5195 22/06/07 5195
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로