728x90

멀티모달 3

[멀티모달] 논문 주제 선정 세번째

AI-Hub에서 제공되는 감정분류용 데이터셋을 활용한다.대화 스크립트와 이미지 그리고 영상 데이터가 제공된다.내가 논문에 활용할 음성 부분이 제공되진 않지만 영상 데이터에서 음성을 추출하는 작업을 거치면 사용가능해 보인다.코드를 통해서 바꿀 수 있을지 확인을 해봐야겠지만, 시간이 꽤 걸릴 것 같다.https://blog.naver.com/kimflstudio/222989231295 파이썬 moviepy로 동영상(mp4)에서 mp3 추출하는 방법파이썬 moviepy를 사용하여 영상파일(mp4)에서 소리(mp3) 추출하는 방법에 대한 강의입니다. os.listdir을 ...blog.naver.com 이 코드를 참고하면 가능하지 않을까 싶다. 생각하는 논문의 흐름은 이미지, 텍스트, 음성의 각각의 가중치를 조..

멀티모달 2024.05.25

[멀티모달] 논문 주제 선정 두번째

다음 모델을 통해 캡셔닝을 해낼 수 있다. 캡셔닝 사용 모델 이미지 캡셔닝 : clip interrogator 보이스 캡셔닝 : 음성 인식(ASR) 이게 정확히 감정을 담아내는지 궁금해져서 GPT에게 정확도 측정 방법을 물어봤더니, 친절하게 알려줬다. 정확도 측정 이미지 캡셔닝 : bleu, cider, spice 보이스 캡셔닝 : Word Error Rate (WER), Sentence Error Rate (SER) ,Precision, Recall, F1 Score 근데, 단순히 캡셔닝을 해내는게 무슨 의미가 있는건지 논문으로 써낼 수가 있는지 궁금하던 찰나 DBpia에 멀티모달 캡셔닝에 관해 검색하니 이미지의 단순 감정 추출과 캡셔닝을 통한 감정 분류를 했을때 더 정확한 분류가 됐다는 논문을 볼 수..

멀티모달 2024.04.13

[멀티모달] 논문 주제 선정

이번 연구실의 프로젝트는 멀티모달(이미지, 텍스트, 음성)을 활용해 감정을 분류하고 이 감정을 활용한 음악을 생성한다. 그리고 이 음악을 더 풍부하게 만들어 내는것이 우리의 목표이다. 그중에서 내가 맡은 부분은 멀티 모달 데이터를 활용해 감정을 분류해내는 것이다. 최종적으로는 새로운 이미지를 넣었을때 감정을 추출해내면 된다. 단일 데이터가 아닌 멀티모달을 통한 감정 분류 성능을 높이는 연구는 많이 진행 되었다. 임서연, 차수정, 최유진, and 동서연, "멀티모달 딥러닝을 활용한 감정 분류 연구," 한국정보과학회 학술발표논문집, pp. 2082-2084 황예린, 채윤형, 김용일, and 정교민, "이중-단계 접근 기반의 멀티모달 감정 분석 모델," 한국정보과학회 학술발표논문집, pp. 2148-2150 ..

멀티모달 2024.04.13
728x90