学際大規模情報基盤共同利用・共同研究拠点

採択課題 【詳細】

jh261019 オープンソース大規模言語モデルと検索拡張生成を活用した古代言語における引用・引喩の自動探知システムの開発
課題代表者 宮川 創(筑波大学・人文社会系)
So Miyagawa (The University of Tsukuba, Institute of Humanities and Social Sciences)
概要 本研究は、既開発の引用検出システムICoMA(https://github.com/somiyagawa/quotationChecker)に、オープンソース大規模言語モデル(ByT5-large、mBERT、XLM-RoBERTa)と検索拡張生成(RAG)技術を統合し、古代言語における引用・引喩の高精度自動探知を実現する。コプト語・ヴェーダ語各300万語コーパスでLLMをファインチューニングし、従来手法(F1: 0.65)を上回る性能(F1>0.82)を達成する。mdx IIの大容量GPUメモリ(80GB+)とLustre並列ファイルシステム(18TB)により、LLM訓練、RAGベクトルDB構築(25万エントリー)、大規模推論を実施する。
関連Webページ
報告書等 研究紹介ポスター / 最終報告書
無断転載禁止