[日本語 / English]

早稲田大学 基幹理工学部 情報通信学科
河原研究室

About

人間と同程度に言語を理解することのできる人工知能システムについて研究しています。
特に、計算機科学と言語学の知見・技術を融合することによって、世界知識の獲得・利活用、テキストの解析・理解の研究に取り組んでいます。さらに、人が言語を理解する機構の解明、あるいは、そのような機構を組み込んだシステムの研究を進めています。

News

2024/3/4: オープンラボ2024の開催
3月18日(月)〜21(木)にオープンラボを行います。河原研究室への配属を希望する方は是非参加してください。ここから予約をお願いします。
2024/3/4:言語処理学会第30回年次大会(NLP2024) 発表
3/11-15に開催されるNLP2024で以下の研究発表をします。
  • 中村友亮, 河原大輔. 日本語TruthfulQAの構築.
  • 清水博文, 河原大輔. 日本語Winogroundデータセットの自動構築.
  • 尹子旗, 王昊, 堀尾海斗, 河原大輔, 関根聡. プロンプトの丁寧さと大規模言語モデルの性能の関係検証.
  • 今井咲良, Giovanni Pasa, 小田博宗, 折田奈甫, 河原大輔. 意味的プロービングデータセットの構築と言語モデルの評価: イタリア語の倒置を例に.
  • 近藤瑞希, 河原大輔, 倉林利行. テキスト変換によるリポジトリレベルのコード検索の改善.
  • 村田栄樹, 大友寛之, 村上聡一朗, 本多右京, 舟久保弘明. 訴求軸を考慮したキーワードからの広告文生成.
  • 村田栄樹, 河原大輔. TaCOMET: 時間を考慮したイベント常識生成モデル.
  • 植松拓也, 王昊, 河原大輔, 柴田知秀. 日本語Natural QuestionsとBoolQの構築.
  • 山内悠輔, 河原大輔. 手順のテキスト化による将棋解説文生成.
  • 王昊, 栗田修平, 清水周一郎, 河原大輔. SlideAVSR: 視聴覚音声認識のための論文解説動画データセット.
  • 関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction LLMのための日本語インストラクションデータの作成.
  • Arseny Tolmachev, Masayoshi Hayashi, Takuro Niitsuma, Rintaro Enomoto, Hao Wang, Shuhei Kurita, Daisuke Kawahara, Kazuma Takaoka, Yoshitaka Uchida. Uzushio: A Distributed Huge Corpus Processor for the LLM Era.
  • 岡野裕仁, 河原大輔, 野村理朗. 自由記述からセルフ・コンパッションを推定することは可能か? ―BERTによる心理学的構成概念の定量化―.
  • 小林俊介, 河原大輔. 多様なクイズを自動生成する手法およびその検証.
  • 笠原智仁, 村田栄樹, 河原大輔. 科学技術論文を対象とした根拠付き生成型要約システムの構築.
  • 榎本倫太郎, Tolmachev Arseny, 新妻巧朗, 栗田修平, 河原大輔. 大規模言語モデル開発における日本語Web文書のフィルタリング手法の検証.
  • 笹川慶人, 河原大輔. 環境依存情報を利用しない大規模言語モデルによるコンピュータータスク自動化手法.
  • 伊藤俊太朗, 河原大輔. 知識志向 Mixture of LoRA Experts の構築.
  • 太田聖三郎, 河原大輔, 野村理朗. おもしろい川柳の生成.
2024/2/6: スキー・スノボ合宿 実施
2/4-2/6に志賀高原にて、有志によるスキー・スノボ合宿を実施しました。
    2023/10/23: IJCNLP-AACL 2023 Student Research Workshop 発表
    11/1に開催されるIJCNLP-AACL 2023 Student Research Workshop で以下の研究発表をします。
    • Tomohito Kasahara and Daisuke Kawahara. Exploring Automatic Evaluation Methods based on a Decoder-based LLM for Text Generation.
    2023/9/18: 夏ゼミ合宿 実施
    9/16-18に鴨川セミナーハウスにて夏ゼミ合宿を実施しました。
      2023/8/21: NLP若手の会(YANS)第18回シンポジウム 発表
      8/30-31に開催されるYANS第18回シンポジウムで以下の研究発表をします。どちらもインターンにおける成果の発表となります。
      • 王昊 (早大), 森村哲郎 (サイバーエージェント), 本多右京 (サイバーエージェント), 河原大輔 (早大). 非自己回帰言語モデルへの強化学習の適用.
      • 村田栄樹 (日経新聞/早大), 石原祥太郎 (日経新聞). ドメイン別に訓練した要約モデルにおけるHallucinationの内在・外在要因分析.
      2023/7/6: ACL2023 SRW 発表
      7/10-12に開催されるACL2023 Student Research Workshop で以下の研究発表をします。
      • Sakura Imai, Daisuke Kawahara, Naho Orita and Hiromune Oda. Theoretical Linguistics Rivals Embeddings in Language Clustering for Multilingual Named Entity Recognition.
      2023/6/26: BigBird日本語Pretrainedモデル公開
      単語分割した日本語コーパスでBigBirdをpretrainingした以下のモデルをHuggingface Modelsに公開しました。
      2023/6/5: 第37回人工知能学会全国大会 (JSAI2023) 発表
      6/6-9に開催されるJSAI2023で以下の研究発表をします。
      • 清水博文, 河原大輔. 非言語データを用いた対照学習による文埋め込み学習の日本語における効果検証.
      • 伊藤俊太朗, 河原大輔. 日本語BERTにおけるトークナイザの違いによる影響の検証.
      • 堀尾海斗, 村田栄樹, 王昊, 井手竜也, 河原大輔, 山崎天, 新里顕大, 中町礼文, 李聖哲, 佐藤敏紀. 日本語における Chain-of-Thought プロンプトの検証.
      • 尹子旗, 河原大輔. 多段階転移学習による不完全発話補完の精度向上.
      2023/5/2: ACL 2023 採択
      7/9-14に開催されるACL2023 (Findings)に以下の論文が採択されました。
      • Hao Wang, Hirofumi Shimizu, Daisuke Kawahara. Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models.
      2023/4/1: 新メンバー配属
      7名の学部生、1名の修士学生、1名の博士学生が新たに配属されました。
      2023/3/17:言語処理学会第29回年次大会(NLP2023) 優秀賞・委員特別賞受賞
      M2の吉田あいりさんが「日本語 WiC データセットの構築と読みづらさ検出への応用」で優秀賞を、M2の栗原健太郎さんが「JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良」で委員特別賞をそれぞれ受賞しました。
      2023/3/13:言語処理学会第29回年次大会(NLP2023) 発表
      3/13-17に開催されるNLP2023で以下の研究発表をします。
      • 児玉貴志, 植田暢大, 大村和正, 清丸寛一, 村脇有吾, 河原大輔, 黒橋禎夫. テキスト生成モデルによる日本語形態素解析.
      • 栗原健太郎, 二宮大空, 友松祐太. 意味的類似度計算システムによるチャットボットFAQシステムの性能向上.
      • 栗原健太郎, 河原大輔, 柴田知秀. JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良.
      • 井手竜也, 村田栄樹, 堀尾海斗, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 人間と言語モデルに対するプロンプトを用いたゼロからのイベント常識知識グラフ構築.
      • 井手竜也, 榮田亮真, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 対話に基づく常識知識グラフの構築と対話応答生成に対する適用.
      • 吉田あいり, 河原大輔. 日本語 WiC データセットの構築と読みづらさ検出への応用.
      • 今井咲良, 河原大輔, 折田奈甫, 小田博宗. 理論言語学の知見を応用した多言語クラスタリング.
      • 榮田亮真, 井手竜也, 村田栄樹, 河原大輔. 対話行為の分布を利用した雑談対話システムの評価指標.
      • 笠原智仁, 河原大輔, 山崎天, 新里顕大, 佐藤敏紀. Decoderベースの大規模言語モデルに基づくテキスト生成の自動評価指標.
      • 太田聖三郎, 河原大輔, 野村理朗. 機械学習を用いた川柳の面白さの予測.
      • 王昊, 中町礼文, 佐藤敏紀. 日本語の大規模な基盤モデルに対するLoRAチューニング.
      • 王昊, 清水博文, 河原大輔. 言語モデルを用いた漢文の返り点付与と書き下し文生成.
      • Ritvik Choudhary, 河原大輔. 魅力的な対話応答生成のための複数教師による知識蒸留.
      • 田村稔行, 河原大輔. 事前学習モデルに基づく日本語形態素解析器における辞書の利用.
      • 小林俊介, 河原大輔. 複数文書の読解を要する質問の自動生成と質問応答システムへの応用.
      • 植松拓也, 河原大輔. 日本語の分類タスクにおけるカリキュラム学習とマルチタスク学習の効果検証.
      • 村田栄樹, 井手竜也, 榮田亮真, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 大規模言語モデルによって構築された常識知識グラフの拡大と低コストフィルタリング.
      2023/3/7: 日本語版ATOMICおよびCOMET公開
      LINE株式会社との共同研究において構築した、イベントに関する常識知識グラフATOMICと常識生成モデルCOMETの日本語版を、それぞれ公開しました。
      2023/3/4: スキー・スノボ合宿 実施
      3/2-3/4に猪苗代スキー場にて、有志によるスキー・スノボ合宿を実施しました。
        2023/2/28: オープンラボ2023の開催
        3月20日(月)〜23(木)にオープンラボを行います。河原研究室への配属を希望する方は是非参加してください。 ここから予約をお願いします。
        2022/9/24: 夏ゼミ合宿 実施
        9/22-24に軽井沢セミナーハウスにて夏ゼミ合宿を実施しました。
          2022/6/23: NAACL 2022 Student Research Workshop (SRW) 発表
          7/10-15に開催されるNAACL 2022 SRWで以下の研究発表をします。
          • Ryoma Sakaeda and Daisuke Kawahara. Generate, Evaluate, and Select: A Dialogue System with a Response Evaluator for Diversity-Aware Response Generation.
          • Ritvik Choudhary and Daisuke Kawahara. Grounding in Social Media: An Approach to Building a Chit-chat Dialogue Model.
          • Tomohito Kasahara, Daisuke Kawahara, Nguyen Tung, Shengzhe Li, Kenta Shinzato, and Toshinori Sato. Building a Personalized Dialogue System with Prompt-Tuning.
          2022/4/24: ACL 2022 Student Research Workshop (SRW) 発表
          5/22-27に開催されるACL 2022 SRWで以下の研究発表をします。
          • Tatsuya Ide and Daisuke Kawahara. Building a Dialogue Corpus Annotated with Expressed and Experienced Emotions.
          2022/4/11: LREC 2022 発表
          6/21-25に開催されるLREC 2022で以下の研究発表をします。
          • Kentaro Kurihara, Daisuke Kawahara, and Tomohide Shibata. JGLUE: Japanese General Language Understanding Evaluation.
          2022/4/1: 新メンバー配属
          6名の学部生が新たに配属されました。
          2022/3/17:言語処理学会第28回年次大会(NLP2022) 言語資源賞受賞
          M1の栗原健太郎さんが「JGLUE: 日本語言語理解ベンチマーク」で言語資源賞を受賞しました。日本語の言語理解のための標準的なベンチマークとして利用され,研究分野全体の発展に貢献することが期待されます。
          【栗原】日本の資源不足の危機を救いました。
          2022/3/13:言語処理学会第28回年次大会(NLP2022) 発表
          3/14-18に開催されるNLP2022で以下の研究発表をします。
          • 笠原智仁, 河原大輔. Prompt-Tuningによる個性を持った対話システムの構築.
          • 榮田亮真, 河原大輔. 応答の生成・評価・選択による対話システム.
          • 井手竜也, 河原大輔. 表出感情と経験感情をタグ付けした対話コーパスの構築.
          • Ritvik Choudhary, 河原大輔. ソーシャルメディア上のインタラクションを利用したオープンドメイン対話応答生成.
          • 吉田あいり, 河原大輔. 構造的曖昧性に基づく読みづらさの検出.
          • 栗原健太郎, 河原大輔, 柴田知秀. JGLUE: 日本語言語理解ベンチマーク.
          2022/2/14: オープンラボ2022の開催
          3月22日(火)〜24(木)にハイブリッド(予定)でオープンラボを行います。河原研究室への配属を希望する方は是非参加してください。ここから予約をお願いします。
          2021/12/29: GPT-2日本語Pretrainedモデル公開
          形態素解析した日本語WikipediaだけでGPT-2をpretrainingした以下のモデルをHuggingface Modelsに公開しました。
          2021/12/22: RoBERTa日本語Pretrainedモデル公開
          形態素解析した日本語テキストでRoBERTaをpretrainingした以下のモデルをHuggingface Modelsに公開しました。
          2021/8/25: NLP若手の会(YANS)第16回シンポジウム 発表
          8/30-31に開催されるYANS第16回シンポジウムで以下の研究発表をします。
          • 栗原健太郎, 河原大輔, 柴田知秀. 日本語版GLUE構築に向けて.
          • 榮田亮真, 河原大輔. 応答の自動評価モデルとそれを利用した対話システム.
          2021/8/3: LINE株式会社と共同研究開始
          LINE株式会社と共同研究「超大規模日本語言語モデルを用いた対話システムの研究」を開始しました。超大規模日本語言語モデルの効果的な利用方法、評価方法などについて研究を進めます。
          2021/7/15: ヤフー株式会社と共同研究開始
          ヤフー株式会社と共同研究「自然言語処理における日本語評価セットの構築」を開始しました。日本語版言語理解ベンチマークを構築し、公開する予定です。
          2021/4/1: 新メンバー配属
          7名の学部生が新たに配属されました。
          2021/3/27: NAACL-HLT 2021 Student Research Workshop (SRW) 発表
          6/6-11に開催されるNAACL-HLT 2021 SRWで以下の研究発表をします。
          • Tatsuya Ide and Daisuke Kawahara. Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Generation.
          2021/3/16: 言語処理学会第27回年次大会(NLP2021) 発表
          3/15-19に開催されるNLP2021で以下の研究発表をします。
          • 井手竜也, 河原大輔. 生成と分類のマルチタスク学習による感情が考慮された対話応答生成.
          • 榮田亮真, 河原大輔. 逆翻訳とフィルタリングによる擬似対話コーパスの生成とそれを用いた対話システムの学習.
          • 栗原健太郎, 河原大輔. ファクトチェック支援のための含意関係認識システム.
          • 小原京子, 河原大輔, 笹野遼平, 関根聡. 集合知を用いた大規模意味的フレーム知識の構築.
          • 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫. 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良.
          2021/1/15: 2021年度研究室配属個別面談の開催
          3月22日(月)、23(火)に、河原研究室への配属についての個別面談をオンラインで行います。ここから予約してください。質問があれば、河原にメールしてください。
          2020/7/15: COVID-19世界情報集約サイト
          国内の大学・研究機関の情報系研究室とのコラボレーションによって、COVID-19に関する世界の情報を集約するサイトを構築し、公開しています。
          2020/4/1: 研究室活動開始
          配属が決定した学部生のみなさんにはメールしたとおり、4月1日(水)にオンライン・オフライン併用で最初のミーティングを行います。
          2020/3/14: 研究室配属個別面談の開催
          3月20日(金)、23(月)に、河原研究室への配属についての個別面談を行います。ここから予約してください。場所は55号館N棟9階マルチメディア室です。質問があれば、河原にメールしてください。

          Members

          教授

          秘書

          片桐 眞喜子

          博士1年

          山本 貴之

          修士2年

          伊藤 俊太朗

          今井 咲良

          太田 聖三郎

          笠原 智仁

          清水 博文

          修士1年

          植松 拓也

          小林 俊介

          近藤 瑞希

          鈴江 万碧

          堀尾 海斗

          村田 栄樹

          学部4年

          石原 潤人

          尹 子旗

          榎本 倫太郎

          織田 宥楽

          笹川 慶人

          中村 友亮

          山内 悠輔

          加藤 一太

          Research

          言語理解に関する基礎研究

          タグ付きコーパスの構築
          形態素、構文(係り受け)、述語項構造、共参照、固有表現等のアノテーション付きコーパスを構築し、公開しています。
          言語解析器の開発
          形態素解析器、構文解析器、述語項構造解析器、照応解析器を開発し、公開しています。 また、入力誤り(タイポ)訂正のデータセットを構築し、それに基づく訂正システムを開発しています。
          Transformer系事前学習モデルの構築
          転移学習モデルBERT、RoBERTa、GPT2、BARTの事前学習モデルを構築し、公開しています。 また、画像と言語のマルチモーダル事前学習モデルについて研究しています。
          言語理解に資するデータセットの構築
          機械翻訳やクラウドソーシングを用いて自然言語推論(NLI)、常識推論、文章読解データセットを構築し、公開しています。

          応用システム

          対話システムの開発
          感情、性格、個性をもった人間らしい対話システム、また、バラエティのある応答や知識に基づく応答ができる対話システムを開発しています。
          低リソース機械翻訳手法の研究
          低リソース言語対の機械翻訳手法について研究しています。また、古典・現代語変換への応用も検討しています。
          ファクトチェック支援システムの開発
          自然言語推論を利用して、フェイクニュースの判定を支援するためのシステムを開発しています。
          SNSなどの速報性メディアの分析
          国内の大学・研究機関の情報系研究室とのコラボレーションによって、COVID-19に関する世界の情報を集約するサイトを構築し、公開しています。