概要
chatGPT を研究の補助としてどれだけ使えるか試す。具体的にどんなことができて、どんなことができないのか、問題があるのかを探る研究として。
現時点で分かったこと、気になること
ChatGPT はただ間違うだけでなく、ほとんどすべてのことをポジティブに変換してしまう。これは、ネガティブなポイントについて無関心であることに近しく、問題があると思われる。ポジティブなことの何が問題で、何がそうでないかはまだ見えていない。
あと、ChatGPT は基本的に、人間の延長線上的な動作をしていて、人間が間違えたり、うまく答えを出せないようなことが起こるため、人間を超える存在としての期待はよくない。
ChatGPTを含め、LLMは基本的に、学習データや事前プロンプトに依存して、返答する内容が大きく変わる。これはモデル作成者やモデルを調整した人々の主観や恣意的な視点が、強く反映されることを意味する。
あと質問の仕方を大きくプロンプトに影響を及ぼす。文脈や背景などを十分に表現できていないと、期待したような回答を得られない可能性がある。また、使い方として、LLMが吐き出した内容を再びLLMに取り込むことで、回答が洗練されないか試すなどもある。
AIと人は比べられないのではないかということについて調べるのもありかもしれない。
思った通りの出力結果にならなかったとき、誤解や曲解のように感じられる結果、勝手な補完があるときがあり、非常に不快な気持ちになるのを避けられない場合がある。プロンプトである程度誤解や曲解のように感じられる結果を避けるために明示はできるかもしれないが、限界があると思われる。
明確でない部分があったりすると、LLMは勝手に情報をそれっぽく見せるために補完する恐れがある。
ChatGPTなどに埋め込まれている監視AIについて、どれだけ偏見や偏りがあり、問題があるか確かめる研究というのも一つあるかもしれない。学習データは結局特定の限られた特定の価値観や考え方を持つ人の手がかかっていることや、AIモデル自体は何も考えず、重みに従って入力を変形して出力しているという仕組み上のからも、仕組み的に中立的なAIモデルを作るのは限界があると思われ、どこか差別的で、誰かの偏った個人的な正義や正しさ、間違いなどの定義を大いに含んでいると思われる。現状だとどうあがいてもAIモデルが偏ったり、網羅性に欠けることは避けられないと思われる。
少なくとも chatGPT は、URLを含めてプロンプトを送ると「ブログ記事拝見しました。」などと返ってくるが、実際に見ているか怪しく、それっぽく返答しているだけに見える。”拝見した”結果としてありもしないことを平気で返してくる。
AIモデルは基本偏っているので、偏っていることを前提とし、ある種の人格みたいな感じで作られたモデル一つ一つをみなして、みるというのもあるのかもしれない?たとえば、GPT-4o は常にポジティブなことしか返さない人(何も考えることはできないAIモデル)なんだなみたいな?
やれそうなこと
- 具体的に問題のあるシーンを再現する
- LLMの回答をLLM自身に評価させ、洗練されないか試す
- 研究の案の意図が会話が進むにつれ崩壊するのか
- 出力された回答の扱い方について、どんな項目がありそうか書き出す。
- そもそも単純に、AIと人間の優劣がどうのという比較は適切ではないということについて調べる。
- LLMが勝手にどう物事を補完してしまうかいろいろプロンプトを試す
- LLMのレスポンスに含まれる、ポジティブ、ネガティブな言葉を検出して、それらを赤や青色で色付けし、どのくらい会話が偏っているか指標を示す
難しそうなこと
- ChatGPTなどは同じプロンプトでも、異なる回答をその都度返してくる → 再現性に難がある。
- 評価基準を決めずらい
Ref
- ChatGPT
https://chatgpt.com/ (2025年6月25日)