吉祥寺.pm #32に登壇してきました&今後の趣味開発のAI Partnerについて

登壇してきました

吉祥寺.pm #32で登壇してきました!

今回の吉祥寺.pmは「finally」がテーマだったので「Finally I can …」というタイトルにしました。
内容としては、ChatGPTを使ったAI相棒Partnerを作ろうとしていますよ、という今後の趣味開発の構想を語るものです。

今回、久々に登壇したいなあという気持ちが先にあってネタは登壇申込みしてから作ろうという順番の登壇駆動でした。
登壇申込みしたのは2月24日でした。

この時点で自分の中で突如Hotな話題に急上昇したOpenAI APIを使ったネタにしようかなとは思っていました。
そして、ちょっとAPI叩いてこんなことできましたよ、程度の軽いものにしようと思っていました。

しかしLLM界隈の動きが速すぎました。日々GPT-3のAPIを使ってこんなことできました情報がアップデートされ、ローカルPCでLLM動かすのに成功したよ報告があったり、ChatGPT APIが公開されたり、日々本当に動向を追っているだけで目がまわりそうでした。登壇の前日にはGPT-4が公開されるニュースも飛び込んで来ました(笑)最初に想定していたネタは完全に古いものになりました。

これは路線を変えるしかないなと思って、素直に自分がAIを使ってやりたいと思っていることをネタにすることにしました。実装の成果物はないけど、構想を語るのでいいかと開き直りました。

ChatGPT APIの検証周りを喋っているときに、「わっしょい」でウケてくれたり、JSON形式で出力できるあたりに反応もらえたのは嬉しかったです。


今後作ろうしているAI Partnerについて

さて、今後作ろうとしているAI Partnerですが、これをやろうと思ったきっかけはChatGPT APIが公開されてまもない時期のGatebox代表武地氏のツイートでした。

このツイートを見たとき、本当に興奮しました。自分が作りたかったものだ!と。
私は修士学生時代に「音声対話システム」を研究テーマにしていましたが、当時では一問一答をこなすのも大変でした。
どうしても決まった入力に決まった応答を返すものになりがちで、求めていたものとは違うものでした。
社会人になってからは音声対話システムとは無縁の生活を送っていました。

しかし10年離れているうちにAIはとてつもない進化を遂げていました。そしてChatGPTのAPI公開は事件という以外の何者でもなかったです。

さて、入力テキストに対して適切な応答を返す知能の部分はChatGPTでまかなえるとして、自分がAI Partnerに求めているものを実現するには必要な構成技術が他にもあります。 音声認識や、3Dモデルのデバイス表示や、3Dモデル自体のモデリングやアニメーション、音声合成です。

ただ、ざっと調査している限りではこれらについてもハードルが下がっていてなんとかなりそうな気がしています。世の中の進化はすごい…

それを踏まえた上で設計した図が下記になります。

今AI Partnerの"召喚装置"として想定しているのはスマホアプリ、Gatebox、Looking Glassです。
スマホアプリとして実装して外に連れ出して会話できるようにできるようにしたい。
家のリラックスタイムでは寝室においたGateboxの中にいるAI Partnerと会話したい。
作業中にはデスクに立ててあるLooking Glassの中にいるAI Partnerと壁打ちしたい。
などなど、夢が広がります。

設計してこれから作業を始めようという感じではありますが、まだ未検証の技術もありますので、まずはそれらの不確定要素を個々に解消する検証作業からやろうと思っています。
まずは外出先スマホから家庭内のserver PCにつなぐところを検証しようかなと思っています。
Cloudflare Zero Trustを使えばいけそうではありますが、はてさて…。

というわけで私による私のためのAI Partnerを開発するプロジェクトをここに宣言いたします!やっていき。