ローカル環境でDifyを使っていて、X等でChatflowを経由してKnowledgeにPDFを読み込ませている方がいるかと思います。
僕もやってみたい、と思い、試してみたのですが、、
できませんでした。。
何が起きたのでしょうか?
Code; Chatモードの文章の中から、httpを含むURLを抽出するコード
HTTP request; https://jina.ai/reader/にアクセスし、テキスト情報を抽出する
LLM; HTTP requestで返ってきたテキストを要約する
とういう流れです。(ここではKnowledgeの中に格納はしない設定としています)
PDFを読み込ませます。CELLのOpen accessのものを参考にします。(https://www.cell.com/action/showPdf?pii=S0092-8674%2824%2900413-6)
しかし、このリンク先ではエラーがでます。
以前も紹介しましたが、この「View Log」を押すと、左側のカラムが出現します。
参考)
【Dify】Chatflowのまともな使い方とdebugの確認の仕方outputのstatus_codeが200なので、HTTP request自体はちゃんとしているのですが、https://r.jina.ai/https://www.cell.com/action/showPdf?pii=S0092-8674%2824%2900413-6
に内容がない、ということになります。
(outputの”body”の中身がほとんどないため)
このような場合が多々散見されます。今ところ、”Cell”系の雑誌は多い気がします。
このサイトで同じURLを入れてみます。
このようにJinaAPI上で、URL先を参照しても、なにもありませんよ、という結果が返ってきます。
ですので、Dify上でも動かないのが当然!なのです。
このことをChoimirai SchoolのSangminさんに相談してみたした。
HTMLの構造を見た結果、タイトル通り、そのpageにPDFが置いてあるわけではなく、そのために、参照ができなかったということがわかった。
この場合、できる方法は下記の通り
1, PDFをアップロードする
2, 自分のクラウドに入れて、共有機能でなんとかする
1 →DifyのChatflowではまだ実装されておらず(2024年6月11日現在)
これから実装されるように開発チームが頑張っているらしい
悲しいことに、一般的によく使われていると思われる、Dropbox, Google Driveの共有機能ではうまくいきません。
セキュリティがあり、そこがブロックしてしまうようです。
<Dropboxの場合>
再度、Choimirai SchoolのSangminさんに相談したところ、
AWSのS3やAzure Blobを使用したらアクセスができるらしいです。
ただ、個人利用としてはやはり少しハードルが高く感じてしまうのも正直なところ。。
事業としてであれば、契約できるのですが。
次の二通りの考え方があるかと思います。
1, 今後のことを見通してサーバーを借りる(お金に余裕がある人、研究費からお金が出る人向き)
2, Chatflow経由でのKnowledge構築はPDFの取り込みができるようになるまで待つ。それまでは通常の方法でKnowledgeを作成しておく。(ChatflowはRAGでの対話用として使用するのみ)
参考)
【Dify】RAGを使って複数の論文をデータベースとしてAIとやりとりする方法悩ましいですね
現状でのローカル環境におけるJinaReader経由でのKnowledge作成の問題点を説明しました。
サーバー代欲しい。。