【Dify】ローカル環境におけるJinaReaderの注意点(解決法未)

ローカル環境でDifyを使っていて、X等でChatflowを経由してKnowledgeにPDFを読み込ませている方がいるかと思います。

僕もやってみたい、と思い、試してみたのですが、、

できませんでした。。

何が起きたのでしょうか?

まずはやってみた

Code; Chatモードの文章の中から、httpを含むURLを抽出するコード

HTTP request; https://jina.ai/reader/にアクセスし、テキスト情報を抽出する

LLM; HTTP requestで返ってきたテキストを要約する

とういう流れです。(ここではKnowledgeの中に格納はしない設定としています)

PDFを読み込ませます。CELLのOpen accessのものを参考にします。(https://www.cell.com/action/showPdf?pii=S0092-8674%2824%2900413-6

しかし、このリンク先ではエラーがでます。

以前も紹介しましたが、この「View Log」を押すと、左側のカラムが出現します。

参考)

【Dify】Chatflowのまともな使い方とdebugの確認の仕方

outputのstatus_codeが200なので、HTTP request自体はちゃんとしているのですが、https://r.jina.ai/https://www.cell.com/action/showPdf?pii=S0092-8674%2824%2900413-6
に内容がない、ということになります。

(outputの”body”の中身がほとんどないため)

このような場合が多々散見されます。今ところ、”Cell”系の雑誌は多い気がします。

実際にJinaReaderにPDFが掲載されているURLを渡してみた

このサイトで同じURLを入れてみます。

このようにJinaAPI上で、URL先を参照しても、なにもありませんよ、という結果が返ってきます。

ですので、Dify上でも動かないのが当然!なのです。

そもそもURL先の構造上、そこにPDFが置いてあるわけではない(らしい)

このことをChoimirai SchoolのSangminさんに相談してみたした。

HTMLの構造を見た結果、タイトル通り、そのpageにPDFが置いてあるわけではなく、そのために、参照ができなかったということがわかった。

この場合、できる方法は下記の通り

1, PDFをアップロードする

2, 自分のクラウドに入れて、共有機能でなんとかする

1 →DifyのChatflowではまだ実装されておらず(2024年6月11日現在)

  これから実装されるように開発チームが頑張っているらしい

クラウドの共有機能を用いて取り込む

Dropbox, Google driveではうまくいかない

悲しいことに、一般的によく使われていると思われる、Dropbox, Google Driveの共有機能ではうまくいきません。

セキュリティがあり、そこがブロックしてしまうようです。

<Dropboxの場合>

AWSのS3やAzure Blobを使用したらアクセスできる(らしい)

再度、Choimirai SchoolのSangminさんに相談したところ、

AWSのS3やAzure Blobを使用したらアクセスができるらしいです。

ただ、個人利用としてはやはり少しハードルが高く感じてしまうのも正直なところ。。

事業としてであれば、契約できるのですが。

一般的な個人、研究者に対して

次の二通りの考え方があるかと思います。

1, 今後のことを見通してサーバーを借りる(お金に余裕がある人、研究費からお金が出る人向き)

2, Chatflow経由でのKnowledge構築はPDFの取り込みができるようになるまで待つ。それまでは通常の方法でKnowledgeを作成しておく。(ChatflowはRAGでの対話用として使用するのみ)

参考)

【Dify】RAGを使って複数の論文をデータベースとしてAIとやりとりする方法

悩ましいですね

まとめ

現状でのローカル環境におけるJinaReader経由でのKnowledge作成の問題点を説明しました。

サーバー代欲しい。。

Leave a Reply

Your email address will not be published. Required fields are marked *

CAPTCHA