1.pdf转图片
yum -y install ImageMagick
yum install ImageMagick-devel
pecl install imagick
安装imageMagick和imagick php扩展
写道
function pdf2png($PDF,$Path){
if(!extension_loaded('imagick')){
return false;
}
if(!file_exists($PDF)){
return false;
}
$IM =new imagick();
$IM->setResolution(100,100);
$IM->setCompressionQuality(3);
$IM->readImage($PDF);
foreach($IM as $Key => $Var){
$Var->setImageFormat('png');
$Var->rotateImage(new ImagickPixel(), 90);
$Filename = $Path.'/'.md5($Key.time()).'.png';
if($Var->writeImage($Filename)==true){
$Return[]= $Filename;
}
}
return $Return;
?>
if(!extension_loaded('imagick')){
return false;
}
if(!file_exists($PDF)){
return false;
}
$IM =new imagick();
$IM->setResolution(100,100);
$IM->setCompressionQuality(3);
$IM->readImage($PDF);
foreach($IM as $Key => $Var){
$Var->setImageFormat('png');
$Var->rotateImage(new ImagickPixel(), 90);
$Filename = $Path.'/'.md5($Key.time()).'.png';
if($Var->writeImage($Filename)==true){
$Return[]= $Filename;
}
}
return $Return;
?>
2 OCR识别文字
调用http://ocr.wdku.net/模拟提交识别请求
3 读取pdf中的文件内容
调用pdfparser
<?php // 创建源码中的Parser类对象 $path = "20170717_171204.pdf"; $parser = new Smalot\PdfParser\Parser(); // 调用解析方法,参数为pdf文件路径,返回结果为Document类对象 $document = $parser->parseFile($path); // 获取所有的页 $pages = $document->getPages(); // 逐页提取文本 foreach($pages as $page){ echo($page->getText()); } ?>