用PHP和MySQL创建相关或相似文章

当我们在博客或新闻网站上阅读文章时，我们常常会看到一些推荐的相关或相似文章。这些文章可以增加我们的阅读兴趣，也有利于网站增加用户停留时间和浏览量。在本文中，我们将介绍如何使用PHP和MySQL创建相关或相似文章功能。

阅读更多：MySQL 教程

简介

我们的目标是基于当前正在浏览的文章，查询数据库并返回一些相似的文章。我们可以将相似程度定义为文章中使用相同单词或单词组合的次数。在本文中，我们将使用一种简单的方式来评估相似程度。为了完成该任务，我们需要做以下几步：

从数据库中获取所有文章的标题和正文。
对当前文章的标题和正文进行分词处理。
遍历数据库中的每篇文章，将其标题和正文进行分词处理。
计算当前文章和每篇文章之间的相似度。
返回相似度最高的几篇文章。

让我们一步一步来实现这个过程。

获取文章

我们需要从数据库中获取所有文章的标题和正文。假设我们已经连接了数据库，并且有一个名为“posts”的表存储了我们的所有文章。我们可以使用以下代码来获取所有文章的标题和正文：

$query = "SELECT title, body FROM posts";
$result = mysqli_query($connection, $query);

while ($row = mysqli_fetch_assoc($result)) {
  $title = $row['title'];
  $body = $row['body'];

  // do something with title and body
}

mysqli_free_result($result);

在此代码中，我们使用SELECT语句从数据库中获取文章的标题和正文。我们使用mysqli_fetch_assoc()函数逐行获取结果，并将标题和正文存储到变量中供后续使用。注意，我们在循环结束后使用mysqli_free_result()函数释放结果集。

分词处理

在进行相似度计算之前，我们需要对当前文章和数据库中的每篇文章进行分词处理。这是将文章转换为词的集合的过程。我们可以使用PHP的内置函数explode()来实现这一点。以下代码演示了如何将文章分词处理：

function tokenize( $text) {$ words = explode(' ', strtolower( $text)); // remove stopwords$ stopwords = array('a', 'an', 'the', 'in', 'on', 'at', 'to', 'for');
   $words = array_diff($ words,  $stopwords); return$ words;
}

 $title_words = tokenize($ title);
 $body_words = tokenize($ body);

在此代码中，我们定义了一个名为“tokenize”的函数，它接受一个文本字符串并将其转换为单词数组。我们使用strtolower()函数将文本转换为小写，并使用explode()函数将其拆分为单词。我们还定义了一个名为“stopwords”的数组，其中包含常用单词的集合。我们使用array_diff()函数从单词数组中删除这些常用单词。最后，我们将标题和正文分别传递到该函数中，并获得标题和正文的单词数组。

相似度计算

接下来，我们需要计算当前文章和数据库中每篇文章之间的相似度。我们采用以下方法来评估两篇文章之间的相似度：

对它们的标题和正文进行分词处理。
将两篇文章中共同出现的单词数相加。

为了使计算更加简单，我们将标题和正文中的单词视为相互独立的。这在实际情况下可能并不准确，但可以作为一个简单的起点。

以下代码演示了如何计算当前文章和某篇文章之间的相似度：

function similarity( $title1,$ body1,  $title2,$ body2) {
   $words1 = tokenize($ title1 . ' ' .  $body1);$ words2 = tokenize( $title2 . ' ' .$ body2);
   $common_words = array_unique(array_intersect($ words1,  $words2)); return count($ common_words);
}

 $similarity = similarity($ title1,  $body1,$ title2, $body2);

在此代码中，我们定义了一个名为“similarity”的函数，它接受两篇文章的标题和正文，并返回它们之间的相似度。我们首先将两篇文章的标题和正文传递给“tokenize”函数，将它们转换为单词数组。然后，我们使用array_intersect()函数获取两篇文章中共同出现的单词集合。最后，我们返回该集合的大小。

我们可以在遍历数据库中每篇文章时使用该函数来计算当前文章和该文章之间的相似度，如下所示：

$related_posts = array();

while ($row = mysqli_fetch_assoc($result)) {
  $other_title = $row['title'];
  $other_body = $row['body'];

  $similarity = similarity($title, $body, $other_title, $other_body);

  // add post to related posts if similarity is high enough
  if ($similarity > 5) {
    $related_posts[] = array('title' => $other_title, 'body' => $other_body);
  }
}

在此代码中，我们定义了一个名为“related_posts”的数组，用于存储所有相似度高于阈值的文章。我们使用while循环遍历结果集中的每一行，获取该行对应的标题和正文。然后，我们使用“similarity”函数计算当前文章和该文章之间的相似度。如果相似度大于5，我们将该文章的标题和正文添加到我们的“related_posts”数组中。

返回结果

最后，我们可以将“related_posts”数组中的所有文章作为相似的文章返回。以下代码演示了如何在网页上显示这些文章：

echo '<h2>Related Posts</h2>';
foreach ( $related_posts as$ post) {
  echo '<h3>' .  $post['title'] . '</h3>'; echo '<p>' .$ post['body'] . '</p>';
}

在此代码中，我们使用一个简单的循环来遍历“related_posts”数组中的每一篇文章，并在网页上显示它们的标题和正文。我们可以在网页的任何位置添加这些代码，以便显示相似的文章。

总结

在本文中，我们介绍了如何使用PHP和MySQL创建相关或相似文章功能。我们的实现方法是基于两篇文章中共同出现的单词数来评估它们之间的相似度。我们首先从数据库中获取所有文章的标题和正文，然后使用“tokenize”函数将它们转换为单词数组，然后使用“similarity”函数计算它们之间的相似度，并将相似度高于阈值的文章添加到“related_posts”数组中。最后，我们循环遍历“related_posts”数组，并在网页上显示相似的文章。